Big Data

Vor 60 Jahren war eine 5-Megabyte-Festplatte doppelt so groß wie ein Kühlschrank und wog etwa eine Tonne. Eine moderne Festplatte in jedem Computer fasst bis zu anderthalb Terabyte und ist kleiner als ein normales Buch. Heutzutage wird Big Data in Petabyte gemessen. Ein Petabyte entspricht einer Million Gigabyte. Ein dreistündiger 4K-Film ist etwa 60 bis 90 Gigabyte groß, die gesamten YouTube-Inhalte entsprechen etwa 5 Petabyte bzw. 67.000 solcher Filme.

Wie funktioniert die Big-Data-Technologie?

Big-Data-Erfassungsquellen werden in drei Arten unterteilt:

  • sozial
  • maschinell
  • transaktional

Alles, was eine Person online tut, ist eine Quelle für Social Big Data. Jede Sekunde laden Nutzer 1.000 Fotos auf Instagram hoch und versenden mehr als 3 Millionen E-Mails. Jeder zweite persönliche Beitrag jeder Person beträgt durchschnittlich 1,7 Megabyte. Andere Beispiele für soziale Big-Data-Quellen sind Statistiken über Länder und Städte, Daten zum Personenverkehr, die Registrierung von Todesfällen und Geburten sowie Krankenakten.

Big Data wird auch durch Maschinen, Sensoren und das Internet of Things (IoT) generiert. Informationen werden von Smartphones, Smart Speakern, Glühbirnen und Smart-Home-Systemen, Videokameras auf den Straßen und Wettersatelliten empfangen. Die Transaktionsdaten entstehen aus Käufen, Geldüberweisungen, Warenlieferungen und Geldautomatentransaktionen.

Wie werden Big Data verarbeitet?

Big-Data sind so groß, dass diese nicht durch eine einfache Excel-Anwendung verarbeitet werden kann. Daher wird eine spezielle Software verwendet, um mit Big-Data umzugehen. Diese Software wird als „horizontal skalierbar“ bezeichnet, weil Aufgaben auf mehrere Computer verteilt werden, die gleichzeitig Informationen verarbeiten. Je mehr Maschinen an der Arbeit beteiligt sind, desto höher ist die Produktivität des Prozesses. Diese Software basiert auf MapReduce, einem parallelen Rechenmodell. Das Modell kann so funktionieren:

  • Zuerst werden die Daten nach den festgelegten Bedingungen gefiltert, sortiert und auf einzelne Computer (Knoten) verteilt.
  • Anschließend berechnen die Knoten ihre Datenblöcke parallel und übergeben das Berechnungsergebnis an die nächste Iteration.

MapReduce ist kein spezielles Programm, sondern ein Algorithmus, mit dem die meisten Probleme der Big-Data-Verarbeitung gelöst werden können. Auf MapReduce basieren:

  • Hadoop: eine Open-Source-Softwaresuite für die Dateispeicherung, Planung und Datenzusammenarbeit. Das System ist so ausgelegt, dass bei Ausfall eines Knotens die Last sofort auf andere umverteilt wird, ohne die Berechnungen zu unterbrechen.
  • Apache Spark: eine Reihe von Bibliotheken, mit denen die Berechnungen im Speicher durchgeführt werden und wiederholt auf die Ergebnisse von Berechnungen zugegriffen werden kann. Die Software wird verwendet, um eine Vielzahl von Aufgaben zu lösen – von der einfachen Datenverarbeitung und -filterung bis hin zum maschinellen Lernen.

Big-Data-Wissenschaftler verwenden Hadoop für den Aufbau einer Dateninfrastruktur und Spark für die Verarbeitung von Streaming-Informationen in Echtzeit.

Wo wird Big-Data-Analyse eingesetzt?

Big Data werden in Marketing, Transport, Automobil, Gesundheitswesen, Wissenschaft, Landwirtschaft und anderen Bereichen benötigt, für die erforderliche Datensätze gesammelt und verarbeitet werden können. Unternehmen benötigen Big Data:

  • um Prozesse zu optimieren. Große Banken nutzen Big Data, um einen Chatbot zu trainieren – ein Programm, das bei einfachen Themen einen Live-Mitarbeiter ersetzt und bei Bedarf zu einem Spezialisten wechselt.
  • um Vorhersagen zu treffen. Durch die Analyse großer Verkaufsdaten können Unternehmen das Kundenverhalten und die Verbrauchernachfrage nach Produkten basierend auf der Jahreszeit oder der Situation in der Welt vorhersagen.
  • um Modelle zu erstellen. Durch die Analyse von Gewinn- und Kostendaten kann ein Unternehmen ein Modell erstellen, um den Umsatz vorherzusagen.

Die Big-Data-Analyse erlaubt es nicht nur die Informationen zu systematisieren, sondern auch nicht offensichtliche Ursache-Wirkungs-Beziehungen zu finden.

Warenverkauf: Der Online-Marktplatz Amazon verwendet ein Produktempfehlungssystem, das auf maschinellem Lernen basiert. Es berücksichtigt nicht nur das Verhalten und die bisherigen Einkäufe des Nutzers, sondern beispielsweise auch Jahreszeit und bevorstehende Feiertage. Nachdem dieses System funktionierte, generierten Empfehlungen 35 Prozent aller Serviceverkäufe.

Das amerikanische Netzwerk Kroger verwendet Big Data, um Coupons zu personalisieren, die die Käufer per E-Mail erhalten. Nachdem diese für für bestimmte Käufer individualisiert wurden, stieg der Anteil der Käufe nur für diese Personen von 3,7 auf 70 Prozent.

Einstellung von Mitarbeitern: Einige große Unternehmen haben sich entschieden, auf Roboter-Recruiting zurückzugreifen, um diejenigen auszusondern, die nicht an der Stelle interessiert sind, oder bereits in der Anfangsphase der Mitarbeitersuche nicht zu einem Stellenprofil passen. So hat die Firma Staffery einen Roboter entwickelt, der die Lebensläufe sortiert, erste Anrufe tätigt und interessierte Kandidaten auswählt. So hat PepsiCo hat durch die Verwendung eines Robotes fast 10 Prozent der Stellen besetzt.

Banken nutzen Big Data sehr aktiv, um ihre Kunden vor Betrug zu schützen. Durch dieser Technologien werden Anomalien im Nutzerverhalten, atypische Käufe oder Überweisungen erkannt. Bereits 2017 konnte das Kreditkartenunternehmen Visa durch die Datenanalysen jährlich Betrug in Höhe von 2 Milliarden Dollar verhindern.

Autohersteller: Im Jahr 2020 stand Toyota vor einem Problem: Die Ursache einer großen Anzahl von Unfällen musste ermittelt werden. Auslöser der Unfälle war, dass die Fahrer Gas- und Bremspedal falsch verwendeten. Das Unternehmen sammelte Daten von den mit dem Internet verbundenen Autos und hat dadurch festgestellt, wie Menschen in die Pedale traten. Es stellte sich heraus, dass Kraft und Geschwindigkeit des Drucks unterschiedlich waren, je nachdem, ob die Person verlangsamen oder beschleunigen möchte. Jetzt entwickelt das Unternehmen ein System, das die Art des Drucks auf die Pedale während der Fahrt bestimmt und das Auto verlangsamt, wenn der Fahrer zwar auf das Gaspedal tritt, aber nur so tut, als ob er bremsen möchte.

Medizin: Amerikanische Wissenschaftler haben gelernt, durch Big Data zu bestimmen, wie sich Depressionen ausbreiten. Die Forscherin Moonmun De Chaudhury und ihre Kollegen haben mit Geotags versehene Nachrichten von Twitter, Facebook und Reddit in das Vorhersagemodell hochgeladen. Solche Nachrichten wurden für bestimmte Wörter ausgewählt, die auf depressive Zustände hinweisen könnten. Die Berechnungen stimmten mit den offiziellen Daten überein.

Marketing nutzt Social Big Data, um die Benutzer nach Interessen zu gruppieren und Anzeigen für sie zu personalisieren. Die Personen werden nach Alter, Geschlecht, Interessen und Wohnort geordnet. Wer in der gleichen Region lebt, die gleichen Orte besucht, Videos anschaut und Artikel zu ähnlichen Themen liest, interessiert sich wahrscheinlich für die gleichen Produkte. Dabei kommt es regelmäßig zu Skandalen um den Einsatz von Big Data im Marketing. So wurde der Streaming-Plattform Netflix im Jahr 2018 Rassismus vorgeworfen, weil sie Nutzern je nach Geschlecht und Nationalität unterschiedliche Poster von Filmen und Serien gezeigt hat.

Medien: Mit Hilfe der Big-Data-Analyse messen Medien das Publikum. In diesem Fall kann Big Data sogar Auswirkungen auf die redaktionelle Politik haben. So kann ein System verwendet werden, um Statistiken über Besuche, Kommentare und andere Benutzeraktionen in Echtzeit anzuzeigen sowie analytische Berichte zu erstellen.

Logistik: Der Einsatz von Big Data hilft, den Transport zu optimieren, die Lieferung schneller und billiger zu machen. Bei DHL hat die Arbeit mit Big Data das sogenannte Last-Mile-Problem berührt, bei dem das Durchfahren von Höfen und die Parkplatzsuche vor der Bestellung insgesamt 28 Prozent der Versandkosten verschlingt. Das Unternehmen begann, die „letzten Meilen“ anhand von GPS-Informationen und Daten zur Verkehrslage zu analysieren. Dadurch konnten Kraftstoffkosten und Lieferzeit reduziert werden.

In einem Unternehmen helfen Big Data dabei, die Qualität der Arbeit der Mitarbeiter, die Einhaltung von Terminen und die Richtigkeit ihres Handelns zu verfolgen. Zur Analyse werden Maschinendaten beispielsweise von Paketscannern in Filialen und Social-Data-Bewertungen von Filialbesuchern in der Anwendung, auf Websites und in sozialen Netzwerken verwendet.

Fotobearbeitung: Bis 2016 gab es keine neuronale Netztechnologie auf mobilen Geräten, sie galt sogar als unmöglich. Ein Durchbruch in diesem Bereich ermöglicht es uns heute, eine Vielzahl von Filtern, Stilen und unterschiedlichen Effekten auf Fotos und Videos zu verwenden.

Immobiliengeschäft: Als Beispiel hier gilt Airbnb, das Big Data nutzt, um das Nutzerverhalten zu ändern. Bei der Analyse hat das Unternehmen festgestellt, dass Kunden aus Asien die Firmen-Website schnell verließen und nicht zurückkehrten. Es stellte sich heraus, dass die Besucher von der Hauptseite zu „Orte in der Nähe“ abgelenkt werden und sich die Fotos ohne weitere Buchung ansahen. Das Unternehmen hat das Nutzerverhalten detaillierte analysiert und Links im Bereich „Orte in der Nähe“ durch die beliebtesten Reiseziele in asiatischen Ländern ersetzt. Infolgedessen stieg die Conversion zu Buchungen aus diesem Teil der Welt um 10 Prozent.

Wer beschäftigt sich mit Big Data?

Es gibt drei Hauptberufe im Bereich für Big Data: Data Scientist, Data Analyst und Data Engineer. Data Scientists sind auf Big Data-Analysen spezialisiert. Sie suchen nach Mustern, bauen Modelle und sagen darauf basierend zukünftige Ereignisse voraus. Ein Big-Data-Forscher kann beispielsweise Statistiken über Geldautomatenabhebungen verwenden, um ein mathematisches Modell zur Vorhersage der Bargeldnachfrage zu entwickeln. Dieses System informiert, mit wie viel Geld wann ein bestimmter Geldautomat bestückt werden muss. Um diesen Beruf zu lernen, bedarf es Kenntnissen zu Grundlagen der Infinitesimalrechnung und die Programmiersprachen wie Python oder R, sowie die Fähigkeit, mit SQL-Datenbanken arbeiten zu können.

Der Datenanalyst verwendet die gleichen Tools wie ein Datenwissenschaftler, jedoch für andere Zwecke. Seine Aufgaben sind die deskriptive Analyse, Interpretation und Darstellung von Daten in leicht lesbarer Form. Es verarbeitet Daten und produziert Ergebnisse, erstellt analytische Berichte, Statistiken und Prognosen.

Der Dateningenieur beschäftigt sich mit der technischen Seite des Themas: Er organisiert deren Sammlung, Speicherung und Erstverarbeitung. Außerdem helfen Dateningenieure den Forschern bei der Entwicklung von Software und Algorithmen zur Automatisierung von Aufgaben. Ohne solche Tools wären Big Data nutzlos, da ihre Mengen nicht verarbeitet werden können. Für diesen Beruf sind Python- und SQL-Kenntnisse wichtig, ebenso wie der Umgang mit Frameworks wie Spark.