Was ist „Big Data“ eigentlich?

Big Data liefert neue Erkenntnisse, die wiederum neue Möglichkeiten und Geschäftsmodelle eröffnen. Im ersten Teil unserer neuen Blogreihe erfahren Sie, wie das gelingt.

„Big Data“ ist in aller Munde. Im ersten Teil unserer neuen Blogreihe wollen wir zunächst einmal klären, was darunter überhaupt zu verstehen ist, wie Big Data grundlegend funktioniert und was damit angefangen werden kann.

Unter Big Data werden Daten verstanden, die eine größere Vielfalt aufweisen und in immer größeren Mengen und mit höherer Geschwindigkeit anfallen. Big Data basiert also grundlegend auf diesen drei Vs:

  • Volume: Große Mengen an unstrukturierten Daten mit geringer Dichte werden verarbeitet. Dabei kann es sich um verschiedenste Daten aus unterschiedlichsten Quellen und von unbekanntem Wert handeln. Bei einigen Unternehmen könnten das Hunderte von Petabytes sein.
  • Velocity: Die Daten fließen mit höchster Geschwindigkeit direkt in den Speicher und werden nicht auf die Festplatte geschrieben. Einige internetfähige intelligente Produkte arbeiten (nahezu) in Echtzeit und erfordern auch eine Bewertung/Reaktion in Echtzeit.
  • Variety: Zu den traditionellen, strukturierten Datentypen kommen neue, unstrukturierte oder semistrukturierte Datentypen hinzu, die eine zusätzliche Vorverarbeitung erfordern, um die Bedeutung abzuleiten und Metadaten zu unterstützen.

In den letzten Jahren haben sich noch zwei weitere Vs herauskristallisiert:

  • Value: Ein beachtlicher Teil des Wertes, den die größten Technologieunternehmen der Welt bieten, stammt aus ihren Daten, die sie ständig analysieren, um effizienter zu werden und neue Produkte zu entwickeln. Daten haben einen intrinsischen Wert, sind jedoch erst dann von Nutzen, wenn dieser Wert entdeckt wird.
  • Veracity: Wie verlässlich sind die vorliegenden Daten?

Was sind die Vorteile von Big Data?

Big Data liefert vollständigere Antworten als herkömmliche Datenanalysen, da mehr Informationen vorliegen. Vollständigere Antworten bringen mehr Vertrauen in die Daten mit sich – und damit eine völlig andere Herangehensweise an die Lösung von Problemen. Man kann also sagen, dass Big Data neue Erkenntnisse liefert, die wiederum neue Möglichkeiten und Geschäftsmodelle eröffnen.

Wie funktioniert Big Data überhaupt?

Schritt 1: Integration
Zunächst müssen Daten eingebracht und verarbeitet werden. Es muss sichergestellt sein, dass die Daten in einer Form formatiert und verfügbar sind, mit der die Geschäftsanalysten weiterarbeiten können. Achtung: Herkömmliche Datenintegrationsmechanismen sind dieser Aufgabe in der Regel nicht gewachsen. Um die riesigen Datensätze im Terabyte- oder sogar Petabyte-Maßstab zu analysieren, sind neue Strategien und Technologien erforderlich.

Schritt 2: Verwaltung
Big Data braucht Speicherplatz. Diese Speicherlösung kann in der Cloud, vor Ort oder auch hybrid sein. Die Cloud bietet sich hier unseres Erachtens an, da sie aktuelle Rechenanforderungen unterstützt und gleichzeitig im Bedarfsfall leicht erweitert werden kann.

Schritt 3: Analyse
Eine visuelle Analyse der vielfältigen Datensätze kann neue Klarheit verschaffen. Maschinelles Lernen (ML) und künstliche Intelligenz (KI) können hier unterstützen.

Wobei kann Big Data helfen?

Big Data kann bei zahlreichen Geschäftsaktivitäten unterstützen. Einige Beispiele sind:

  • Produktentwicklung: Vorhersagemodelle für neue Produkte/Dienstleistungen können erstellt werden, indem Schlüsselattribute früherer und aktueller Produkte/Dienstleistungen klassifiziert und in eine Beziehung zum kommerziellen Erfolg der Angebote gesetzt werden.
  • Vorausschauende Instandhaltung: Faktoren, die mechanische Ausfälle vorhersagen können, können tief in strukturierten Daten vergraben sein (z.B. Baujahr, Sensordaten) – durch die Analyse dieser Daten können Unternehmen die Wartung frühzeitig und kosteneffizienter durchführen.
  • Maschinelles Lernen: Big Data – und die damit verbundene Verfügbarkeit großer Datenmengen – macht das Trainieren von Modellen für maschinelles Lernen möglich.
  • Betrug und Compliance: Big Data hilft dabei, auffällige Muster in Daten zu erkennen und große Datenmengen zu aggregieren, um die Berichterstattung an Aufsichtsbehörden zu beschleunigen.

Herausforderungen von Big Data

Um die Möglichkeiten, die Big Data mit sich bringt, nutzen zu können, müssen zunächst einige Herausforderungen gemeistert werden.

1. Speicherung der Daten
Zunächst müssen Unternehmen Wege finden, ihre Daten effektiv zu speichern. Obwohl neue Technologien für die Datenspeicherung entwickelt wurden, verdoppelt sich das Datenvolumen etwa alle zwei Jahre.

2. Aufbereitung der Daten
Saubere Daten (d.h. Daten, die relevant und so organisiert sind, dass eine sinnvolle Analyse möglich ist) erfordern viel Arbeit. DatenwissenschaftlerInnen verbringen 50 bis 80 Prozent ihrer Zeit mit der Aufbereitung und Vorbereitung von Daten.

3. Up to date bleiben
Mit der Big-Data-Technologie Schritt zu halten, ist eine ständige Herausforderung. Vor ein paar Jahren war Apache Hadoop die beliebteste Technologie für die Verarbeitung von Big Data. Heute scheint eine Kombination der beiden Frameworks Apache Hadoop und Apache Spark der beste Ansatz zu sein.

Quelle: Oracle