Was ist ein „Data Lake“?

strong>Ein Data Lake ist ein zentrales Repository, in dem alle strukturierten und unstrukturierten Daten in beliebigem Umfang gespeichert werden können. Wir zeigen Ihnen, was das genau bedeutet und worin die Vor- bzw. Nachteile liegen.

Der Begriff Data Lake beschreibt einen sehr großen Datenspeicher, der Daten aus den unterschiedlichsten Quellen aufnimmt. Die Besonderheit gegenüber normalen Datenbanken: Ein Data Lake nimmt die Daten in ihrem ursprünglichen Rohformat auf. Dabei kann es sich sowohl um strukturierte, als auch um unstrukturierte Daten halten – sie müssen vor der Speicherung nicht validiert oder umformatiert werden. Eine Strukturierung oder gegebenenfalls Umformatierung der Daten erfolgt erst, wenn die betreffenden Daten benötigt werden. So lässt sich der „Datensee“ (wörtliche Übersetzung) aus den verschiedensten Quellen speisen und für flexible Analysen im Big-Data-Umfeld ideal nutzen.

Das Konzept des Data Lakes wird von vielen Frameworks und Filesystemen für Big-Data-Anwendungen sowie vom verteilten Speichern von Daten unterstützt. Mit dem Distributed File System von Apache Hadoop (Hadoop Distributed File System – HDFS) lassen sich beispielsweise Data Lakes realisieren. Alternativ können Data Lakes auch mit Cloud Services wie Azure Data Lake und Amazon Web Services (AWS) umgesetzt werden.

Anforderungen an einen Data Lake

Um die Anforderungen der auf den Informationen aufsetzenden Anwendungen zu erfüllen, muss ein Data Lake wiederum folgende Anforderungen erfüllen:

  • Unterschiedlichste Daten bzw. Datenformate müssen sich ablegen lassen, um verteilte Datensilos zu vermeiden.
  • Gängige Frameworks und Protokolle der Datenbanksysteme und Datenbankanwendungen aus dem Big-Data-Umfeld sind zu unterstützen, um eine möglichst flexible Nutzung der Daten zu ermöglichen.
  • Folgende Maßnahmen sind zu ergreifen, um Datenschutz und Datensicherheit zu gewährleisten: Eine rollenbasierte Zugriffskontrolle, eine Verschlüsselung der Daten sowie Mechanismen zur Sicherung und Wiederherstellung der Daten.

Vor- und Nachteile eines Data Lakes

➕ Aussagekräftigere und tiefergehende Analysen dank der Vielzahl an bereitgestellten Informationen
➕ Schnelle Speichervorgänge durch die Speicherung der Daten in ihrem Rohformat (ohne vorherige Strukturierung oder Umformatierung)
➕ Geringe Anforderungen in Sachen Rechenleistung, selbst für die Speicherung großer Datenmengen
➕ Keine Einschränkung der Analysemöglichkeiten (durch die Aufnahme sämtlicher Daten)

➖ Hohe Anforderungen in puncto Datenschutz und Datensicherheit (je mehr Daten und je mehr Zusammenhänge, desto schutzbedürftiger)

Quelle: BigData-Insider