Plus IT > Ressource Center > Blog > Eintauchen in den Data Lake

Eintauchen in den Data Lake

Neben Arbeit, Kapital und Umwelt sind Daten ein neuer, immer wichtiger werdender Produktionsfaktor geworden. Big Data ist der große Überbegriff. Nicht nur die Menge der Daten ist exponentiell angestiegen, sondern es sind auch neue Typen von Daten hinzugekommen, u. a. technische Logdateien, Sensordaten oder Daten aus Social Media. Mittels Datenanalyse soll Nutzen aus Big Data – also der Masse an Daten – gezogen werden.

Bis vor wenigen Jahren war man sich stets bewusst, mit welchen Daten man es zu tun hat – in der Regel Finanzdaten und Daten aus dem operativen Geschäft. Diese wurden manuell gesammelt und ausgewertet. Als diese Datenflut kontinuierlich wuchs, wurde Data Warehouse geschaffen, welches Daten automatisiert aus verschiedenen, unabhängigen Quellen sammelt und strukturiert ablegt. Anschließen konnte man mit Hilfe verschiedensten Tools und Technologien den vorhandenen Geschäftsprozessen ausgewertet. Man kannte also den Input ebenso wie den erwarteten Output.

Mit der Weiterentwicklung der Technologien wurden Daten immer besser technisch verfügbar und somit nutzbar – allerdings war man sich immer weniger bewusst, wofür. Daten werden gesammelt, weil sie gesammelt werden können. Und damit ist eine strukturierte Ablage schwierig geworden.

Dafür entstand die Data Lake Technologie. Mit Daten wird toleranter umgegangen. Unstrukturierte Quellen wie Text-, Bilder oder Sensordaten werden in ihrer Ursprungsform abgelegt und nur dann umgewandelt und verfügbar gemacht, wenn ein entsprechender Bedarf besteht. Dieses „Schema-on Read“ ist der grundlegende Unterschied zu einem Data Warehouse, dass das „Schema-on-Write“ nutzt.

Data Warehouse vs Data Lake

Durch die Nutzung eines Data Lake kann agil auf Veränderungen reagiert werden. Sobald sich eine neue Fragestellung ergibt, kann der „Daten See“ nach Daten durchfischt werden, die für die konkrete Fragestellung zur Lösung beitragen können. Mit einem Data Warehouse werden Analyseergebnisse für eine beschleunigte Entscheidungsfindung generiert, während mit einem Data Lake Data Scientists arbeiten, die Daten zusammenführen und daraus ganz neue Fragen und entsprechende Antworten entwickeln.

Die Rohdaten für ein Data Warehouse müssen also vorbereitet werden, was den gesamten Prozess aufwendig und teuer macht. In einem Data Lake wird erst einmal nur unabhängig gesammelt. Die Speicherung im Hadoop ist nahezu kostenlos. Damit wächst aber auch die Gefahr, im Datenwust zu ersticken und den Datalake zu einem Datensumpf umzufunktionieren.

Jeder von uns kennt das im alltäglichen Leben. Während früher Fotos sehr bewusst geschossen wurden und diese dann in Alben o. ä. abgelegt wurden, kann heute jeder so viel Fotos kostenlos machen wie es ihm beliebt. Das Smartphone quillt über von Fotos. Nicht nur die selbst gemachten, auch gesendete Fotos „verunreinigen“ die Ablage. Die Übersicht fehlt und erst bei Bedarf werden diese Bilder gesichtet, abgelegt, bearbeitet oder – das Schicksal der meisten Bilder – einfach gelöscht, weil sie keine Verwendung finden. So oder so ähnlich darf man sich das Prinzip eines Data Lake vorstellen.

Vom Chaos zur Struktur

Unsere intelligenten Smartphones helfen uns schon automatisch: Sie strukturieren in eigene Aufnahmen, sortieren und legen ab nach Datum, Ort etc. Ebenso müssen auch die Daten im Data Lake mit Attributen und Metadaten versehen sein, um sie für einen möglichen Einsatz gezielt suchen und finden zu können.

Mittlerweile bieten auch Unternehmen Data Lake Technologien zum Sammeln, Ablegen, Bearbeiten und Analysieren der Daten an. Eine der bekanntesten Lösungen ist z.B. der Microsoft Azure Data Lake. Ausgestattet mit allen erforderlichen Funktionen für Entwickler, Scientists und Analysten können die Daten unabhängig von Größe, Format und Geschwindigkeit gespeichert werden. Analysen können mit Batch-, Streaming und interaktiven Analysen schnell ausgeführt werden. Zudem lässt sich ein Azure Data Lake mit vorhandenen IT-Systemen für Identitäten, zur Verwaltung und Sicherheit einsetzen und an ein vorhandenes Data Warehouse anbinden – nutzbar beispielsweise für Power BI. Daten werden bei Bedarf verarbeitet, bezahlt wird pro Auftrag.

Die Anzahl der Anwender in Europa für Data Lake / Hadoop Lösungen steigt kontinuierlich, auch wenn sie weit hinter der Nutzerzahl in Nordamerika zurück bleibt.

Customer Intelligence und Predictive Analytics sind die am häufigsten umgesetzten Projekte. Anwender sehen diese neuen Technologien vor allem als (potentielle) Technologie zur Umsetzung neuartiger Anwendungsfälle.

Fazit

Data Lake bzw. Hadoop ist eine Technologie zum Sammeln von Daten ohne über die Verwendung Bescheid zu wissen. Das ist der Trick. Analysten und Scientists wollen neue Fragen stellen bevor sie zu Antworten kommen. Gesammelt werden z. B. Social Media Daten (Texte, Bilder) oder auch Protokolle von Webseitennutzungen. Hieraus werden neue Erkenntnisse gewonnen, die dann geschäftsunterstützend angewendet werden können – vielleicht strukturiert in einem Data Warehouse.

Bei Fragen zu Ihrer Datenarchitektur und Möglichkeiten zur professionellen Analyse unterstützen wir Sie gerne – nehmen Sie einfach Kontakt mit uns auf.

Rastislav Paluv

Rastislav Paluv ist Senior BI Consultant und berät Kunden seit über acht Jahren im Bereich Datenstruktur und -analyse. Er ist zertifiziert im Bereich Microsoft SQL Server und hat ein breites Know-How im Software Engineering.

Ähnliche Blogartikel

Die folgenden Beiträge zum Thema könnten Sie auch interessieren:

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert