Strukturierung von Data Lakes – das A und O für optimale Performance

Strukturierung von Data Lakes – das A und O für optimale Performance

Von Christoph Storzum, Regional Director DACH, Scality

Je größer Data Lakes werden, desto schwieriger wird es, die riesigen Datenmengen zu analysieren und Erkenntnisse abzuleiten. Angesichts des globalen Datenvolumens, das bis 2025 voraussichtlich 175 Zettabytes erreichen wird, stellt dies keine geringe Herausforderung dar. Data Lakes können schnell zu Datensümpfen mutieren, in denen die Daten bei steigendem Volumen immer schwieriger zu finden und zu identifizieren sind.

Für Rechenzentren bedeutet das einen zusätzlichen Zeit- und Kostenaufwand. Die Teams sind unter Umständen nicht in der Lage, das zu finden, was sie benötigen – und sie wissen vielleicht nicht einmal, wo sie überhaupt suchen sollen. Für den Endnutzer ein Problem, das sich direkt auf das jeweilige Betätigungsfeld auswirkt – sei es medizinische Forschung, Finanztransaktionen, Einzelhandelsberichte oder einfach der effizientere Betrieb von E-Commerce-Systemen.

In der Vergangenheit erstellten Teams Data-Warehouses mit Hilfe von Datenbankmanagement-Systemen. Da viele Datenbanken nicht für unstrukturierte Daten geeignet waren, wurde zusätzlich ein separates Dateisystem-Repository verwendet, um verwandte Dateien, Bilder und Protokolle zu verknüpfen. Leider bedeutete dies für die Betreiber von Rechenzentren, dass sie zwei Daten-Repositorien verwalten und bei Datenänderungen synchron halten mussten.

Beim Aufbau von Data Lakes legen Teams den Schwerpunkt zu oft auf die Eignung und die Fähigkeiten ihrer Analysetools. Stattdessen sollten sie das Speicher-Repository, dass die Daten beherbergt, genau unter die Lupe nehmen, um sicherzustellen, dass es 1) Daten aus verschiedenen Quellen verarbeiten, 2) Leistung und Kapazität skalieren und 3) Daten für die jeweils korrekten Benutzer und Anwendungen zugänglich machen kann.

Dateisysteme vs. Objektspeicher für Data Lakes

Wie bereits erwähnt, zwangen althergebrachte, relationale Datenbankmanagement-Systeme (RDBMS) den Daten eine starre Struktur auf und verlangten von den Betreibern von Rechenzentren, komplexe ETL-Schritte (Extract/Transform/Load) mit den Daten durchzuführen, um sie in das Datenbankmodell einzupassen. Heutzutage besteht der Hauptvorteil eines Data Lake darin, dass Entwickler Daten aus jeder externen Quelle und in jedem Format exportieren und einspeisen können.

Das Hinzufügen eines Dateisystems birgt vor allem zwei Nachteile für Data Lakes:

-Es werden keine erweiterbaren Benutzer- oder Anwendungsmetadaten unterstützt
Dies macht ein separates Datenbanksystem erforderlich, um die Tags und Attribute zu erfassen, die für die Taxonomie und Anreicherung der im Dateisystem gespeicherten Daten erforderlich sind, und um Index-optimierte Abfragen zu ermöglichen. Für Rechenzentren stellt es eine große Belastung dar, zwei Systeme parallel zu verwalten.
-Dateisysteme haben eine starre Struktur, die durch übliche Ordner-Hierarchien vorgegeben ist
Es gibt eigentlich nur einen Weg, um auf die Daten zuzugreifen – und der besteht darin, durch die Dateisystem-Hierarchie zu navigieren, bis der Benutzer findet, was er braucht. Das ist nicht nur ineffizient, sondern vor allem auch statisch und starr.

Im Gegensatz dazu bieten Objektspeicher überzeugende Vorteile für Data Lakes:

-Der Bedarf einer separaten Datenbank entfällt durch erweiterbare Metadaten
Objektspeicher können sowohl den Speicher für die Nutzdaten als auch erweiterbare Metadaten (benutzer- oder anwendungsdefiniert) verwalten, die mit jedem Objekt gespeichert werden. Damit entfällt die Notwendigkeit einer von der Speicherlösung getrennten Datenbank, wie sie bei einem Dateisystem erforderlich ist. Metadaten können im Laufe der Zeit dynamisch verwendet werden, um Daten mit Kontext/Semantik/Taxonomie zu versehen. Stellen Sie sich den Unterschied zwischen dem alten MS Outlook-E-Mail-System und Gmail vor, das Tagging und Labels anbietet, um den E-Mail-Inhalt zu strukturieren.

-Gesteigerte Leistung
Einige Objektspeichersysteme auf Enterprise-Niveau unterstützen die integrierte Metadatensuche mit Index-optimierten Abfragefunktionen, welche die Abfragezeiten je nach Größe des Datensatzes von Stunden auf Minuten reduzieren, indem zeitaufwendige Datenscans durch schnelle Indexabfragen ersetzt werden.

-Einheitliche Systemverwaltung für Rechenzentrumsbetreiber
Durch die Zusammenlegung des Data Lake-Speichers aus einer Datenbank und einem Dateisystem wird die Verwaltung deutlich vereinfacht. Benutzer- und Leistungsmanagement, Überwachung und Skalierung des Systems werden konsolidiert. Der Data Lake kann bei Bedarf nahtlos erweitert werden, was eine kontinuierliche Betriebszeit ohne Ausfallzeiten oder Unterbrechungen gewährleistet.

-Unbegrenzte Zugriffspfade auf Daten
Die Objektspeicherung ermöglicht den Zugriff auf Daten in zeitlicher Reihenfolge, nach Schlüsselpräfix oder nach Metadatenordnung. Benutzer können auf einzelne Objekte direkt nach Schlüssel zugreifen oder aber Listen von Objekten erstellen (bei Bedarf auch mit Filtern auf der Grundlage von Tags, oder Suchvorgängen auf der Grundlage von Metadaten).

Den optimalen Data Lake schaffen

Objektspeicher helfen bei der langfristigen Optimierung von Data Lakes, da sie Informationen in Containern flexibler Größe – auch als Objekte bezeichnet – organisieren. Jedes Objekt umfasst sowohl die Daten selbst als auch die zugehörigen Metadaten und verfügt über eine weltweit eindeutige Kennung anstelle eines Dateinamens und Dateipfads. Diese Systeme können mit benutzerdefinierten Attributen erweitert werden, um zusätzliche, dateibezogene Informationen zu verarbeiten, was das Auffinden der benötigten Informationen erheblich erleichtert. Es gibt keine Begrenzung des Datenvolumens, was signifikant ist, wenn man bedenkt, dass Data Lakes schnell Petabyte-Größen und mehr erreichen können.

Mit Objektspeicher können Rechenzentren die wachsende Kapazität und Skalierung bewältigen. Sie müssen nicht mehr durch einen metaphorischen Sumpf waten, sondern verfügen über eine Plattform, auf der sie einen agilen, modernen Data Lake für optimale Leistung strukturieren können.

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahren Sie mehr darüber, wie Ihre Kommentardaten verarbeitet werden .