Start Data & Storage

KI und die Zukunft der Datenverwaltung

Künstliche Intelligenz (KI) revolutioniert Branchen auf der ganzen Welt. Organisationen stehen vor der Herausforderung, ihre Dateninfrastrukturen für neue Workloads wie das Training großer Sprachmodelle (Large Language Modell, LLM) anzupassen. Solche Workloads erfordern eine enorme Rechenleistung, hohe Datenübertragungsraten und eine effiziente Verwaltung großer Mengen unstrukturierter Daten aus den unterschiedlichsten Quellen. Moderne Storage-Plattformen wie Hammerspace, WEKA, und VAST Data repräsentieren eine neue Generation von Storage-Lösungen. Sie wurden speziell für die Anforderungen künstlicher Intelligenz entwickelt und unterscheiden sich von klassischen Angeboten wie IBM Storage, Dell EMC, oder Pure Storage.

Herausforderungen der KI-Datenverwaltung

Organisationen räumen der Entwicklung KI-fähiger Datenpools Priorität ein. Oft scheitern KI-Initiativen jedoch an technischen Hürden, insbesondere bei der Datenverwaltung. So sind z. B. unstrukturierte Daten für Deep Learning oft in Silos gefangen. Viele bestehende NAS- oder Objektspeicherlösungen sind nicht für die hohen Leistungsanforderungen von KI-Workloads ausgelegt. GPUs werden nicht effizient genutzt, was zu Engpässen und Verzögerungen im Trainingsprozess führt.

storage mit und ohne global namespace
Ein globaler Namensraum vereinfacht die Datenverwaltung und reduziert die Komplexität der Infrastruktur. Die Storage-Kapazität kann unabhängig von der Datenverwaltung erweitert werden. Mit der zentralen Verwaltung der Metadaten lässt sich die Leistung deutlich steigern, so dass z. B. mit gleicher Storage-Kapazität mehr GPU-Knoten unterstützt werden. Unser Beispiel zeigt einen Vorher-/Nachhervergleich mit der pNFS-Plattform von Hammerspace.

Unternehmen erleben bei der Umsetzung von KI-Projekten einen bedeutenden technologischen, aber auch kulturellen Wandel. Gleichzeitig müssen robuste Sicherheits- und Compliance-Vorgaben erfüllt werden. KI-native Datenplattformen wie Hammerspace, WEKA, und VAST Data ermöglichen Organisationen, das volle Potenzial von KI auszuschöpfen. Sie sind hochgradig skalierbar, kosteneffizient, flexibel und einfach zu verwalten.

Die folgenden Anwendungsfälle verdeutlichen die veränderten Anforderungen an Storage-Umgebungen und den Bedarf an neuen technologischen bzw. architektonischen Ansätzen.

Anwendungsfall U2: U2 nutzte die WEKA-Datenplattform, um eine immersive audiovisuelle Erfahrung für ihr Konzert "U2:UV Achtung Baby Live at the Sphere" zu schaffen. Die Plattform musste für die Darstellung auf den vier 16K-Videodisplays der fast 14.865 Quadratmeter-großen LED-Anzeige 1,5 PB an hochauflösenden Daten für 167.000 unabhängige Audiokanäle und das Videostreaming mit 412 GB/s verarbeiten.
Anwendungsfall Meta: Meta nutzt Hammerspace zur Unterstützung des Training seiner LLMs und generativen KI-Modelle auf 4.000 GPU-Knoten mit insgesamt 32.000 GPUs. Für die aggregierte Leistung von 12,5 TB/s (100 Tb/s) stellt Hammerspace einen Speichercluster mit 1.000-Knoten bereit. Die Lösung ist so konzipiert, dass sie problemlos auf 350.000 und schließlich 1 Million GPUs skaliert werden kann. Durch die Verwendung von Standardprotokollen kann Meta bereits vorhandene Hard- und Software nutzen.

Mit herkömmlichen Lösungen sind diese Workloads nicht so einfach und kostengünstig realisierbar. Klassische Lösungen wie IBM, Dell EMC, Pure Storage sind oft hierarchisch aufgebaut, mit primären und sekundären Speicherklassen. Mit traditionell starken Block- und File-Storage-Optionen eignen sie sich gut für traditionelle Enterprise-Workloads wie OLTP (Online Transaction Processing), ERP-Anwendungen oder Virtualisierung (z. B. VMware). Für datenintensivere Workloads sind Erweiterungen, zusätzliche Produkte oder Integrationen notwendig. Das gilt auch für native Container- oder Multi-Cloud-Workloads. Lösungen für Hybrid-Clouds wie IBM Spectrum Virtualize, Dell PowerStore, Pure Cloud Block Store werden als eigene Komponenten angeboten. KI- und HPC-Optimierung erfordern spezialisierte Systeme wie IBM ESS oder Dell PowerScale. Auch die Skalierung über Standorte hinweg ist komplexer und benötigt zusätzliche Software-Schichten. Oft ist eine Skalierung nur innerhalb spezifizierter Cluster oder Appliances möglich. Wirtschaftlich setzen die Branchenriesen auf bewährte Preismodelle mit Lizenzen und Wartungsverträgen. Günstige Einstiegsprodukte werden mit steigenden Kosten für höhere Kapazitäten und steigende Anforderungen kompensiert.

Transformativer Nutzen für Organisationen

Die Beschleunigung von KI/ML-Workloads, einschließlich Modelltraining und Inferenz, ermöglicht schnellere und genauere Ergebnisse. Speziell generative KI-Modelle erfordern für die Verarbeitung der massiven Datensätze eine hohe Leistung und Skalierbarkeit, die mit traditionellen Ansätzen weniger flexibel und nur zu sehr hohen Kosten umsetzbar ist. GPU-intensive Workloads profitieren von den modernen Storagearchitekturen und einer effizienten Auslastung kostbarer GPU-Ressourcen.

Bei VAST Data liegen die Daten in Enclosures, die sich beliebig erweitern lassen. Eine Protokollebene verwaltet die Daten und bietet eine einheitliche Oberfläche für File-, Block- oder Objektspeicher. Dienste und Anwender greifen über Standardprotokolle auf ihre Daten zu: Windows-User über SMB, Linux-/Unix-User über NFS und die Cloud via S3. Wie auch Hammerspace macht sich VAST die Vorteile paralleler Dateisysteme nutzbar.

Hammerspace, WEKA, VAST Data nutzen scale-out-Architekturen. Daten können nahtlos über verschiedene Standorte, Clouds oder Speicherklassen hinweg verteilt werden. Hammerspace oder VAST bieten globale Namensräume (Global Namespace). Damit können Daten ortsunabhängig bereitgestellt und verwaltet. Das macht es ideal für hybride Cloud-Umgebungen. WEKA nutzt eine hochparallele Architektur für extrem niedrige Latenzzeiten und eine hohe I/O-Performance, die sich speziell für High-Performance Computing (HPC) oder datenintensive eignet. VAST Data verfolgt eine Universal-Storage-Strategie und kombiniert für seine Single-Tier-Architektur Hochleistungs-Flash-Speicher und kostengünstige Speichermedien wie QLC-Flash. Basierend auf Workload-Anforderungen werden Datenplatzierung und Zugriff dynamisch verwaltet. Effizientere Speicherbereitstellung, Flash-first-Strategien und geringerer Verwaltungsaufwand führen zu geringeren Gesamtbetriebskosten (TCO). Moderne Plattformen wie Hammerspace, WEKA, VAST Data unterstützen zudem Container-native Technologien wie Kubernetes out-of-the-box.

ℹ︎ Moderne Plattformen bieten noch weitere Vorteile: Auf Grund ihrer Architektur und des Scale-out-Ansatzes sind sie in sich redundant und daher von Haus aus ausfallsicherer. Neuere Generationen CPU und Speichermedien, neue Design-Ansätze und intelligente Datenverwaltung sind wesentlich energieeffizienter als die Monolithen der Vergangenheit. Am deutlichsten wird das am Beispiel von WEKA.

Mit WEKA lässt sich nicht nur die Leseperformance steigern. U. a. sinken Platz und Energiebedarf. Die Leistung steigt bei gleicher Bandbreite.
Noch deutlicher wird das Potential bei Schreibvorgängen. Energie- und Platzbedarf sinken auf ein 10tel gegenüber klassischen Ansätzen.

Einen großen Unterschied gibt es jedoch auch bei den Herausforderern. Während WEKA und VAST Data eigene Hardware mitbringen, kann Hammerspace bestehende Storage-Systeme integrieren.

Fazit

Klassische Anbieter wie IBM, Dell EMC, und Pure Storage dominieren weiterhin traditionelle Workloads und bieten ausgereifte, bewährte Lösungen. Sie sind jedoch weniger flexibel für datenintensive oder moderne, verteilte Architekturen sind. Neue Plattformen wie Hammerspace, WEKA, und VAST Data zielen darauf ab, moderne Workloads zu unterstützen und Cloud-native Flexibilität mit Hochleistung zu kombinieren. Die Wahl hängt stark von den spezifischen Anforderungen eines Unternehmens ab (u. a. Workload-Typ, Agilität, IT-Strategie, Cloud vs. On-Prem). Unternehmen, die Innovationen vorantreiben, ihre Effizienz steigern und im KI-Zeitalter erfolgreich sein wollen benötigen allerdings die Leistung, Skalierbarkeit und Benutzerfreundlichkeit moderner Datenplattformen.


Wir trafen im Rahmen der IT-Presstour Vertreter von WEKA im März 2024 in Denver. Hammerspace begegneten wir mehrfach in Denver und dem Silicon Valley – ebenfalls im Rahmen der IT-Presstour. Mit dem Field CTO International von VAST Data sprachen wir letztes Jahr in Hamburg am Rande der ISC.

Die mobile Version verlassen