Wie man Daten ohne Metadaten findet

Von

3. März 2024

Daten produzieren Daten. Wird ein Datum abgelegt, dann werden für die Wiederfindbarkeit Indizes, Metadaten, Pointer u. ä. erstellt. Analytische Berechnungen sollen helfen, irrelevante Rohdaten herauszufiltern. Dafür kommen meist spezielle Accelerator- oder Auslagerungskarten zum Einsatz. Das alles soll den Storage effizienter machen, ist aber selbst eher ineffizient. Abgesehen von der Materialschlacht (Ressourcen! Kosten!) erhöht das alles die Komplexität und beschleunigt nicht Ad-hoc-Abfragen. Das Netzwerk ist auch oft mehr Problem denn Teil der Lösung. Ein Startup aus Houston/Texas verspricht Heilung. Die Protagonisten sind ein Team aus Storage- und Netzwerk-Experten.

In den meisten Architekturen ist wiederholtes Verschieben und Speichern von Big Data für Analysen das Problem. Anwendungen fordern regelmässig vollständige und vor allem große Objekte zur Verarbeitung an. Dazu werden die Daten in ein Warehouse geladen. Zur Beschleunigung werden Objekte partitioniert. Indexierung und analytische Prognosen für erwartbare Aufgaben verursachen einen hohen Overhead. Spontane Abfragen treffen die Datenlager meist völlig unvorbereitet.

AirMettle möchte das ändern. Anwendungen sollen nur das erhalten, was sie wirklich brauchen – und das auch noch in einer sofort nutzbaren Form. So können auch echte Ad-hoc-Abfragen schneller und kostengünstiger bedient werden.

Das Unternehmen ist gerade erst aus dem Stealth Mode erwacht. Mit seiner Analytical Storage Plattform sollen Big-Data-Analysen um das bis zu 100fache beschleunigt werden bei gleichzeitiger Reduktion der Kosten für Arbeitsspeicher, Storage, Rechenleistung und Netzwerke. Ermöglicht wird dies durch eine hochparallele Verarbeitung im Objectstore. Das software-definierte Layer zur Extraktion und Charakterisierung von Big Data sitzt zwischen Storage und Data Warehouse. In bestimmten Szenarien kann sogar das Data Warehouse entfallen. Die Daten werden dabei von AirMettle der Anwendung direkt zur Verfügung gestellt. In jedem Fall werden der für die Analyse erforderliche Speicher- und Rechenaufwand sowie der Netzwerkverkehr verringert. AirMettle braucht auch keine zusätzlichen Beschleunigerkarten. Der Hersteller verspricht, mit der von der vorhandenen CPU (x86 oder ARM) angebotenen Leistung auszukommen.

SELECT
   TO_STRING(event_ts, 'yyyy-MM-dd HH24:mi') AS interval,
   COUNT(*) AS event_count,
   AVG(CAST(event_dur AS INT)) AS avg_event_duration, 
   STDDEV_SAMP(CAST(event_dur AS INT)) AS  event_duration_stddev

FROM
   events

WHERE
   flgs LIKE 'C__'
   AND REGEXP_CONTAINS(args, 'JY.')
   AND event_ts BETWEEN TO_TIMESTAMP('2000-01-01 00') AND TO_TIMESTAMP('2000-01-01 01')

GROUP BY
   interval;

Ein mögliches Anwendungsgebiet ist das Security Information & Event Management (SIEM) oder andere IT-Sicherheitsplattformen. Mit AirMettle lassen sich aus den Rohdaten z. B. Stichprobenmessungen mit bestimmten Flags und Argumenten sammeln und anhand eines Zeitstempels gruppieren. Zurückgegeben werden in unserem Beispiel die Anzahl der Proben, die durchschnittliche Dauer und die Abweichung vom Standard für jede Gruppe zurück. Weitere Anwendungsgebiete sind:

Network Operations Management
AI Training, Validation, & Inference
Bilddatenverarbeitung in der Medizin (MRI, CT, …)
Video Surveillance
Wissenschaftliche Analysen
Materialanalysen (Röntgen)
Wetter und Klima
Halbleiterfertigung
Echtzeitanalysen (Security, e-commerce)
Massive Multi-Player On-line Games (MMOG)

Unsere wissenschaftlichen Großsimulationen können Hunderte von Petabytes an hochdimensionalen Fließkommadaten erzeugen … Aber die Daten, die mit einem wissenschaftlichen Merkmal von Interesse verbunden sind, können um Größenordnungen kleiner sein als die geschriebenen Daten, so dass eine zentrale Herausforderung darin besteht, schnell und effizient die relevanten Daten in diesem Meer von Daten zu finden. Um diesen Prozess zu optimieren, haben wir uns für die rechnergestützte Speicherung entschieden, d. h. die Verarbeitung von Daten vor Ort und in der Nähe des Speichers, um unnötige Datenbewegungen zu vermeiden.
Gary Grider, Leiter der Abteilung für Hochleistungscomputer Los Alamos National Laboratory

AirMettle beschleunigt die mehrdimensionale Datenauswahl und Re-Skalierung von z. B. Wetterdaten. Die wissenschaftliche Analyse erfordert Stichproben von verschiedenen Teilmengen für jede Abfrage und das Erfassen statistischer Eigenschaften. Daten haben oft komplexe Formate und werden in Partitionen gespeichert, die auf semi-strukturellen Grenzen oder der Größe eines Segments basieren. Abfragen sind komplexer und müssen meist für mehre Durchgänge erfolgen (typisch sind 2-3 Phasen). AirMettle ermöglicht eine verteilte, parallele Verarbeitung an Ort und Stelle sowie die parallele Ausführung unterschiedlicher Durchgänge.

AirMettle unterstützt bei der Auswahl und Re-Skalierung von Wetterdaten.

Wo ist Kevin?! 😱

AirMettle Object Storage ermöglicht eine beschleunigte Bildanalyse der Rohdaten.

Kinder gehen in Vergnüngungsparks oder anderen großen Veranstaltungen gerne einmal eigene Wege, ohne das die Eltern es sofort mitbekommen. Mit einem Bildvergleich lassen sich die Ausreißer schnell wiederfinden. Auch der öffentlichen Sektor kann davon profitieren. Polizeisdienststellen könnten damit effektiver nach vermissten Personen suchen oder Alibis überprüfen.

Mit der beschleunigten Videoanalyse lassen sich auch Filmobjekte schnell identifizieren. Zum Beispiel können Filmschaffende so sicherstellen, dass keine falschen Gegenstände im Film auftauchen.

Containernative

AirMettle Object Storage gibt es als Container zur Installation auf Standard-Hardware, in der Cloud und sogar auf Controllern. Die Architektur ist dreistufig. Die Basis bildet der Object Storage selbst. Darüber liegende Layer sind für SQL-Analysen bzw. Wissenschaftliche und KI_Analysen optimiert. Das Analytics-Layer unterstützt derzeit die Formate SQL, CSV, JSON und Apache Parquet. Sci+AI kann NetCDF, HDF5, PDF, JPEG und MP4 verarbeiten.

AirMettle-OS ist als Abonnement für Private Cloud & Public Cloud-Plattformen erhältlich. Abgerechnet wird per API-Abruf für vollständig verwaltete Services. Zusätzlich sind professionelle Dienstleistungen (Support, Beratung, …) buchbar.

Erhältlich ist die Lösung vom Hersteller direkt, über Systemintegratoren, Cloud-Marktplätze und demnächst as a Service. Auch an Integrationen wird gearbeitet, z. B. mit dem auf Open Source basierten Enterprise Storage von iXsystems (TrueNAS). Später soll es auch as a Service verfügbar sein. Der offizielle Launch ist für Mitte 2024 geplant.

Wir trafen zwei der Gründer – CEO Donpaul Stephens und CPO/CMO Troy Trenchard – im Januar 2024 im Rahmen der IT Press Tour im Salesforce-Tower in San Francisco.

Wo ist Kevin?! 😱

Containernative

Verwandte Artikel

KI-Storage nicht nur für Llamas

Keine Zeit für Stillstand: Wie moderner Storage teure Ressourcen effizienter auslastet

Storage, quo vadis?! (Teil III, Infrastruktur)