Die Menge unstrukturierter Daten nimmt kontinuierlich zu. Der Anteil unstrukturierter Daten (Video, Text, PDF, Bilder, Audio, u. a.) in Unternehmen beträgt mittlerweile ca. 80%. Unterschiedliche Formate, Quellen, Sprachen und Speicherorte machen die Verarbeitung und Indizierung zu einer immensen Herausforderung. Es ist davon auszugehen, dass die meisten Unternehmen auf einem riesigen Datenschatz sitzen und nichts damit anfangen können. Das spüren Kunden im Service und Junior-Mitarbeiter, denen eine wertvolle Wissendatenbank vorenthalten wird. Für einen barrierefreien und umfänglichen Zugang zu den Informationen muss die Suche neu erfunden werden. Simple Keyword-Suchen, wie wir sie von Google kennen, helfen wenig im Datenozean. Nuclia 🌐 bietet Unternehmen eine Engine mit eigener Datenbank und Low-Code-API zum Aufbau einer individuellen KI-gesteuerten Suchmaschine.
Keine KI ohne Datenbank
Nuclia kann jede Art von Daten verstehen und indizieren. Die End-to-End- und Low-Code-API erweitert Anwendungen im Unternehmen um eine KI-gestützten Suchmaschine.
Eine intelligente Suchmaschine ordnet den Daten eine Bedeutung zu, der durch einen Vektor dargestellt wird. Diese Vektoren können dann von AI-Trainingsmodellen, eigenen spezifischen Kategorien, logischen Operatoren wie dem booleschen Operator, Umkreis- und Phrasensuchen, Bibliotheken und vielem anderen mehr genutzt werden, um den Suchprozess effizienter und genauer zu gestalten.
Mit der große Datenmenge und enormen Verarbeitungsgeschwindigkeit sind viele herkömmliche Datenbank überfordert. Speziell für KI entwickelte Datenbanken müssen skalieren und Daten in Millisekunden aufnehmen, untersuchen, analysieren und visualisieren können. Bekannte Vertreter von KI-Datenbanken sind SQL-Datenbanken wie Apache Cassandra, Elastic- bzw. OpenSearch, Couchbase, Redis oder MongoDB oder Alternativen wie GraphQL, eine Laufzeitumgebung mit eigener Abfrage- und Manipulationssprache.
Wie so oft kommt es auf den Anwendungsfall an, welche Datenbank oder Laufzeitumgebung geeignet ist. So ist Redis z. B. perfekt für Key Value Stores, Couchbase besser im Umgang mit Dokumenten oder MySQL eher auf semi-strukturierte Daten spezialisiert.
Für ein wirklich gutes Zusammenspiel zwischen Daten und Modellen für maschinelles Lernen und künstliche Intelligenz (KI) sollte ein möglichst großer Anteil des Stacks aus der gleichen Schmiede kommen. Der ElasticStack – oder auch ELK Stack – ist ein gutes Beispiel dafür.
Auch Nuclia bietet neben der eigenen Index-Datenbank integrierte Modelle für das Training von KI und maschinellem Lernen (ML), Bibliotheken, Analysefunktionen sowie ein Dashboard mit Visualisierung. So können z. B. Datenwissenschaftler eingebaute Python-Bibliotheken (nucliadb-sdk, nucliadb-dataset) mit einer einheitlichen Oberfläche eigene Vektoren in NucliaDB übertragen, Daten annotieren, Trainings durchführen oder Arrow-Dateien herunterladen.
Spezielle KI-Datenbanken eignen sich auch für neuere Anwendungen wie die Verarbeitung natürlicher Sprache (NLP). Netzwerker kennen vielleicht Marvis 🌐 von Juniper – ein Paradebeispiel für den Einsatz von NLP.
Mit Daten den Mehrwert steigern
NucliaDB ist optimiert für die Deep und Machine Learning und die Verwaltung der dafür benötigten Daten. Die Plattform lässt sich mit dem integrierten Dashboard nutzen – einfach Text oder Video-/Audiofile hochladen und es durchsuchen – oder per API mit eigenen Anwendungen verknüpfen.
SharePoint endlich sinnvoll nutzen können
Viele Unternehmen nutzen Microsoft SharePoint und Drive zur Ablage von Dateien. Dateien darin wiederfinden funktioniert allerdings nicht so großartig. Nuclia bietet eine KI-Suche für die Inhalte und findet das Gesuchte in Sekundenschnelle – ohne dass man Dateinamen und Pfad wissen muss. Möglicherweise ändert sich das mit dem Einsatz von GPT. Damit will auch Microsoft künftig generative Antworten liefern.
Nuclia kann das alles bereits und ist unabhängig. Abfragen sind in fast jeder beliebigen Sprache möglich. Antworten 🌐 werden in derselben Sprache, mit der abgefragt wurde, ausgegeben.
Mit Nuclia lassen sich die Daten im Unternehmen auch klassifizieren 🌐 – eine wichtige Grundlage für den Datenschutz. Zudem können Anwender mit Nuclia generative Reports auf der Grundlage von Dokumenten erstellen.
Nuclia kann als Plattform as a Service 🌐 genutzt oder on-prem 🌐 installiert werden. Aktuell ist das Angebot noch in der Beta-Phase, die jedoch bald beendet sein soll. Geplant sind dann drei verschiedene kostenpflichtige Stufen.
Neues semantisches Modell für eine bessere KI-Suche
Nuclia testet seit 15. Februar 2023 ein neues semantisches Modell zur weiteren Verbesserung mehrsprachiger semantischer Ergebnisse und generativer Antworten.
Zudem gibt es ein neues Dashboard zur Verwaltung der Ressourcen. Damit können leicht auch Links in großen Mengen oder Textressourcen aus CSV-Dateien importiert werden.
Fazit
Der Einsatz von KI im Unternehmen ist nicht mehr aufzuhalten. Es ist auch dringend notwendig. Ohne künstliche Intelligenz lassen sich weder die Datenmengen beherrschen noch sinnvoll absichern. Ob es GPT, der ElasticStack, OpenSearch oder Nuclia wird, muß jeder selbst entscheiden. Wir gehen davon aus, dass es nicht bei einem Anbieter bleiben wird, sondern Unternehmen mehrere der intelligenten Helfer einsetzen werden – bewußt, wie eine Suchmaschine, oder unbewußt, integriert in diversen Sicherheits- und Netzwerkplattformen. Die Open-Source-Möglichkeiten von GPT, Nuclia oder OpenSearch bieten vor allem auch großes Potential für Service Provider sowie Entwickler von Sicherheitslösungen.
Wir trafen Eudald Camprubí, CEO & Co-Founder von Nuclia, im Rahmen der IT Press Tour 🌐 im Dezember 2022 in Lissabon.