Sieben Aspekte zu Machine Learning in der Cybersicherheit

Ende 2023 stellte Palo Alto Networks neue Funktionen und Tools für seine SOC-Plattform Cortex XSIAM vor.

Cortex XSIAM 2.0 von Palo Alto Networks (Quelle: Palo Alto Networks)

Mit XSIAM 2.0 setzt der Hersteller auf die Power künstlicher Intelligenz und erlaubt Unternehmen sogar, eigene ML-Plattformen zu integrieren. Sergej Epp ist Chief Information Security Officer (CISO) für Zentraleuropa bei Palo Alto Networks und weiß, worauf bei der Implementierung von Tools auf Basis von maschinellem Lernen (ML) im Unternehmenskontext zu achten ist:

Supervised und Unsupervised Learning – die Hauptkomponenten von ML

Bei der Methodik des Supervised Learnings (überwachtes Lernen) helfen aufbereitete Datensätze dem Algorithmus, zwischen schädlichen und unschädlichen Daten zu unterscheiden. Nach Analyse der Eingangsdaten mit vorgegebener Zielvariable kann er Prognosen erstellen und präzise Empfehlungen abgeben. Supervised Learning kommt zum Beispiel bei der Klassifizierung von Bedrohungen zum Einsatz: Eine Lösung kann potenzielle Bedrohungen eigenständig aus den Datensätzen erkennen, wenn sie ähnliche Merkmale aufweisen wie die historischen Daten.

Beim unüberwachtem Lernen (Unsupervised Learning) erkundet der Algorithmus eigenständig die Struktur der Daten, ohne im Voraus bekannte Zielwerte zu erhalten. Anschließend gruppiert er diese (Clustering). Damit können Cybersicherheitsteams einen Überblick über normales und anormales Verhalten erhalten.

Generative AI (GenAI) erweitert das Spektrum des maschinellen Lernens, indem es sowohl Supervised als auch Unsupervised Learning integriert. Diese Technik nutzt die Datenanalyse und Vorhersagefähigkeit des Supervised Learning, kombiniert mit der Mustererkennung und explorativen Natur des Unsupervised Learning. GenAI lässt sich vor allem in Bereichen wie Source Code Interpretation, Policy Analyse, Forensik oder Pentesting nutzen.

Daten sind der Schlüssel

Um sicherzustellen, dass ML-Algorithmen korrekt ausgeführt werden und das gewünschte Ergebnis liefern, muss eine große Menge an qualitativ hochwertigen Daten eingegeben werden. Diese Datensätze sollten die für das jeweilige Unternehmen zu erwartenden Bedrohungen repräsentieren, damit das ML-Tool die korrekten Muster und Regeln erlernen kann. Dazu sollten sie auch auf dem neuesten Stand sein und stets erneuert werden.

Daten aus verschiedenen Quellen, die aufgrund unterschiedlicher Datentypen oder Kategorisierungen nicht gut miteinander interagieren und Lücken aufweisen, sind für eine Maschine schwer zu bewerten. Damit der Algorithmus seine volle Leistungsfähigkeit entfalten kann, sollten die Daten daher immer komplett, konsistent und korrekt sein.

ML ist prädiktiv, nicht deterministisch

ML befasst sich mit Wahrscheinlichkeiten und Ergebniswahrscheinlichkeiten. Das heißt, es verwendet zur Verfügung gestellte Daten und frühere Ergebnisse, um wiederum potenzielle Resultate in der Zukunft vorherzusagen. Damit ist ML prädiktiv. Obwohl die Vorhersagen nicht deterministisch sind, sind sie allerdings in der Regel sehr genau – und viel schneller verfügbar als nach einer menschlichen Analyse.

Regeln für Regression, Klassifikation, Clustering und Assoziation

Je nachdem, welche Art von Problem gelöst werden soll, gibt es verschiedene Methoden von ML wie z.B. Regression, Clustering und Assoziationsanalyse. Regression hat das Ziel, eine kontinuierliche Ausgabe oder Vorhersage zu machen. Im Bereich der Cybersicherheit lässt sie sich bei der Betrugserkennung einsetzen. Klassifikation und Clustering teilen Daten in Gruppen oder Kategorien ein, wobei Clustering speziell auf der Grundlage von Ähnlichkeiten in den Daten gruppiert. Bei der Klassifikation ordnet oder gruppiert der Algorithmus Beobachtungen in zuvor definierte Kategorien, um etwa Spam von unschädlichen Daten unterscheiden zu können.

Das Lernen von Assoziationsregeln nutzt frühere Erfahrungen mit Daten, um ein bestimmtes Ergebnis wesentlich schneller zu präsentieren oder eine Empfehlung abzugeben, als ein Mensch je in der Lage wäre. Bei einem Vorfall (Incident) können so automatisiert mögliche Lösungen angeboten werden.

ML und seine Grenzen

ML-Algorithmen sind äußerst effizient bei der Mustererkennung und der Vorhersageerstellung. Allerdings erfordern sie auch viele Ressourcen und sind noch oft recht fehleranfällig. Vor allem ist das der Fall, wenn die Datensätze in ihrem Umfang begrenzt sind.

Zusammenarbeit von Mensch und Maschine

Um die Leistung von ML-basierten Algorithmen in der Cybersicherheit zu steigern, müssen Mensch und Maschine zusammenarbeiten. ML-Algorithmen können zwar die Datenanalyse durchführen, jedoch ersetzt dies nicht die Pflicht von Cybersicherheits-Teams, über die neuesten technologischen Durchbrüche und Veränderungen in der Bedrohungslandschaft auf dem Laufenden zu bleiben.

Nahtlose Integration und Interaktion mit anderen Tools

Neue ML-Techniken, die im Cybersicherheitsumfeld Anwendung finden, können sich erst dann entfalten, wenn diese in Prozess- und Technologie-Landschaft nahtlos integriert sind. Es bringt z.B. recht wenig Mehrwert, Gefahren noch schneller zu identifizieren, wenn diese erst nach Tagen geblockt oder behoben werden können. Daher ist es entscheidend, bei ML nicht dem Hype zu verfallen, sondern zu prüfen, in welchen Bereichen der Einsatz von ML-basierten Lösungen tatsächlich sinnvoll ist.

Sergej Epp, Chief Information Security Officer (CISO) für Zentraleuropa bei Palo Alto Networks (Fotograf: Simon Koy)

Machine Learning ist aus dem Cyberraum nicht mehr wegzudenken. ML-basierte Lösungen helfen dabei, bestehende Datensilos im Unternehmen sowie die damit verbundenen potenziellen Sicherheitslücken zu schließen und End-to-End-Security zu gewährleisten. Vor allem befähigen sie Security-Teams, proaktiv statt reaktiv zu agieren – und so der Bedrohungslage einen Schritt voraus zu sein.
Sergej Epp, Chief Security Officer Zentraleuropa bei Palo Alto Networks

Sieben Aspekte zu Machine Learning in der Cybersicherheit

Supervised und Unsupervised Learning – die Hauptkomponenten von ML

Daten sind der Schlüssel

ML ist prädiktiv, nicht deterministisch

Regeln für Regression, Klassifikation, Clustering und Assoziation

ML und seine Grenzen

Zusammenarbeit von Mensch und Maschine

Nahtlose Integration und Interaktion mit anderen Tools

KI-Storage nicht nur für Llamas

Keine Zeit für Stillstand: Wie moderner Storage teure Ressourcen effizienter auslastet

Storage, quo vadis?! (Teil III, Infrastruktur)

Storage, quo vadis?! (Teil II, Storage)

KI-Storage nicht nur für Llamas