A Semi-supervised Approach for the Configuration and Optimization of Machine Learning based Anomaly Detection Algorithms

Titel in Übersetzung: Ein halbüberwachter Ansatz zur Konfiguration und Optimierung von Machine-Learning basierten Anomalieerkennungs-Algorithmen

Publikation: AbschlussarbeitMasterarbeit

Abstract

Cyber-Bedrohungen entwickeln sich ständig weiter und neue Angriffstechniken werden rasch entwickelt. Anomalieerkennung (AE) in System-Logzeilen ist daher zunehmend wichtiger, da sie in der Lage ist, Angriffe bekannter, aber auch unbekannter Art zu erkennen. Die Konfiguration von AE-Algorithmen hängt stark von den Daten ab und umfasst die Auswahl von Merkmalen und die Festlegung von Parametern wie Schwellenwerten oder Fenstergrößen. Der Prozess ist folglich nicht trivial und erfordert oft manuelle Eingriffe von Experten, was Zugänglichkeit und Wirksamkeit von AE-Algorithmen einschränkt. Diese Arbeit stellt daher die Configuration-Engine (CE) vor, ein halbüberwachter Ansatz zur Automatisierung des Konfigurationsprozesses von AE-Algorithmen. Die CE wendet einen datenwissenschaftlichen Ansatz an, um Eigenschaften von Teilen von Logzeilen zu identifizieren. Dabei verwendet sie einen Parser, um in Zeilen sinnvolle statische und variable Tokens zu erkennen, die AE-Detektoren analysieren können. Das CE kategorisiert Variablen auf Grundlage ihrer Eigenschaften und ihres Verhaltens über die Zeit. Basierend auf den Anforderungen der vorliegenden AE-Detektoren legt die CE fest, welche Teile des Logs ein Detektor beobachten soll und bestimmt die entsprechenden Konfigurationsparameter. Diese Arbeit betrachtet 6 Detektoren des AMiners, einer fortgeschrittenen AE-Pipeline, die eine breite Palette von AE-Algorithmen umfasst. Zusätzlich enthält die CE einen Optimierungsansatz zur weiteren Verfeinerung von Konfigurationen.Die Leistung wurde anhand punktueller und kollektiver Anomalien bewertet, die in einer Reihe von Apache Access- und Audit-Datensätzen auftreten. Bei kollektiven Anomalien lieferte das CE Konfigurationen, die eine durchschnittliche Präzision von über 0.95 für Apache- und über 0.9 für Audit-Datensätze für 5 der 6 Detektoren erreichten, während der Recall bei 1.0 lag. Damit konkurriert sie mit der Leistung der von drei verschiedenen Experten handgefertigten Konfigurationen, die die Grundlage für die Bewertung bildeten. Darüber hinaus verbesserte die Optimierung die Präzision von CE- und Expertenkonfigurationen in 29 von 32 Fällen für Apache-Daten und in 6 von 20 Fällen für Audit. Weiters können Konfigurationen als Dictionaries dargestellt und mittels Jaccard-Index auf Ähnlichkeit verglichen werden. Es zeigt sich, dass die Konfigurationen der Experten denen der CE signifikant unähnlich sind, während die des CE eine bemerkenswerte Ähnlichkeit über verschiedene Datensätze hinweg aufweisen. Dies spricht für eine effektive Übertragbarkeit der Konfigurationen auf verschiedene Datensätze desselben Typs. Die CE stellt einen signifikanten Fortschritt in AE dar, da es den Bedarf an Fachwissen und manueller Konfiguration reduziert und somit AE zugänglicher und effizienter macht.
Titel in ÜbersetzungEin halbüberwachter Ansatz zur Konfiguration und Optimierung von Machine-Learning basierten Anomalieerkennungs-Algorithmen
OriginalspracheEnglisch
QualifikationMaster of Science
Gradverleihende Hochschule
  • TU Wien
Betreuer/-in / Berater/-in
  • Rauber, Andreas, Betreuer:in, Externe Person
  • Skopik, Florian, Betreuer:in
  • Landauer, Max, Betreuer:in
  • Wurzenberger, Markus, Betreuer:in
Förderer
Datum der Bewilligung10 Okt. 2024
PublikationsstatusVeröffentlicht - 18 Okt. 2024

Research Field

  • Cyber Security

Schlagwörter

  • Anomaly Detection
  • Cybersecurity
  • configuration
  • automation
  • optimization
  • log data
  • feature selection
  • hyperparameter tuning
  • similarity
  • stability

Web of Science subject categories (JCR Impact Factors)

  • Computer Science, Artificial Intelligence
  • Computer Science, Information Systems

Fingerprint

Untersuchen Sie die Forschungsthemen von „Ein halbüberwachter Ansatz zur Konfiguration und Optimierung von Machine-Learning basierten Anomalieerkennungs-Algorithmen“. Zusammen bilden sie einen einzigartigen Fingerprint.

Diese Publikation zitieren