A Methodology for the Automatic Generation of Realistic Log Datasets of a Windows Domain for Testing Cybersecurity Machine Learning Algorithms

Sebahattin Sahin

Publikation: AbschlussarbeitMasterarbeit

Abstract

Intrusion Detection Systeme zählen zu den wichtigsten Security Assets in Enterprise-Umgebungen [1]. Ihre Stärke gegenüber anderen Security Appliances liegt in der Anomalie-Erkennung durch Einsatz von Machine Learning Algorithmen, wodurch sie Schutz vor bekannten und unbekannten Angriffen, wie etwa Zero-Day-Exploits, bieten, indem sie das Verhalten von Systemen und dem Netzwerkverkehr überwachen [2]. Die Effektivität eines IDS hängt jedoch stark von der Qualität der Trainings-Datensets ab, welche oft veraltet sind und den aktuellen Threat Landscape nicht widerspiegeln [3], [4]. Besonders im Windows-Bereich gibt es eine Forschungslücke sowie fehlende aktuelle Datensets [5]. Diese Arbeit setzt hier an und hat als Ziel die automatisierte Erstellung von Datensets für das Training von Machine Learning Algorithmen mit Fokus auf Windows-Enterprise Umgebungen. Zu Beginn werden Anforderungen an Windows-Log-Datensets formuliert, die als Grundlage für das Framework-Design dienen. In einem iterativen Entwicklungsprozess wird in der ersten Iteration der Fokus auf die Evaluierung der notwendigen Komponenten für die Bereitstellung eines Security-fokussierten Testbeds gelegt. Dazu gehört das Log-Management, die Verarbeitung von Logs, die Simulation von Benutzeraktivitäten und die Tools für das automatisierte Deployment. Da der Schwerpunkt auf Windows Enterprise-Umgebungen liegt, werden spezifische Konfigurationen wie Group Policy Objects und Audit Regeln berücksichtigt. Zudem werden Angriffe durchgeführt, die eine Vielzahl von Taktiken und Techniken aus dem MITRE ATT\&CK-Framework abdecken. In der zweiten Iteration wird die technische Implementierung des AECID-Win-Testbeds präsentiert. Diese Implementierung folgte den MDE-Prinzipien, indem Modelle für das Testbed, die Benutzer-Simulation und die Angriffe erstellt werden. Die Integration von GHOSTS-NPC ermöglichte realistische Benutzer-Emulationen, während Attackmate für die automatisierte Ausführung einer Angriffskette eingesetzt wird. Ein konzeptionelles Modell der verschiedenen Layer, einschließlich Modellierung, Testbed, Datensammlung und Datenset, wird vorgestellt. Die Funktionalität des Frameworks wird getestet, und das generierte Datenset weiter evaluiert. Dabei erfolgt die Zuweisung von Attributen und Metriken wie Precision, Recall und F1-Score. Die Ergebnisse zeigen, dass das vom Framework erzeugte Datenset einsatzfähig ist und die Funktionsfähigkeit des AECID-Win-Testbeds insgesamt bestätigt wird.Die Forschung folgt der Methodik des MDE und verdeutlicht deren Eignung für die automatisierte Generierung von Datensets für IDS. Die Konfigurationen, Skripte und das erzeugte Datenset werden parallel mit dieser Arbeit von der AIT veröffentlicht.
OriginalspracheEnglisch
QualifikationMaster of Science
Gradverleihende Hochschule
  • University of Applied Sciences Technikum Wien
Betreuer/-in / Berater/-in
  • Kissler, Daniel, Betreuer:in, Externe Person
  • Skopik, Florian, Betreuer:in
Datum der Bewilligung22 Sept. 2024
PublikationsstatusVeröffentlicht - Sept. 2024

Research Field

  • Cyber Security

Fingerprint

Untersuchen Sie die Forschungsthemen von „A Methodology for the Automatic Generation of Realistic Log Datasets of a Windows Domain for Testing Cybersecurity Machine Learning Algorithms“. Zusammen bilden sie einen einzigartigen Fingerprint.

Diese Publikation zitieren