Zusammenfassung der Root-Cause-Analysis des CrowdStrike-Incidents vom 19.07.2024

In den Morgenstunden des 19.07.2024 kam es zu einem folgenreichen Ausfall des Falcon-Sensors, dem Kernelement der CrowdStrike Cyber-Security Software. Dies führte zu einer weltweiten Beeinträchtigung zahlreicher Kundensysteme.
Auslöser des Zwischenfalls war kein Cyberangriff, sondern ein routinemäßiges Software-Update, bei dem ein Rapid Response Content Update für den Falcon-Sensor auf Windows-Hosts mit Sensor-Version 7.11 und höher bereitgestellt wurde. Dieses Update sollte Telemetriedaten über neue Bedrohungstechniken erfassen, führte jedoch zu Abstürzen (BSOD) auf Windows-Systemen, die zwischen 04:09 und 05:27 Uhr UTC online waren und das Update automatisch über die Cloud-Infrastruktur erhalten haben.

Das Problem: Das Rapid Response Content Update führte zu einer Diskrepanz zwischen den bereitgestellten Eingabewerten und den erwarteten Werten, was zu einem unzulässigen Speicherzugriff und letztendlich zu Systemabstürzen auf Windows-Hosts führte.

Die Auswirkungen: Die Auswirkungen des Vorfalls waren Systemabstürze auf Windows-Hosts, die zwischen 04:09 und 05:27 Uhr UTC online waren, was zu einer Beeinträchtigung der Verfügbarkeit dieser Systeme führte. Der Falcon Complete Service (MDR) sowie die EDR-Software waren hiervon nicht betroffen; die Sicherheit der Systeme also weiterhin gegeben.

Die Reaktion und Workarounds: Sofort nach Bekanntwerden der Systemabstürze wurde der weitere Rollout abgebrochen. Systeme, die nach 05:27 Uhr UTC online gingen, waren dementsprechend vom fehlerhaften Update nicht betroffen. Durch CrowdStrike wurde ein manueller Workaround an die Kunden und Partner kommuniziert, der eine Löschung der fehlerhaften Datei auf dem lokalen Laufwerk der Hosts vorsah. Dies hatte ein wenig anspruchsvolles, aber zeitintensives Eingreifen der lokalen IT der Kunden oder Partner zur Folge. Dadurch konnten bereits in den Mittagsstunden zahlreiche Systeme wieder reibungslos ihren Dienst aufnehmen.

Am 21.07.24 wurde dann eine Remediation über die CrowdStrike-Cloud mittels des Falcon Sensors ermöglicht. Die existierende Quarantäne-Funktion des Sensors isolierte von nun an die Datei und verhinderte damit den Systemabsturz.

Bis zur Wiederherstellung der Arbeitsfähigkeit unterstützten wir unsere Kunden gemeinsam mit CrowdStrike intensiv bei der Umsetzung der Workarounds.

Die Maßnahmen zur Vermeidung einer Wiederholung:
Um eine Wiederholung eines solch weitreichenden Incidents zu verhindern, wurde unmittelbar nach dem Support und der Wiederherstellung der Kundensysteme ein Maßnahmenplan entwickelt. Folgende Maßnahmen wurden definiert und bereits umgesetzt:

MaßnahmeBeschreibung
Verbesserung der QualitätssicherungErhöhung der Qualitätssicherung bei der Entwicklung und Bereitstellung von Content-Updates, um sicherzustellen, dass keine Diskrepanzen zwischen Eingabewerten und erwarteten Werten auftreten.
Implementierung von spezifischen TestsImplementierung von spezifischen Tests für Non-Wildcard-Matching-Kriterien, um sicherzustellen, dass alle möglichen Szenarien abgedeckt sind.
Verbesserung der KommunikationVerbesserung der Kommunikation zwischen CrowdStrike und seinen Kunden, um sicherzustellen, dass alle über den Status der Entwicklung und Bereitstellung von Content-Updates informiert sind.
Implementierung von Resilienz-MaßnahmenImplementierung von Resilienz-Maßnahmen, um sicherzustellen, dass die Plattform auch bei ähnlichen Vorfällen weiterhin verfügbar bleibt.
Kunden-Kontrolle über die Bereitstellung von Rapid Response Content UpdatesDie Falcon-Plattform wurde aktualisiert, um den Kunden eine bessere Kontrolle über die Bereitstellung von Rapid Response Content zu ermöglichen. Kunden können wählen, wo und wann die Rapid Response Content Updates bereitgestellt werden.
Überprüfung durch unabhängige DritteCrowdStrike hat zwei unabhängige Drittanbieter von Softwaresicherheitslösungen damit beauftragt, den Falcon-Sensorcode hinsichtlich Sicherheit und Qualitätssicherung weiter zu prüfen. Darüber hinaus wird eine unabhängige Überprüfung des gesamten Qualitätsprozesses von der Entwicklung bis zur Bereitstellung durchgeführt.
Template-Instanzen sollen stufenweise bereitgestellt werdenDurch die stufenweise Bereitstellung werden die Auswirkungen geschwächt, wenn eine neue Template-Instanz Fehler wie Systemabstürze, sprunghaften Volumenanstieg bei False Positives oder Leistungsprobleme verursacht.
Weitere Tests im Zuge der Software-EntwicklungErstellung zusätzlicher Prüfungen im Content ValidatorErstellung problematischer Channel 291 Files verhindernTestverfahren für das Content-Konfigurationssystem aktualisierenErhöhte Testabdeckung während der Entwicklung von Template-TypenValidierung der Anzahl der Eingabefelder im Template-Typ beim Kompilieren des Sensors
Scroll to Top