In den Morgenstunden des 19.07.2024 kam es zu einem folgenreichen Ausfall des Falcon-Sensors, dem Kernelement der CrowdStrike Cyber-Security Software. Dies führte zu einer weltweiten Beeinträchtigung zahlreicher Kundensysteme.
Auslöser des Zwischenfalls war kein Cyberangriff, sondern ein routinemäßiges Software-Update, bei dem ein Rapid Response Content Update für den Falcon-Sensor auf Windows-Hosts mit Sensor-Version 7.11 und höher bereitgestellt wurde. Dieses Update sollte Telemetriedaten über neue Bedrohungstechniken erfassen, führte jedoch zu Abstürzen (BSOD) auf Windows-Systemen, die zwischen 04:09 und 05:27 Uhr UTC online waren und das Update automatisch über die Cloud-Infrastruktur erhalten haben.
Das Problem: Das Rapid Response Content Update führte zu einer Diskrepanz zwischen den bereitgestellten Eingabewerten und den erwarteten Werten, was zu einem unzulässigen Speicherzugriff und letztendlich zu Systemabstürzen auf Windows-Hosts führte.
Die Auswirkungen: Die Auswirkungen des Vorfalls waren Systemabstürze auf Windows-Hosts, die zwischen 04:09 und 05:27 Uhr UTC online waren, was zu einer Beeinträchtigung der Verfügbarkeit dieser Systeme führte. Der Falcon Complete Service (MDR) sowie die EDR-Software waren hiervon nicht betroffen; die Sicherheit der Systeme also weiterhin gegeben.
Die Reaktion und Workarounds: Sofort nach Bekanntwerden der Systemabstürze wurde der weitere Rollout abgebrochen. Systeme, die nach 05:27 Uhr UTC online gingen, waren dementsprechend vom fehlerhaften Update nicht betroffen. Durch CrowdStrike wurde ein manueller Workaround an die Kunden und Partner kommuniziert, der eine Löschung der fehlerhaften Datei auf dem lokalen Laufwerk der Hosts vorsah. Dies hatte ein wenig anspruchsvolles, aber zeitintensives Eingreifen der lokalen IT der Kunden oder Partner zur Folge. Dadurch konnten bereits in den Mittagsstunden zahlreiche Systeme wieder reibungslos ihren Dienst aufnehmen.
Am 21.07.24 wurde dann eine Remediation über die CrowdStrike-Cloud mittels des Falcon Sensors ermöglicht. Die existierende Quarantäne-Funktion des Sensors isolierte von nun an die Datei und verhinderte damit den Systemabsturz.
Bis zur Wiederherstellung der Arbeitsfähigkeit unterstützten wir unsere Kunden gemeinsam mit CrowdStrike intensiv bei der Umsetzung der Workarounds.
Die Maßnahmen zur Vermeidung einer Wiederholung:
Um eine Wiederholung eines solch weitreichenden Incidents zu verhindern, wurde unmittelbar nach dem Support und der Wiederherstellung der Kundensysteme ein Maßnahmenplan entwickelt. Folgende Maßnahmen wurden definiert und bereits umgesetzt:
| Maßnahme | Beschreibung |
| Verbesserung der Qualitätssicherung | Erhöhung der Qualitätssicherung bei der Entwicklung und Bereitstellung von Content-Updates, um sicherzustellen, dass keine Diskrepanzen zwischen Eingabewerten und erwarteten Werten auftreten. |
| Implementierung von spezifischen Tests | Implementierung von spezifischen Tests für Non-Wildcard-Matching-Kriterien, um sicherzustellen, dass alle möglichen Szenarien abgedeckt sind. |
| Verbesserung der Kommunikation | Verbesserung der Kommunikation zwischen CrowdStrike und seinen Kunden, um sicherzustellen, dass alle über den Status der Entwicklung und Bereitstellung von Content-Updates informiert sind. |
| Implementierung von Resilienz-Maßnahmen | Implementierung von Resilienz-Maßnahmen, um sicherzustellen, dass die Plattform auch bei ähnlichen Vorfällen weiterhin verfügbar bleibt. |
| Kunden-Kontrolle über die Bereitstellung von Rapid Response Content Updates | Die Falcon-Plattform wurde aktualisiert, um den Kunden eine bessere Kontrolle über die Bereitstellung von Rapid Response Content zu ermöglichen. Kunden können wählen, wo und wann die Rapid Response Content Updates bereitgestellt werden. |
| Überprüfung durch unabhängige Dritte | CrowdStrike hat zwei unabhängige Drittanbieter von Softwaresicherheitslösungen damit beauftragt, den Falcon-Sensorcode hinsichtlich Sicherheit und Qualitätssicherung weiter zu prüfen. Darüber hinaus wird eine unabhängige Überprüfung des gesamten Qualitätsprozesses von der Entwicklung bis zur Bereitstellung durchgeführt. |
| Template-Instanzen sollen stufenweise bereitgestellt werden | Durch die stufenweise Bereitstellung werden die Auswirkungen geschwächt, wenn eine neue Template-Instanz Fehler wie Systemabstürze, sprunghaften Volumenanstieg bei False Positives oder Leistungsprobleme verursacht. |
| Weitere Tests im Zuge der Software-Entwicklung | Erstellung zusätzlicher Prüfungen im Content ValidatorErstellung problematischer Channel 291 Files verhindernTestverfahren für das Content-Konfigurationssystem aktualisierenErhöhte Testabdeckung während der Entwicklung von Template-TypenValidierung der Anzahl der Eingabefelder im Template-Typ beim Kompilieren des Sensors |
