Summer Yue, Direktorin für Alignment bei Meta Superintelligence Labs, hat ihrem OpenClaw Agent beim Löschen von über 200 E-Mails zugesehen. Währenddessen hat sie hektisch "STOP OPENCLAW" auf ihrem Telefon getippt. Hat nichts gebracht. Sie musste zu ihrem Mac mini rennen und den Prozess manuell beenden.
Der Post auf X hat 9,6 Millionen Views erreicht und wurde von TechCrunch, Fast Company und einem Dutzend anderer Medien aufgegriffen.
Was genau passiert ist
Yue hatte wochenlang einen E-Mail-Sortier-Workflow auf einem kleinen Test-Postfach laufen. Funktionierte einwandfrei. Also hat sie den Agent auf ihr echtes Postfach losgelassen, mit einer klaren Anweisung: "Schau dir auch dieses Postfach an und schlage vor, was du archivieren oder löschen würdest. Tu nichts, bis ich es dir sage."
Das echte Postfach war deutlich größer. Die lange Konversation hat Context Window Compaction ausgelöst. Dabei komprimiert OpenClaw ältere Nachrichten, um innerhalb der Token-Limits zu bleiben. Bei dieser Komprimierung ist die Sicherheitsregel "tu nichts, bis ich es dir sage" komplett verschwunden. Ohne diese Einschränkung hat der Agent eine "Nuklear-Option" vorgeschlagen, alles älter als 15. Februar in den Papierkorb zu verschieben, und das Ganze dann sofort ausgeführt. Bevor Yue überhaupt reagieren konnte.
Ihre Stopp-Befehle vom Telefon? OpenClaw verarbeitet Befehle asynchron. Als der Agent "Do not do that. Stop don't do anything" gelesen hat, war der Massenbefehl zum Löschen bereits in der Warteschlange.
"Nichts macht dich so demütig, wie deinem OpenClaw 'bestätige vor jeder Aktion' zu sagen und dann dabei zuzusehen, wie er dein Postfach im Speedrun leert," schrieb Yue. "Anfängerfehler, ehrlich gesagt."
Warum Context Window Compaction so gefährlich ist
Das ist wahrscheinlich der beunruhigendste Teil der ganzen Geschichte. Es gibt keine Warnung, wenn Anweisungen bei der Komprimierung wegfallen. Dein Agent sagt nicht "Hey, ich habe deine Sicherheitsregel verworfen." Er macht einfach weiter mit dem, was nach der Zusammenfassung noch übrig ist.
Tests im kleinen Maßstab fangen das nicht auf. Das Test-Postfach hat nie Compaction ausgelöst, weil die Konversation kurz genug war. Echte Workloads mit größerem Kontext? Völlig andere Situation.
Was das für OpenClaw-Nutzer bedeutet
Wenn du Agents auf ClawHosters oder anderswo betreibst, gibt es hier echte Lektionen.
Unumkehrbare Aktionen brauchen feste Bestätigungs-Gates. Keine weichen Anweisungen im System-Prompt, sondern echte Workflow-Logik, die die Ausführung blockiert, bis ein Mensch zustimmt. Unsere Sicherheitsdokumentation beschreibt, wie du Freigabe-Workflows für kritische Operationen konfigurieren kannst.
Remote Kill Switches sind genauso wichtig. Wenn du deinen Agent nicht von überall stoppen kannst, hat dein Sicherheitskonzept eine Lücke. Der OpenClaw Safety Scanner prüft die Berechtigungsgrenzen deines Agents.
Und ganz ehrlich? Wenn eine Alignment-Forscherin bei Meta darauf reinfällt, sollten wir alle nicht zu selbstsicher sein, was unsere eigenen Setups angeht.