Tag: Exploits

KI-Agenten als ExploitEntwickler: Was der ExploitGymBenchmark zeigt

LGR Reutlingen – 05 Juni 2026 | Der neue Benchmark ExploitGym liefert ein erstes, umfassendes Bild dafür, was KI‑Agenten als ExploitEntwickler leisten können – KI-Agenten als ExploitEntwickler Was der ExploitGymBenchmark zeigt. Ein Verbund aus sieben Forschungseinrichtungen, angeführt vom Berkeley RDI, hat 898 reale Schwachstellen in produktiver Software in ein Testfeld verwandelt, um zu prüfen, ob aktuelle Sprach‑ und Code‑Modelle eigenständig funktionierende Exploits erzeugen können.

KI-Agenten als ExploitEntwickler Was der ExploitGymBenchmark zeigt

Der Ansatz unterscheidet sich grundlegend von bisherigen Benchmarks, die sich fast ausschließlich auf das Auffinden von Bugs oder das Lösen von Capture‑the‑Flag‑Rätseln beschränkten. Hier beginnt die Aufgabe bereits mit einer reproduzierbaren Proof‑of‑Vulnerability‑Eingabe, und das Ziel ist, daraus eine vollständige Angriffskette zu bauen, die ein geheimes Flag ausliest – ein Szenario, das in der Praxis den Sprung von einer bloßen Anomalie zur ausnutzbaren Lücke markiert.

Jede Aufgabe besteht aus drei Bausteinen: dem Quellcode des Zielprogramms, einer Anleitung zum Aufbau einer kontrollierten Laufzeitumgebung und der PoV‑Eingabe. Der KI‑Agent hat dabei exakt zwei Stunden Zeit, um einen Exploit zu konstruieren, der das vorgegebene Flag offenbart. Zusätzlich prüft ein automatisierter Richter, ob das gefundene Flag tatsächlich über die intendierte Schwachstelle erreicht wurde, sodass Fehlalarme durch alternative Pfade herausgefiltert werden.

Die 898 Aufgaben verteilen sich auf drei Schutz‑Klassen: Userspace‑Programme mit aktivierbaren ASLR‑ und Stack‑Canary‑Mechanismen, V8‑Heap‑Sandbox‑Umgebungen für Browser‑Code und Linux‑Kernel‑Exploits, bei denen Kernel‑ASLR (KASLR) aktiv sein kann. Durch das gezielte An- und Ausschalten dieser Schutzmechanismen können die Forschenden exakt messen, wie stark jede Abwehrschicht die Leistung der KI‑Agenten beeinträchtigt.

Sieben Modell‑Konfigurationen wurden unter identischen Bedingungen getestet. Die Spitzenreiter waren Claude Mythos Preview (in Kombination mit Claude Code) mit 157 gültigen Exploits und GPT‑5.5 (mit Codex CLI) mit 120 Erfolgen. Darauf folgte GPT‑5.4 mit 54, Claude Opus 4.6 mit 15, Gemini 3.1 Pro mit 12 und die übrigen Modelle blieben im einstelligen Bereich. Der Unterschied zwischen Userspace‑ und Kernel‑Aufgaben war besonders markant: Während die ersten beiden Modelle in Userspace‑Aufgaben fast die Hälfte aller Lösungen lieferten, erreichten sie im Kernel‑Segment lediglich zweistellige Erfolge – ein klarer Hinweis darauf, dass die Komplexität von Kernel‑Exploits nach wie vor eine hohe Hürde darstellt.

Die Analyse der Schutzmechanismen ergab ein zweischneidiges Bild. Aktivierte ASLR‑ oder KASLR‑Filters senkten die Erfolgsquote aller Modelle signifikant, doch die Zahlen fielen nicht auf Null. Claude Mythos Preview erzielte selbst mit aktivem Schutz noch 25 Userspace‑, 17 V8‑ und 3 Kernel‑Erfolge, während GPT‑5.5 jeweils 10, 3 und 8 Treffer landete. Die Agenten nutzten dabei bekannte Umgehungstechniken: Partielle Pointer‑Überschreibungen und Low‑Bit‑Brute‑Force gegen ASLR, Manipulation von Wasm‑Dispatch‑Tabellen in V8 und das Auslesen von statischen Strings oder Seitenkanälen, um KASLR zu umgehen. Diese Techniken sind nicht neu, jedoch zeigen die Ergebnisse, dass KI‑Agenten sie eigenständig und kontextsensibel anwenden können.

Ein überraschender Befund war die Diskrepanz zwischen dem bloßen Erreichen des Flags und dem tatsächlich genutzten Exploit‑Pfad. GPT‑5.5 holte das Flag in 210 Fällen, jedoch nur in 120 über die vorgegebene Schwachstelle – die restlichen 90 Erfolge beruhen auf alternativen Pfaden, die das System ebenfalls zum Ziel führten. Claude Mythos Preview wies ein ähnliches Muster von 226 Flag‑Erfolgen bei 157 legitimen Exploits auf. In vielen dieser Fälle erkannten die Agenten, dass die bereitgestellte Lücke unter den aktuellen Bedingungen nicht ausnutzbar war, und suchten eigenständig nach anderen Angriffsmöglichkeiten – ein Hinweis darauf, dass die Modelle über reines Muster‑Matching hinaus ein gewisses Maß an autonomem Sicherheitsdenken entwickeln.

Die Zeitbudget‑Analyse verdeutlicht, dass die leistungsstärksten Modelle von zusätzlicher Rechenzeit profitieren. Bei einer Verlängerung von zwei auf sechs Stunden stieg die Erfolgsquote von Claude Mythos Preview kontinuierlich von 127 auf 204 Exploits, ohne ein deutliches Plateau zu erreichen. Im Gegensatz dazu stagnierte Claude Opus 4.6 bereits nach 30 Minuten. Diese Divergenz legt nahe, dass einige Modelle über mehrstufige, iterative Problemlösungsstrategien verfügen, während andere ihr Repertoire frühzeitig ausschöpfen.

Ein konkretes Fallbeispiel verdeutlicht die Fähigkeiten und Grenzen der KI‑Agenten. GPT‑5.4 erhielt eine fünfzeilige Eingabe, die in V8s Maglev‑JIT‑Compiler einen Assertion‑Fehler auslöste – ein Bug, der nach dem Wissensstichtag des Modells im Oktober 2025 entdeckt wurde. Der Agent analysierte zunächst die Objekt‑Struktur, konstruierte ein Objekt, das einen Heap‑Read‑Out‑of‑Bounds auslöste, bereitete den Heap für stabile Zeiger vor, manipulierte V8‑String‑Objekte, um native Speicherzugriffe zu ermöglichen, und baute schließlich eine ROP‑Kette, die zu einem Systemaufruf führte. Der gesamte Prozess dauerte 71 Minuten und resultierte in 229 Zeilen Exploit‑Code. Ohne aktivierte ASLR‑ und V8‑Sandbox‑Mechanismen war der Angriff erfolgreich; mit aktivierter Schutzlage scheiterte er jedoch, was die zentrale Rolle von Abwehrmechanismen unterstreicht.

Für Sicherheitspraktiker eröffnet der ExploitGymBenchmark ein neues Werkzeug: Die automatisierte Generierung von Exploits erlaubt eine schnelle Bewertung des Schweregrades einer bekannten Lücke, eine gezielte Priorisierung von Patches und eine Prüfung, ob implementierte Schutzmaßnahmen im konkreten Fall greifen. Gleichzeitig senkt dieselbe Fähigkeit die Einstiegshürde für Angreifer erheblich, da Aufgaben, die früher jahrelange Spezialkenntnis erforderten, nun von einem breiteren Kreis automatisiert bearbeitet werden können. Die Autoren warnen, dass die derzeitigen mehrschichtigen Verteidigungsstrategien allein nicht mehr ausreichen, um KI‑gestützte Angreifer langfristig abzuwehren.

Der zentrale Schlusspunkt des Projekts ist die Erkenntnis, dass Exploitation ein eigenständiger Maßstab ist, der nicht aus der bloßen Fehlersuche abgeleitet werden kann. Der ExploitGymBenchmark liefert ein offenes, wiederholbares Messinstrument, das sowohl KI‑Entwicklern als auch Verteidigern ein gemeinsames Datenfundament bietet. Während die aktuelle Generation von Modellen bereits beachtliche Fortschritte zeigt, wird die Weiterentwicklung von Abwehrmechanismen und die Integration von KI‑gestützten Gegenmaßnahmen zu einem Wettrennen, bei dem die Zeit zwischen Entdeckung und Ausnutzung immer knapper wird.

Insgesamt verdeutlicht die Studie, dass KI‑Agenten als ExploitEntwickler nicht nur theoretisch, sondern praktisch bereits ein signifikantes Risiko darstellen. Unternehmen sollten ihre Sicherheitsarchitektur prüfen, insbesondere den Einsatz von ASLR, Stack‑Canaries und Sandbox‑Techniken, und gleichzeitig überlegen, wie KI‑gestützte Analyse‑Tools in ihren eigenen Verteidigungsprozess eingebunden werden können. Der ExploitGymBenchmark ist dabei nicht das Ende, sondern erst der Anfang einer neuen Ära der Sicherheitsbewertung, in der maschinelles Lernen sowohl Angreifer als auch Verteidiger gleichermaßen stärkt.

June 5, 2026
KI-gestützte Analyse legt 15 Schwachstellen im FreeBSD-Kernel offen
LGR Reutlingen – 30 Mai 2026 | Ein Zusammenschluss von Sicherheitsforschern hat in Zusammenarbeit mit dem FreeBSD-Projektteam einen umfassenden, KI-unterstützten Audit des Betriebssystem-Kerns durchgeführt. Dabei wurden insgesamt 15 Schwachstellen identifiziert, die potenziell ausnutzbar sind, darunter lokale Privilegieneskalationen und ein kritischer Hypervisor-Escape.

Die Sicherheit von FreeBSD, einem der wichtigsten Betriebssysteme, das viele Server und Netzwerke antreibt, steht im Mittelpunkt dieser Analyse. Freiwillige und kleine Teams sind oft für die Aufrechterhaltung solcher Systeme verantwortlich, was zu einem Mangel an Ressourcen und Unterstützung führen kann. Das kalifornische Sicherheitsunternehmen Calif hat sich dieser Problematik angenommen und seine KI-gestützten Analysetools eingesetzt, um FreeBSD als erstes Projekt zu überprüfen. Das Unternehmen beschreibt seine Mission so: „Wir versuchen, das Internet zusammenzuhalten, indem wir es gelegentlich auseinandernehmen.“

Im Gegensatz zu traditionellen Bug-Bounty-Programmen, bei denen es häufig um die bloße Anzahl gefundener Schwachstellen geht, verfolgten die Forscher einen koordinierten Ansatz. Die Spielregeln wurden im Vorfeld mit dem FreeBSD-Team festgelegt, wobei der Fokus nicht auf der Anzahl der gemeldeten Probleme, sondern auf einem nachhaltigen Nutzen für die Projektpflege lag. „Wir wollen keine CVE-Zahlen jagen. Wir wollen den Menschen helfen, die das Projekt leiten“, erläuterte ein Vertreter des Forscherteams.

Die Zusammenarbeit führte dazu, dass nur Schwachstellen mit hohem oder besonders schwerem Ausnutzungs- potenzial dokumentiert wurden. Anstelle ausführlicher Berichte wurden kompakte Nachweise des Problems erstellt, und das Team stellte auch Vorschläge für mögliche Patches zur Verfügung, ohne deren Übernahme einzufordern. Die Betreuer konnten somit entscheiden, ob sie die vorgeschlagenen Lösungen umsetzen oder eigene entwickeln.

Ein weiterer innovativer Aspekt war die Etablierung eines direkten Kommunikationskanals zwischen den Forschern und dem FreeBSD-Team. Videokonferenzen zu Beginn der Zusammenarbeit trugen dazu bei, die Effizienz zu steigern, mehr als jede schriftliche Fehlermeldung es könnte.

Ergebnisse des Audits

Bereits im Vorfeld der strukturierten Zusammenarbeit hatten die Forscher eigene Schwachstellen identifiziert. Ende März wurde ein erster KI-unterstützter Remote-Kernel-Exploit für FreeBSD veröffentlicht, gefolgt von der Meldung einer CVE in exeCVE sowie drei Remote-Code-Execution-Lücken in einem weniger genutzten Modul.

Der anschließend durchgeführte koordinierte Audit brachte weitere 15 Schwachstellen im Kernel ans Licht. Diese umfassten:
- 5 lokale Privilegieneskalationen (LPE)
- 1 Hypervisor-Escape vom Gastsystem zum Host (bhyve)
- Mehrere Speicherlecks und Denial-of-Service-Schwachstellen
Zu drei der lokalen Privilegieneskalationen wurden technische Beschreibungen und funktionierende Exploit-Implementierungen veröffentlicht. Diese Erklärungen wurden von einer KI verfasst, um zu demonstrieren, wie KI-gestützte Schwachstellenforschung im Jahr 2026 aussieht. Die Exploits selbst wurden von menschlichen Experten überprüft und verifiziert.
- CVE-2026-45250: Eine Verwechslung der Byte-Größe in kern_setcred_copyin_supp_groups führt zu einem Stack-Überlauf im user_setcred-Frame und ermöglicht auf FreeBSD 14.4 das Erlangen einer Root-Shell.
- CVE-2026-45253: ptrace(PT_SC_REMOTE) prüft die umgeleitete Systemaufruf-Nummer nicht ausreichend, was zu einem Zugriff außerhalb der gültigen Indexgrenzen in der Systemaufruf-Tabelle führt und sich zu einer LPE verketten lässt.
- CVE-2026-45251: procdesc_free() gibt eine Struktur frei, ohne Warteschlangen-Einträge zu leeren. Über SCM_RIGHTS-Filedescriptoren lässt sich der Speicherslot zurückgewinnen und ein beliebiger Kernel-Zeiger-Schreibzugriff erzielen.
Die verbleibenden Schwachstellen aus dem Audit sollen veröffentlicht werden, sobald das FreeBSD-Team entsprechende Korrekturen bereitgestellt hat. Das Repository enthält zudem Bonus-Exploits, die größtenteils auf öffentlichen FreeBSD-Sicherheitshinweisen basieren, die bisher ohne funktionierende Nachweise veröffentlicht wurden.

Teil einer breiteren Initiative

FreeBSD ist das erste Projekt dieser Art, über welches die Forscher öffentlich berichten. Ähnliche Initiativen mit anderen Systemen, die zur grundlegenden Infrastruktur des Internets zählen, sind bereits in Planung und sollen zu einem späteren Zeitpunkt dokumentiert werden. Es bleibt zu hoffen, dass solche Projekte die Sicherheit kritischer Systeme erhöhen und die digitale Infrastruktur weiter stärken.

Die in diesem Artikel beschriebenen Schwachstellen wurden dem FreeBSD-Projektteam koordiniert gemeldet. Die Exploits wurden erst nach Rücksprache mit dem Team veröffentlicht. Systemadministratoren wird empfohlen, die verfügbaren Sicherheitsupdates für FreeBSD zeitnah einzuspielen.
May 30, 2026
Claude „Mythos Preview“: KI-Modell entwickelt vollständige Exploit-Ketten für weit verbreitete Software

LGR Reutlingen – 30 Mai 2026 | Das KI-Modell Claude „Mythos Preview“ von Anthropic markiert einen signifikanten Fortschritt in der Entwicklung von Exploits für weit verbreitete Software. Im Gegensatz zu früheren Modellen kann Mythos Preview nicht nur komplexe Schwachstellen identifizieren, sondern diese auch in Exploit-Primitives umwandeln und zu vollständigen End-to-End-Angriffsketten zusammensetzen. Diese Fähigkeiten sind so ausgeprägt, dass Anthropic sich entschied, das Modell nicht allgemein zu veröffentlichen, sondern es im Rahmen des Project Glasswing gezielt einzuführen.

Ein zentrales Problem in der Bewertung solcher Modelle war bisher die quantitative Messung ihrer Fähigkeiten. Traditionell wurden die Leistungen von Mythos Preview durch qualitative Tests erfasst, bei denen nach neuen Zero-Day-Schwachstellen gesucht und entsprechende Exploits entwickelt wurden. Diese Evaluierungen liefern wertvolle Einblicke, jedoch keine präzisen quantitativen Grundlagen. Um diesen Mangel zu beheben, wurden kürzlich zwei neue akademische Benchmarks entwickelt: ExploitBench und ExploitGym. Diese Benchmarks wurden in Zusammenarbeit mit verschiedenen Forschungsgruppen erstellt, um die Fähigkeiten von Mythos Preview zu testen.

Ein herausragendes Beispiel für die Leistungsfähigkeit von Mythos Preview ist der ExploitBench, der von Seunghyun Lee und Prof. David Brumley von der Carnegie Mellon University in Kooperation mit Bugcrowd entwickelt wurde. Dieser Benchmark bewertet die Fähigkeit von Modellen, vollständige End-to-End-Exploits zu generieren, und konzentriert sich dabei auf die V8-Engine, die in zahlreichen Anwendungen wie Chrome und Node.js eingesetzt wird. Die V8-Sandbox schützt den Speicherbereich, in dem JavaScript-Objekte einer Webseite liegen, und verhindert, dass Fehler als Einfallstor für tiefere Eingriffe genutzt werden können.

Die Ergebnisse von Mythos Preview sind beeindruckend. Während andere getestete Modelle die Schwachstellen zwar erreichen oder auslösen können, gelingt es nur Mythos Preview, aus der Sandbox auszubrechen und vollständige Kontrollflussübernahmen zu erreichen. Bei 21 von 41 untersuchten Schwachstellen konnte Mythos Preview eine vollständige Codeausführung erzielen, während kein anderes Modell dieses Ergebnis auch nur annähernd erreichte. Diese Fähigkeit hebt Mythos Preview deutlich von der Konkurrenz ab und könnte erhebliche Auswirkungen auf die Cybersicherheitslandschaft haben.

In einer detaillierten Analyse eines spezifischen Exploit-Versuchs wurde deutlich, dass Mythos Preview einen nahezu deterministischen Exploit für die Schwachstelle CVE-2023-6702 entwickelte, während andere bekannte Varianten eher probabilistisch und schwer kontrollierbar waren. Diese Stabilität ist entscheidend für den praktischen Einsatz, da effektive Exploits oft nur einmalig eingesetzt werden können.

Ein weiterer wichtiger Benchmark ist ExploitGym, der in Zusammenarbeit mit UC Berkeley, dem Max-Planck-Institut für Sicherheit und Datenschutz sowie anderen Institutionen entwickelt wurde. Dieser Benchmark wendet sein Bewertungsframework auf 898 bereits gepatchte Schwachstellen an und ermöglicht es, die Fähigkeiten von Mythos Preview in einem breiteren Kontext zu testen. Innerhalb von zwei Stunden konnte Mythos Preview bei 157 Aufgaben eine erfolgreiche Codeausführung erzielen, was die Leistungsfähigkeit des Modells unterstreicht. Im Vergleich dazu erzielte das vorherige Modell Claude Opus 4.6 nur 15 Erfolge über die vorgesehene Schwachstelle.

Zusätzlich hat Anthropic den SCONE-bench entwickelt, um die Ausnutzung von Smart Contracts zu bewerten. In diesem Benchmark konnte Mythos Preview Smart Contracts im simulierten Wert von 35 Millionen US-Dollar ausnutzen. Dies stellt einen erheblichen Vorsprung gegenüber anderen getesteten Modellen dar und verdeutlicht die Fortschritte, die Mythos Preview in der Exploit-Entwicklung erzielt hat.

Die Entwicklungen im Bereich der KI-gestützten Exploit-Entwicklung werfen bedeutende Fragen auf. Anthropic geht davon aus, dass die Fähigkeiten von Modellen wie Mythos Preview in den kommenden Monaten breiter verfügbar sein werden, was die Anforderungen an Cybersicherheitsmaßnahmen erhöhen wird. Je leistungsfähiger solche Modelle werden, desto wichtiger wird es, präzise Fähigkeitsprofile zu erstellen und qualitativ hochwertige Benchmarks zu entwickeln.

Die Ergebnisse der Tests wurden am 22. Mai 2026 veröffentlicht und zeigen, dass Mythos Preview in der Lage ist, vollständige Exploit-Ketten für weit verbreitete Software zu entwickeln. Dies könnte weitreichende Folgen für die Cybersicherheitsbranche haben, da die Erstellung solcher Exploits zunehmend weniger Fachwissen erfordert und damit ein höheres Risiko für Unternehmen und Institutionen darstellt.

May 30, 2026