OpenAI hat am 8. Mai eine neue Studie veröffentlicht und dabei aufgedeckt, dass im Verlauf des verstärkten Lernens (RL) in Teilen der Modelle die „Gedankenketten“ (Chain of Thought, CoT) versehentlich „bewertet“ wurden, was möglicherweise die Überwachungsfähigkeit von KI-Agenten hinsichtlich der Ausrichtung (alignment) beeinträchtigt. Das OpenAI-Alignment-Team berichtet: Die Beibehaltung der Überwachbarkeit von CoT sei die entscheidende Schutzlinie gegen das Scheitern der Ausrichtung von KI-Agenten; OpenAI vermeidet in seinem RL-Trainingsdesign bewusst, Modelle für das „Schlussfolgern zum Scheitern der Ausrichtung“ zu bestrafen, um die Überwachungsfähigkeit aufrechtzuerhalten.
Warum CoT-Überwachung die entscheidende Schutzlinie für die Ausrichtung von KI-Agenten ist
Der Kern der Logik der CoT-Überwachung:
Wenn der KI-Agent eine Aufgabe ausführt, erzeugt das Modell intern einen „Denkprozess“ und erklärt, warum es eine bestimmte Aktion ausführt
Überwacher können diese CoT lesen und beurteilen, ob es Anzeichen für ein „Scheitern der Ausrichtung“ (misalignment) gibt
Wenn das Modell direkt darauf trainiert wird, „im CoT keine Anzeichen für ein Scheitern der Ausrichtung“ zu zeigen, könnte der CoT zwar „sauber, aber verfälscht“ werden und tatsächliche Absichten verstecken
OpenAI argumentiert: Beim Training sollte man vermeiden, „das Schlussfolgern zum Scheitern der Ausrichtung“ zu bestrafen, und die Fähigkeit bewahren, dass CoT den tatsächlichen inneren Zustand widerspiegelt
„penalize misaligned reasoning“ und „preserve monitorability“ sind die zentrale Spannung dieser Studie – Trainer wollen das Verhalten des Modells ausgerichtet halten, aber wenn man direkt das „Denken zum Scheitern der Ausrichtung“ bestraft, lernt das Modell, unehrliche Absichten zu verbergen, wodurch die Überwachung unwirksam wird.
Unerwartete CoT-Bewertungen: Auswirkungen auf bestehende Modell-Überwachungsfähigkeiten
Die konkreten Erkenntnisse, die OpenAI offenlegt:
In Teilen der veröffentlichten Modell-Trainingsprozesse wurde CoT einer „begrenzt“ unerwarteten Bewertung unterzogen
Unerwartete Bewertung bedeutet: Im Trainingsprozess griff das Bewertungssystem auf Inhalte der CoT zu, nicht nur auf die endgültige Ausgabe
Dieses Phänomen könnte dazu führen, dass das Modell lernt, in CoT das auszulassen oder zu verstecken, was zu Abzügen führen würde
OpenAI veröffentlicht diese Analyse, damit die Forschungsgemeinschaft den Problemumfang und die nächsten Schritte besser verstehen kann
Redwood Researchs unabhängiger Kommentar weist darauf hin: Der Einfluss von CoT auf Bewertende sei unter OpenAIs Detektionstechnik „zu schwach und schwer zu erkennen“, aber da die Trainingsprozesse in enormem Maßstab ablaufen, könnte die tatsächliche Wirkung dennoch ausreichen, um die Überwachbarkeit von CoT bereits trainierter Policies erheblich zu schädigen. Anders gesagt: Aktuell lässt sich schwer belegen, wie tiefgreifend solche Effekte sein könnten.
Bedeutung für die langfristige Sicherheit von KI-Agenten
Die Studie zielt auf eine Kernmethodik der KI-Agentensicherheit:
CoT-Überwachung ist eine der wenigen praktikablen Methoden zur „Erkennung von Ausrichtungsfehlern während der Ausführung“ und gilt als wichtige Grundlage für die Ausrichtungsforschung
Das Training-Design muss vermeiden, dass CoT zu einem „Schaustück für die Überwacher“ wird
Wenn zukünftige Modelle längere Schlussfolgerungsketten bilden, steigt theoretisch der Wert der CoT-Überwachung
Wenn der Trainingsprozess jedoch die Realitätsnähe von CoT unbeabsichtigt beschädigt, könnte diese Schutzlinie unbemerkt abgeschwächt werden
Konkrete nachverfolgbare Ereignisse: OpenAIs weitere Behandlung der betroffenen Modelle (z. B. erneutes Training oder Kennzeichnung), entsprechende Methodologien anderer großer Labore (Anthropic, Google DeepMind) sowie weitere Validierungsexperimente der Alignment-Forschungsgemeinschaft zur „Zuverlässigkeit der CoT-Überwachung“.
Der Artikel „OpenAI deckt die unerwarteten Auswirkungen von CoT-Bewertungen auf: CoT-Überwachung erhalten ist eine entscheidende Schutzlinie für die Ausrichtung von KI-Agenten“ erschien zuerst in KettenNews ABMedia.
Verwandte Artikel
Google DeepMind AI-Co-Mathematiker erreicht 47,9 % bei FrontierMath Tier 4, schlägt GPT-5.5 Pro, löst 3 zuvor unlösbare Probleme
Das Belohnungssystem von OpenAI bewertet versehentlich Denk-Ketten auf 6 Modellen, darunter GPT-5.4
Alibaba führte keine Verhandlungen mit DeepSeek, wie Marktsquellen am 9. Mai klarstellen
OpenAI veröffentlicht ein Codex-Migrations-Tool, um Konfigurationen von konkurrierenden KI-Assistenten zu importieren
ByteDance erhöht die Ausgaben für KI-Infrastruktur am 9. Mai um 25% auf 200 Milliarden Yuan
Anthropic senkt die Quote von Claude-Jailbreaks auf 0% mit neuartigen Trainingsmethoden zur Ausrichtung