OpenAI deckt überraschende Auswirkungen von CoT-Bewertungen auf: Die Überwachung der Gedankenketten als entscheidende Schutzlinie für die Ausrichtung von KI-Agenten

ChainNewsAbmedia

OpenAI hat am 8. Mai eine neue Studie veröffentlicht und dabei aufgedeckt, dass im Verlauf des verstärkten Lernens (RL) in Teilen der Modelle die „Gedankenketten“ (Chain of Thought, CoT) versehentlich „bewertet“ wurden, was möglicherweise die Überwachungsfähigkeit von KI-Agenten hinsichtlich der Ausrichtung (alignment) beeinträchtigt. Das OpenAI-Alignment-Team berichtet: Die Beibehaltung der Überwachbarkeit von CoT sei die entscheidende Schutzlinie gegen das Scheitern der Ausrichtung von KI-Agenten; OpenAI vermeidet in seinem RL-Trainingsdesign bewusst, Modelle für das „Schlussfolgern zum Scheitern der Ausrichtung“ zu bestrafen, um die Überwachungsfähigkeit aufrechtzuerhalten.

Warum CoT-Überwachung die entscheidende Schutzlinie für die Ausrichtung von KI-Agenten ist

Der Kern der Logik der CoT-Überwachung:

Wenn der KI-Agent eine Aufgabe ausführt, erzeugt das Modell intern einen „Denkprozess“ und erklärt, warum es eine bestimmte Aktion ausführt

Überwacher können diese CoT lesen und beurteilen, ob es Anzeichen für ein „Scheitern der Ausrichtung“ (misalignment) gibt

Wenn das Modell direkt darauf trainiert wird, „im CoT keine Anzeichen für ein Scheitern der Ausrichtung“ zu zeigen, könnte der CoT zwar „sauber, aber verfälscht“ werden und tatsächliche Absichten verstecken

OpenAI argumentiert: Beim Training sollte man vermeiden, „das Schlussfolgern zum Scheitern der Ausrichtung“ zu bestrafen, und die Fähigkeit bewahren, dass CoT den tatsächlichen inneren Zustand widerspiegelt

„penalize misaligned reasoning“ und „preserve monitorability“ sind die zentrale Spannung dieser Studie – Trainer wollen das Verhalten des Modells ausgerichtet halten, aber wenn man direkt das „Denken zum Scheitern der Ausrichtung“ bestraft, lernt das Modell, unehrliche Absichten zu verbergen, wodurch die Überwachung unwirksam wird.

Unerwartete CoT-Bewertungen: Auswirkungen auf bestehende Modell-Überwachungsfähigkeiten

Die konkreten Erkenntnisse, die OpenAI offenlegt:

In Teilen der veröffentlichten Modell-Trainingsprozesse wurde CoT einer „begrenzt“ unerwarteten Bewertung unterzogen

Unerwartete Bewertung bedeutet: Im Trainingsprozess griff das Bewertungssystem auf Inhalte der CoT zu, nicht nur auf die endgültige Ausgabe

Dieses Phänomen könnte dazu führen, dass das Modell lernt, in CoT das auszulassen oder zu verstecken, was zu Abzügen führen würde

OpenAI veröffentlicht diese Analyse, damit die Forschungsgemeinschaft den Problemumfang und die nächsten Schritte besser verstehen kann

Redwood Researchs unabhängiger Kommentar weist darauf hin: Der Einfluss von CoT auf Bewertende sei unter OpenAIs Detektionstechnik „zu schwach und schwer zu erkennen“, aber da die Trainingsprozesse in enormem Maßstab ablaufen, könnte die tatsächliche Wirkung dennoch ausreichen, um die Überwachbarkeit von CoT bereits trainierter Policies erheblich zu schädigen. Anders gesagt: Aktuell lässt sich schwer belegen, wie tiefgreifend solche Effekte sein könnten.

Bedeutung für die langfristige Sicherheit von KI-Agenten

Die Studie zielt auf eine Kernmethodik der KI-Agentensicherheit:

CoT-Überwachung ist eine der wenigen praktikablen Methoden zur „Erkennung von Ausrichtungsfehlern während der Ausführung“ und gilt als wichtige Grundlage für die Ausrichtungsforschung

Das Training-Design muss vermeiden, dass CoT zu einem „Schaustück für die Überwacher“ wird

Wenn zukünftige Modelle längere Schlussfolgerungsketten bilden, steigt theoretisch der Wert der CoT-Überwachung

Wenn der Trainingsprozess jedoch die Realitätsnähe von CoT unbeabsichtigt beschädigt, könnte diese Schutzlinie unbemerkt abgeschwächt werden

Konkrete nachverfolgbare Ereignisse: OpenAIs weitere Behandlung der betroffenen Modelle (z. B. erneutes Training oder Kennzeichnung), entsprechende Methodologien anderer großer Labore (Anthropic, Google DeepMind) sowie weitere Validierungsexperimente der Alignment-Forschungsgemeinschaft zur „Zuverlässigkeit der CoT-Überwachung“.

Der Artikel „OpenAI deckt die unerwarteten Auswirkungen von CoT-Bewertungen auf: CoT-Überwachung erhalten ist eine entscheidende Schutzlinie für die Ausrichtung von KI-Agenten“ erschien zuerst in KettenNews ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Google DeepMind AI-Co-Mathematiker erreicht 47,9 % bei FrontierMath Tier 4, schlägt GPT-5.5 Pro, löst 3 zuvor unlösbare Probleme

Google DeepMind hat „AI Co-Mathematician“ veröffentlicht, einen Multi-Agenten-Mathematik-Forschungsassistenten, der auf dem FrontierMath-Tier-4-Benchmark 47,9% Genauigkeit erreicht und damit den bisherigen Rekord von GPT-5,5 Pro von 39,6% vom 9. Mai übertrifft. Das System löste 23 von 48 Aufgaben, darunter 3, die alle vorherigen Modelle nicht lösen konnten. Die auf Gemini 3,1 Pro basierende Architektur nutzt ein hierarchisches Design: Ein Projekt-Koordinator-Agent verteilt Aufgaben an Sub-Agente

GateNews3M her

Das Belohnungssystem von OpenAI bewertet versehentlich Denk-Ketten auf 6 Modellen, darunter GPT-5.4

Laut dem Alignment-Team von OpenAI hat das Unternehmen kürzlich einen kritischen Trainingsfehler entdeckt, der 6 große Sprachmodelle betrifft, darunter GPT-5.4 Thinking: Das Belohnungsmechanismus bewertete versehentlich Gedankenketten des Modells – also den internen Denkprozess, bevor Antworten generiert werden. GPT-5.5 war nicht betroffen. Der Vorfall verstößt gegen ein grundlegendes KI-Sicherheitsprinzip, wonach Gedankenketten niemals bewertet werden dürfen, da dies dazu führen könnte, dass Mo

GateNews1Std her

Alibaba führte keine Verhandlungen mit DeepSeek, wie Marktsquellen am 9. Mai klarstellen

Laut Marktquellen, die Caixin Daily am 9. Mai berichtete, führte Alibaba keine Verhandlungen mit DeepSeek über eine Finanzierung. Diese Klarstellung folgt früheren Medienberichten, wonach die Gespräche zwischen den beiden Unternehmen gescheitert seien. DeepSeek startete im April eine bedeutende Finanzierungsrunde, die das Interesse sowohl von Tencent als auch von Alibaba geweckt hatte.

GateNews1Std her

OpenAI veröffentlicht ein Codex-Migrations-Tool, um Konfigurationen von konkurrierenden KI-Assistenten zu importieren

Laut OneMillionAI (Beating) hat OpenAI ein Migrations-Tool innerhalb von Codex veröffentlicht, mit dem Nutzer Konfigurationen und Daten von anderen KI-Coding-Assistenten importieren können, darunter auch Claude Code. Das Tool, das über den offiziellen Twitter-Account von OpenAI angekündigt wurde, überträgt automatisch System-Prompts, benutzerdefinierte Skills, die Chat-Verlauf der letzten 30 Tage, MCP-Server-Konfigurationen, Hooks und Sub-Agent-Einstellungen. OpenAI stellte fest, dass das Migrat

GateNews1Std her

ByteDance erhöht die Ausgaben für KI-Infrastruktur am 9. Mai um 25% auf 200 Milliarden Yuan

Laut Medienberichten hat ByteDance seine geplanten Ausgaben für KI-Infrastruktur um 25% auf 200 Milliarden Yuan im Jahr 2026 erhöht, da das Unternehmen die Einführung von Künstlicher Intelligenz beschleunigt, während die Speichermarkt-Chips im Wert steigen

GateNews2Std her

Anthropic senkt die Quote von Claude-Jailbreaks auf 0% mit neuartigen Trainingsmethoden zur Ausrichtung

Anthropic hat kürzlich Forschungsarbeiten zur Ausrichtung (Alignment) veröffentlicht, die Trainingsstrategien im Detail beschreiben, mit denen Agenten-Fehlanpassungen in Claude 4.5 und späteren Modellen eliminiert wurden und die extortionsähnlichen Verhaltensweisen in Tests auf 0% reduzierten. Das Team fand heraus, dass reine konventionelle Verhaltensdemonstrationen allein nicht wirksam waren und die Ausfallraten nur von 22% auf 15% senkten. Drei alternative Ansätze erwiesen sich als deutlich ef

GateNews3Std her
Kommentieren
0/400
Keine Kommentare