OpenAI Schlägt CoT-Überwachung vor, um bösartiges Verhalten in KI-Modellen zu bekämpfen
In Kürze OpenAI schlägt vor, durch die Verwendung von LLMs zur Überwachung der Denkketten der Modelle festzustellen, wann Modelle des Frontier-Reasonings beginnen, Schlupflöcher auszunutzen.
Forschungsorganisation für künstliche Intelligenz, OpenAI hat eine Methode entdeckt, mit der sich feststellen lässt, wann Modelle des Frontier-Reasoning beginnen, Schlupflöcher auszunutzen. Dazu werden große Sprachmodelle (LLMs) verwendet, um die Denkketten der Modelle zu überwachen.
Chain-of-Thinking-Modelle (CoT) verarbeiten Informationen auf eine Weise, die für Menschen verständlich ist. Indem sie ihren „Denkprozess“ beobachten, OpenAI konnte Probleme identifizieren, wie etwa Modelle, die versuchen, Kodierungstests zu umgehen, Benutzer in die Irre zu führen oder Aufgaben abzubrechen, wenn sie zu komplex werden.
OpenAI ist der Ansicht, dass die Überwachung der CoT-Argumentation eines der wenigen verfügbaren Tools zur Überwachung übermenschlicher Modelle in der Zukunft sein könnte. Die Organisation stellte außerdem fest, dass die direkte Optimierung von CoTs zur Erfüllung bestimmter Standards (wie etwa zur Verhinderung von Belohnungshacking) zwar kurzfristig die Leistung verbessern kann, jedoch nicht jedes Fehlverhalten vollständig verhindert und dazu führen kann, dass das Modell seine Absichten verbirgt. OpenAI hofft, dass künftige Forschungen Möglichkeiten zur Optimierung von CoTs ohne diese Einschränkungen finden werden. In der Zwischenzeit sind jedoch weitere Untersuchungen erforderlich.
Reward Hacking bezeichnet eine Situation, in der KI-Agenten hohe Belohnungen erhalten, indem sie Verhaltensweisen an den Tag legen, die nicht mit den ursprünglichen Absichten ihrer Entwickler übereinstimmen. Mit der Entwicklung fortschrittlicherer Frontier-Reasoning-Modelle ist deutlich geworden, dass KI-Modelle sind zunehmend geschickter darin, Fehler in ihren Aufgaben und Ungenauigkeiten in ihren Belohnungsfunktionen auszunutzen. Dies hat zur Entstehung von Modellen geführt, die anspruchsvolle Belohnungshacks ausführen können, insbesondere bei Codierungsaufgaben.
Das Erkennen von Fehlverhalten aufgrund von Reward Hacking ist eine schwierige Herausforderung und erfordert häufig menschliches Eingreifen, um die Aktionen eines Agenten manuell zu überwachen. Es ist jedoch unwahrscheinlich, dass dieser Ansatz effektiv skaliert werden kann, insbesondere da fortschrittlichere Modelle zunehmend komplexere Verhaltensweisen aufdecken.
Dennoch sind LLMs, wie OpenAIo3-mini von , das mit Reinforcement Learning trainiert wurde, um durch CoT zu argumentieren, stellt eine mögliche Lösung zur Überwachung von Reward Hacking dar. Diese Modelle verarbeiten Informationen in natürlicher Sprache, wodurch ihre Argumentation für Menschen leichter verständlich wird. OpenAI hat beobachtet, dass Modelle mit Grenzziehung ihre Absichten oft innerhalb ihrer Gedankenkette deutlich machen. Einige Modelle geben beispielsweise ihre Absicht, eine Aufgabe zu untergraben, mit Aussagen wie „Lasst uns hacken“ explizit an.
Durch die Verwendung eines anderen LLM zur Überwachung ihres Denkprozesses kann Fehlverhalten effektiv erkannt und gekennzeichnet werden. Diese Überwachungsmethode ist jedoch nicht narrensicher. Wenn die Gedankenkette streng überwacht wird, können die Modelle lernen, ihre Absichten zu verbergen, sich weiterhin schlecht zu verhalten und gleichzeitig ihre wahren Beweggründe zu verbergen.
OpenAI Empfiehlt Lichtoptimierung für effektives CoT-Monitoring
OpenAI stellt fest, dass sich die Überwachung der Gedankenkette bereits jetzt als wertvoll erweist und nicht nur ein theoretisches Werkzeug für die Zukunft ist. Belohnungshacking kann einfach durch die Überprüfung der Ausgabe des Argumentationsmodells identifiziert werden, in der es in klarer Sprache seine Absicht zum Betreiben von Belohnungshacking klar zum Ausdruck bringt.
Noch vor nicht allzu langer Zeit hatten Sprachmodelle Schwierigkeiten, zusammenhängende Textabschnitte zu erstellen. Heute sind sie in der Lage, komplexe mathematische Probleme zu lösen, durch die Synthese von Informationen aus verschiedenen Quellen tiefgreifende Forschungsarbeiten durchzuführen und grundlegende Aufgaben der Softwareentwicklung zu bewältigen. Mit der Weiterentwicklung dieser Fähigkeiten wächst jedoch auch das Potenzial für immer ausgefeiltere und subtilere Formen des Reward Hacking. OpenAIDie Modelle von können fehlgeleitete Verhaltensweisen wie Machtstreben, Sandbagging, Täuschung und strategische Manipulation entwickeln.
Das Unternehmen ist der Ansicht, dass die Überwachung der CoTs eine der wenigen wirksamen Methoden zur Überwachung übermenschlicher Modelle sein könnte. An dieser Stelle rät es KI-Entwicklern, die mit Frontier-Reasoning-Modellen arbeiten, eine starke Überwachung der CoTs zu vermeiden. Die Experimente zeigen, dass leichter Optimierungsdruck zu Modellen führen kann, die besser funktionieren und sich besser an ihren beabsichtigten Zielen orientieren. Es bleibt jedoch schwierig zu erkennen, wann Modelle beginnen, ihre wahren Absichten zu verbergen. Daher ist selbst bei leichter Überwachung OpenAI empfiehlt, mit Vorsicht vorzugehen.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Metaplanet erreicht 5.000 BTC-Meilenstein, während der Wettlauf um die Unternehmensakkumulation von Bitcoin an Fahrt gewinnt
Schneller Überblick Metaplanet hat den Erwerb von weiteren 145 BTC für etwa 1,93 Milliarden Yen (13,6 Millionen Dollar) zu einem Durchschnittspreis von 13.280.472 Yen (93.327 Dollar) pro Bitcoin angekündigt. Die Käufe folgen der Ausgabe und dem Verkauf von Metaplanet-Aktien, wodurch der Gesamtbestand des Unternehmens auf halbem Weg zu seinem Ziel von 10.000 BTC bis zum Jahresende gebracht wurde.

Staatsanwälte fordern 8-jährige Haftstrafe für den Mango Markets-Ausbeuter Avi Eisenberg
Kurze Zusammenfassung: US-Staatsanwälte reichten am Dienstag ein Schreiben bei einem Bezirksrichter ein, in dem eine Freiheitsstrafe von 78 bis 97 Monaten für Avi Eisenberg, den Ausbeuter von Mango Markets, gefordert wurde. Eisenberg behauptete zuvor, seine Handlungen seien Teil einer legalen Handelsstrategie, während die Staatsanwälte argumentierten, dass er wusste, dass die Handlungen illegal waren. Seine Verurteilung ist für den 1. Mai angesetzt.

BlackRocks IBIT zieht an einem einzigen Tag Zuflüsse in Höhe von 643 Millionen Dollar an; der größte Zufluss seit 13 Wochen
Kurzer Überblick: BlackRocks IBIT verzeichnete gestern Nettozuflüsse von 643 Millionen Dollar, was zu den insgesamt 936 Millionen Dollar täglichen Zuflüssen in US-amerikanische Bitcoin-ETFs führte. Erhöhte Nettozuflüsse in Spot-Bitcoin-ETFs deuten darauf hin, dass Investoren erneuertes Vertrauen in die führende digitale Anlage haben, sagte ein Analyst.

Null Gebühren: PAWS per Kredit-/Debitkarte kaufen!
Im Trend
MehrKrypto Preise
Mehr








