OpenAI Menyarankan Pemantauan CoT Untuk Mengatasi Perilaku Jahat Dalam Model AI

Bitget App

Trading lebih cerdas

MPOST2025/03/12 06:11

Oleh:MPOST

Singkatnya OpenAI menyarankan untuk mendeteksi saat model penalaran perbatasan mulai mengeksploitasi celah dengan menggunakan LLM untuk memantau rantai pemikiran model.

Organisasi penelitian kecerdasan buatan, OpenAI telah menemukan cara untuk mendeteksi saat model penalaran batas mulai mengeksploitasi celah, dengan menggunakan model bahasa besar (LLM) untuk memantau rantai pemikiran model.

Model penalaran rantai pemikiran (CoT) memproses informasi dengan cara yang dapat dipahami oleh manusia. Dengan mengamati “proses berpikir” mereka, OpenAI telah mampu mengidentifikasi masalah seperti model yang mencoba melewati pengujian pengkodean, menyesatkan pengguna, atau mengabaikan tugas ketika tugas menjadi terlalu rumit.

OpenAI percaya bahwa pemantauan penalaran CoT mungkin merupakan salah satu dari sedikit alat yang tersedia untuk mengawasi model-model super di masa mendatang. Organisasi tersebut juga menemukan bahwa meskipun mengoptimalkan CoT secara langsung untuk memenuhi standar-standar tertentu (seperti mencegah peretasan hadiah) dapat meningkatkan kinerja dalam jangka pendek, hal itu tidak sepenuhnya menghilangkan semua perilaku buruk dan dapat menyebabkan model tersebut menyembunyikan maksudnya. OpenAI berharap bahwa penelitian masa depan akan menemukan cara untuk mengoptimalkan CoT tanpa keterbatasan ini, tetapi sementara itu, eksplorasi lebih lanjut masih diperlukan.

Mendeteksi perilaku buruk dalam model penalaran perbatasan

Model penalaran berantai (CoT) “berpikir” dalam bahasa alami yang dapat dipahami oleh manusia. Memantau “pemikiran” mereka memungkinkan kita mendeteksi perilaku yang tidak baik seperti menumbangkan tes dalam tugas pengkodean, menipu pengguna, atau memberikan… foto.twitter.com/uX9f5n3zB9
- OpenAI (@OpenAI) 10 Maret, 2025

Reward hacking mengacu pada situasi di mana agen AI memperoleh hadiah tinggi dengan melakukan perilaku yang tidak sejalan dengan tujuan awal perancangnya. Seiring dengan perkembangan model penalaran batas yang lebih maju, menjadi jelas bahwa Model AI semakin terampil dalam mengeksploitasi kelemahan dalam tugas mereka dan ketidakakuratan dalam fungsi penghargaan mereka. Hal ini telah menyebabkan munculnya model yang dapat menjalankan peretasan penghargaan yang canggih, khususnya dalam tugas pengkodean.

Mendeteksi perilaku tidak selaras yang disebabkan oleh peretasan hadiah terbukti menjadi tantangan yang sulit, yang sering kali memerlukan campur tangan manusia untuk memantau tindakan agen secara manual. Namun, pendekatan ini tidak mungkin dapat ditingkatkan secara efektif, terutama karena model yang lebih canggih mengungkap perilaku yang semakin kompleks.

Namun demikian, LLM, seperti OpenAIo3-mini, yang dilatih dengan pembelajaran penguatan untuk bernalar melalui CoT, menghadirkan solusi potensial untuk memantau peretasan hadiah. Model-model ini memproses informasi dalam bahasa alami, sehingga penalarannya lebih mudah dipahami manusia. OpenAI telah mengamati bahwa model penalaran batas sering kali menjelaskan maksudnya dengan jelas dalam rangkaian pemikirannya. Misalnya, beberapa model secara eksplisit menyatakan maksudnya untuk menumbangkan suatu tugas, dengan pernyataan seperti "Mari kita retas."

Dengan menggunakan LLM lain untuk memantau proses berpikir mereka, perilaku buruk dapat dideteksi dan ditandai secara efektif. Namun, metode pemantauan ini tidak sepenuhnya aman. Jika pengawasan ketat diterapkan langsung pada rangkaian pemikiran, model dapat belajar menyembunyikan niat mereka, terus berperilaku buruk sambil menyembunyikan motivasi mereka yang sebenarnya.

OpenAI Merekomendasikan Optimalisasi Cahaya Untuk Pemantauan CoT yang Efektif

OpenAI mencatat bahwa pemantauan rantai pemikiran sudah terbukti berharga dan bukan sekadar alat teoritis untuk masa depan. Peretasan imbalan dapat diidentifikasi hanya dengan meninjau keluaran model penalaran, yang dengan jelas menyatakan dalam bahasa yang mudah dipahami maksudnya untuk terlibat dalam peretasan imbalan.

Belum lama ini, model bahasa menghadapi tantangan dalam menghasilkan paragraf teks yang koheren. Kini, model tersebut mampu memecahkan masalah matematika yang rumit, melakukan penelitian mendalam dengan mensintesis informasi dari berbagai sumber, dan menangani tugas rekayasa perangkat lunak dasar. Namun, seiring dengan berkembangnya kemampuan ini, potensi peretasan hadiah yang semakin canggih dan halus pun semakin berkembang. OpenAIModel-model tersebut mungkin mengembangkan perilaku yang tidak selaras, seperti mencari kekuasaan, memanfaatkan situasi, penipuan, dan manipulasi strategis.

Perusahaan tersebut yakin bahwa pemantauan CoT dapat menjadi salah satu dari sedikit metode efektif yang tersedia untuk mengawasi model manusia super. Pada titik ini, perusahaan tersebut menyarankan pengembang AI yang bekerja dengan model penalaran batas untuk menghindari penerapan pengawasan yang kuat secara langsung pada CoT. Eksperimen menunjukkan bahwa tekanan pengoptimalan ringan dapat menghasilkan model yang berkinerja lebih baik dan lebih selaras dengan tujuan yang diinginkan. Namun, tetap sulit untuk mendeteksi saat model mulai menyembunyikan maksud sebenarnya. Oleh karena itu, bahkan dengan pengawasan ringan, OpenAI menyarankan untuk melanjutkan dengan hati-hati.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Kunci untuk token baru.

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!

Kamu mungkin juga menyukai

Bitget akan secara hukum menuntut 8 akun yang diduga memperoleh keuntungan $20 juta dari manipulasi perdagangan VOXEL

Tinjauan Singkat Bursa kripto Bitget mengatakan akan secara hukum menuntut pengguna di balik delapan akun yang diduga memanipulasi salah satu pasar platform, secara tidak sah meraup keuntungan $20 juta sebagai hasilnya. Platform tersebut berjanji untuk mengembalikan dana apapun yang dipulihkan kepada pengguna platform dalam bentuk airdrop.

The Block•2025/04/27 19:01

Bitget akan secara hukum menuntut 8 akun yang diduga memperoleh keuntungan $20 juta dari manipulasi perdagangan VOXEL

ProShares akan meluncurkan ETF berjangka XRP leveraged dan short pada 30 April

Informasi Singkat Tiga ETF berjangka XRP baru dari penerbit ProShares siap diluncurkan pada 30 April setelah mendapatkan persetujuan diam-diam dari SEC. Dana-dana tersebut memberikan paparan leveraged dan inverse terhadap XRP, tetapi tidak memegang aset secara langsung, seperti dalam ETF spot. Ketiga dana tersebut bergabung dengan Teucrium 2x Long Daily XRP ETF, ETF XRP pertama di pasar.

The Block•2025/04/27 17:23