Gensyn merilis RL Swarm Framework untuk Collaborative Reinforcement Learning, berencana meluncurkan Testnet pada bulan Maret

Bitget App

Trading lebih cerdas

MPOST2025/02/27 19:22

Oleh:MPOST

Singkatnya Gensyn telah memperkenalkan RL Swarm untuk memfasilitasi pembelajaran penguatan kolaboratif dan telah mengumumkan peluncuran testnet pada bulan Maret, yang memungkinkan partisipasi yang lebih luas dalam kemajuan kecerdasan mesin terbuka.

Jaringan untuk kecerdasan mesin, Gensin , telah memperkenalkan RL Swarm, sistem peer-to-peer terdesentralisasi yang dirancang untuk memfasilitasi pembelajaran penguatan kolaboratif melalui internet. Bulan depan, proyek ini bermaksud meluncurkan testnet, yang memungkinkan partisipasi yang lebih luas dalam memajukan kecerdasan mesin terbuka.

RL Swarm adalah platform sumber terbuka sepenuhnya yang memungkinkan model pembelajaran penguatan untuk dilatih secara kolektif di seluruh sistem terdistribusi. Platform ini berfungsi sebagai demonstrasi langsung dari temuan penelitian yang menunjukkan bahwa model yang memanfaatkan RL dapat meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif, bukan secara terpisah.

Mengoperasikan simpul swarm menyediakan kemampuan untuk memulai swarm baru atau terhubung ke swarm yang sudah ada menggunakan alamat publik. Di dalam setiap swarm, model terlibat dalam pembelajaran penguatan secara kolektif, memanfaatkan protokol komunikasi terdesentralisasi—berdasarkan Hivemind—untuk memfasilitasi pembagian pengetahuan dan peningkatan model. Dengan menjalankan perangkat lunak klien yang disediakan, peserta dapat bergabung dengan swarm, mengamati pembaruan bersama, dan melatih model secara lokal sambil memanfaatkan kecerdasan kolektif. Ke depannya, eksperimen tambahan akan diperkenalkan, yang mendorong keterlibatan yang lebih luas dalam memajukan teknologi ini.

Individu diundang untuk bergabung dengan RL Swarm guna merasakan sistem ini secara langsung. Partisipasi dapat diakses melalui perangkat keras konsumen standar dan sumber daya GPU berbasis cloud yang lebih canggih.

Jaringan untuk kecerdasan mesin

Dua tahun lalu, kami memaparkan visi kami untuk protokol komputasi pembelajaran mesin. Protokol yang menghubungkan setiap perangkat di dunia ke dalam jaringan terbuka untuk kecerdasan mesin, tanpa penjaga gerbang atau batasan buatan.

Minggu ini, kita akan… foto.twitter.com/W9WGJHiJPI
— gensynai (@gensynai) Februari 26, 2025

Bagaimana RL Swarm Bekerja?

Gensin telah lama membayangkan masa depan di mana pembelajaran mesin terdesentralisasi dan didistribusikan ke seluruh jaringan perangkat yang luas. Alih-alih mengandalkan model yang besar dan tersentralisasi, pendekatan ini akan melibatkan pemecahan model menjadi komponen yang lebih kecil dan saling terhubung yang beroperasi secara kolaboratif. Sebagai bagian dari penelitiannya terhadap visi ini, Gensyn telah mengeksplorasi berbagai jalur menuju pembelajaran yang terdesentralisasi dan baru-baru ini mengamati bahwa pembelajaran penguatan (RL) pasca-pelatihan sangat efektif ketika model berkomunikasi dan memberikan umpan balik satu sama lain.

Secara khusus, percobaan menunjukkan bahwa model RL meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif daripada secara mandiri.

Dalam pengaturan ini, setiap simpul kelompok menjalankan model Qwen 2.5 1.5B dan terlibat dalam penyelesaian masalah matematika (GSM8K) melalui proses terstruktur tiga tahap. Pada tahap pertama, setiap model secara independen mencoba menyelesaikan masalah yang diberikan, menghasilkan penalaran dan jawabannya dalam format yang ditentukan. Pada tahap kedua, model meninjau respons rekan-rekannya dan memberikan umpan balik yang membangun. Pada tahap terakhir, setiap model memberikan suara pada apa yang diprediksinya akan dianggap sebagai jawaban terbaik oleh mayoritas, kemudian menyempurnakan responsnya. Melalui interaksi berulang ini, model secara kolektif meningkatkan kemampuan pemecahan masalah mereka.

Hasil eksperimen menunjukkan bahwa metode ini mempercepat proses pembelajaran, memungkinkan model menghasilkan respons yang lebih akurat pada data uji yang tidak terlihat dengan lebih sedikit iterasi pelatihan.

Visualisasi data menggunakan TensorBoard menggambarkan tren utama yang diamati dalam node swarm yang berpartisipasi. Plot ini menunjukkan pola siklus karena "pengaturan ulang" berkala yang terjadi di antara putaran pelatihan kolaboratif. Sumbu x di semua plot menunjukkan waktu yang telah berlalu sejak node bergabung dengan swarm, sedangkan sumbu y menunjukkan metrik kinerja yang berbeda. Dari kiri ke kanan, plot menggambarkan: Consensus Correctness Reward, yang mengukur contoh saat model memformat responsnya dengan benar dan menghasilkan jawaban yang akurat secara matematis; Total Reward, jumlah tertimbang dari evaluasi berbasis aturan (seperti pemformatan, akurasi matematis, dan koherensi logis); Training Loss, yang mencerminkan bagaimana model menyesuaikan berdasarkan sinyal reward untuk mengoptimalkan proses pembelajarannya; dan Response Completion Length, yang melacak jumlah token yang digunakan dalam respons—yang menunjukkan bahwa model menjadi lebih ringkas saat menerima kritik dari rekan sejawat.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Kunci untuk token baru.

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!

Kamu mungkin juga menyukai

Standard Chartered mengharapkan pasokan stablecoin melonjak menjadi $2 triliun pada tahun 2028

Rangkuman Cepat: Potensi undang-undang stablecoin di AS bisa mendorong peningkatan pasokan stablecoin hampir 10x selama empat tahun ke depan, menurut Standard Chartered. Potensi pertumbuhan itu bisa membuat penerbit stablecoin membeli $1,6 triliun dalam Surat Utang AS untuk cadangan mereka — cukup untuk menyerap semua penerbitan baru selama masa jabatan kedua Trump, kata bank tersebut.

The Block•2025/04/16 17:46