Bitget App
Trading lebih cerdas
Beli KriptoPasarPerdaganganFuturesCopyBotsEarn
Gensyn merilis RL Swarm Framework untuk Collaborative Reinforcement Learning, berencana meluncurkan Testnet pada bulan Maret

Gensyn merilis RL Swarm Framework untuk Collaborative Reinforcement Learning, berencana meluncurkan Testnet pada bulan Maret

MPOSTMPOST2025/02/27 19:22
Oleh:MPOST

Singkatnya Gensyn telah memperkenalkan RL Swarm untuk memfasilitasi pembelajaran penguatan kolaboratif dan telah mengumumkan peluncuran testnet pada bulan Maret, yang memungkinkan partisipasi yang lebih luas dalam kemajuan kecerdasan mesin terbuka.

Jaringan untuk kecerdasan mesin, Gensin , telah memperkenalkan RL Swarm, sistem peer-to-peer terdesentralisasi yang dirancang untuk memfasilitasi pembelajaran penguatan kolaboratif melalui internet. Bulan depan, proyek ini bermaksud meluncurkan testnet, yang memungkinkan partisipasi yang lebih luas dalam memajukan kecerdasan mesin terbuka.  

RL Swarm adalah platform sumber terbuka sepenuhnya yang memungkinkan model pembelajaran penguatan untuk dilatih secara kolektif di seluruh sistem terdistribusi. Platform ini berfungsi sebagai demonstrasi langsung dari temuan penelitian yang menunjukkan bahwa model yang memanfaatkan RL dapat meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif, bukan secara terpisah.  

Mengoperasikan simpul swarm menyediakan kemampuan untuk memulai swarm baru atau terhubung ke swarm yang sudah ada menggunakan alamat publik. Di dalam setiap swarm, model terlibat dalam pembelajaran penguatan secara kolektif, memanfaatkan protokol komunikasi terdesentralisasi—berdasarkan Hivemind—untuk memfasilitasi pembagian pengetahuan dan peningkatan model. Dengan menjalankan perangkat lunak klien yang disediakan, peserta dapat bergabung dengan swarm, mengamati pembaruan bersama, dan melatih model secara lokal sambil memanfaatkan kecerdasan kolektif. Ke depannya, eksperimen tambahan akan diperkenalkan, yang mendorong keterlibatan yang lebih luas dalam memajukan teknologi ini.  

Individu diundang untuk bergabung dengan RL Swarm guna merasakan sistem ini secara langsung. Partisipasi dapat diakses melalui perangkat keras konsumen standar dan sumber daya GPU berbasis cloud yang lebih canggih.

Jaringan untuk kecerdasan mesin

Dua tahun lalu, kami memaparkan visi kami untuk protokol komputasi pembelajaran mesin. Protokol yang menghubungkan setiap perangkat di dunia ke dalam jaringan terbuka untuk kecerdasan mesin, tanpa penjaga gerbang atau batasan buatan.

Minggu ini, kita akan… foto.twitter.com/W9WGJHiJPI

— gensynai (@gensynai) Februari 26, 2025

Bagaimana RL Swarm Bekerja? 

Gensin telah lama membayangkan masa depan di mana pembelajaran mesin terdesentralisasi dan didistribusikan ke seluruh jaringan perangkat yang luas. Alih-alih mengandalkan model yang besar dan tersentralisasi, pendekatan ini akan melibatkan pemecahan model menjadi komponen yang lebih kecil dan saling terhubung yang beroperasi secara kolaboratif. Sebagai bagian dari penelitiannya terhadap visi ini, Gensyn telah mengeksplorasi berbagai jalur menuju pembelajaran yang terdesentralisasi dan baru-baru ini mengamati bahwa pembelajaran penguatan (RL) pasca-pelatihan sangat efektif ketika model berkomunikasi dan memberikan umpan balik satu sama lain.  

Secara khusus, percobaan menunjukkan bahwa model RL meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif daripada secara mandiri.  

Dalam pengaturan ini, setiap simpul kelompok menjalankan model Qwen 2.5 1.5B dan terlibat dalam penyelesaian masalah matematika (GSM8K) melalui proses terstruktur tiga tahap. Pada tahap pertama, setiap model secara independen mencoba menyelesaikan masalah yang diberikan, menghasilkan penalaran dan jawabannya dalam format yang ditentukan. Pada tahap kedua, model meninjau respons rekan-rekannya dan memberikan umpan balik yang membangun. Pada tahap terakhir, setiap model memberikan suara pada apa yang diprediksinya akan dianggap sebagai jawaban terbaik oleh mayoritas, kemudian menyempurnakan responsnya. Melalui interaksi berulang ini, model secara kolektif meningkatkan kemampuan pemecahan masalah mereka.  

Hasil eksperimen menunjukkan bahwa metode ini mempercepat proses pembelajaran, memungkinkan model menghasilkan respons yang lebih akurat pada data uji yang tidak terlihat dengan lebih sedikit iterasi pelatihan.  

Visualisasi data menggunakan TensorBoard menggambarkan tren utama yang diamati dalam node swarm yang berpartisipasi. Plot ini menunjukkan pola siklus karena "pengaturan ulang" berkala yang terjadi di antara putaran pelatihan kolaboratif. Sumbu x di semua plot menunjukkan waktu yang telah berlalu sejak node bergabung dengan swarm, sedangkan sumbu y menunjukkan metrik kinerja yang berbeda. Dari kiri ke kanan, plot menggambarkan: Consensus Correctness Reward, yang mengukur contoh saat model memformat responsnya dengan benar dan menghasilkan jawaban yang akurat secara matematis; Total Reward, jumlah tertimbang dari evaluasi berbasis aturan (seperti pemformatan, akurasi matematis, dan koherensi logis); Training Loss, yang mencerminkan bagaimana model menyesuaikan berdasarkan sinyal reward untuk mengoptimalkan proses pembelajarannya; dan Response Completion Length, yang melacak jumlah token yang digunakan dalam respons—yang menunjukkan bahwa model menjadi lebih ringkas saat menerima kritik dari rekan sejawat.

0

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Kunci untuk token baru.
APR hingga 12%. Selalu aktif, selalu dapat airdrop.
Kunci sekarang!

Kamu mungkin juga menyukai

Solana menandai ulang tahun ke-5 saat aktivitas jaringan menurun, peluncuran Firedancer semakin dekat

Solana, blockchain paling berharga keenam dalam industri kripto berdasarkan kapitalisasi pasar, merayakan ulang tahunnya yang ke-5 pada hari Minggu. Aktivitas pengguna sedikit menurun di jaringan ini seiring dengan berkurangnya aktivitas Pump.fun; Sabtu menandai proporsi terendah token yang beralih ke Raydium sejak peluncuran platform tahun lalu. Klien Firedancer Solana dari Jump Crypto, yang saat ini dalam fase testnet, diharapkan diluncurkan tahun ini.

The Block2025/03/16 23:34

Hayden Davis 'fasilitator' token LIBRA terhubung dengan keruntuhan $40 juta dari memecoin 'WOLF': Bubblemaps

Tinjauan Cepat Hayden Davis, yang mengaku sebagai "fasilitator" token LIBRA yang kontroversial terkait dengan presiden Argentina Javier Milei, dilaporkan meluncurkan memecoin lain yang anjlok 99% dari puncak kapitalisasi pasar sebesar $40 juta setelah peluncurannya pada 8 Maret, menurut platform analitik blockchain Bubblemaps. Seorang jaksa Argentina telah meminta hakim untuk mengeluarkan Interpol Red Notice untuk Davis, lapor Fortune baru-baru ini.

The Block2025/03/16 19:01