Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesCopyBotsEarn
Gensyn veröffentlicht RL Swarm Framework für kollaboratives Reinforcement Learning und plant Testnet-Start im März

Gensyn veröffentlicht RL Swarm Framework für kollaboratives Reinforcement Learning und plant Testnet-Start im März

MPOSTMPOST2025/02/27 19:22
Von:MPOST

In Kürze Gensyn hat RL Swarm eingeführt, um kollaboratives bestärkendes Lernen zu erleichtern, und hat für März den Start eines Testnetzes angekündigt, um eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz zu ermöglichen.

Netzwerk für maschinelle Intelligenz, Gensyn , hat RL Swarm vorgestellt, ein dezentrales Peer-to-Peer-System, das kollaboratives Reinforcement Learning über das Internet ermöglichen soll. Nächsten Monat will das Projekt ein Testnetz starten, das eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz ermöglicht.  

RL Swarm ist eine vollständig quelloffene Plattform, die es ermöglicht, Reinforcement-Learning-Modelle gemeinsam über verteilte Systeme hinweg zu trainieren. Sie dient als Echtzeitdemonstration von Forschungsergebnissen, die darauf hinweisen, dass Modelle, die RL nutzen, ihre Lerneffizienz verbessern können, wenn sie als Teil eines kollaborativen Schwarms und nicht isoliert trainiert werden.  

Der Betrieb eines Schwarmknotens bietet die Möglichkeit, entweder einen neuen Schwarm zu initiieren oder sich über eine öffentliche Adresse mit einem bestehenden zu verbinden. Innerhalb jedes Schwarms nehmen die Modelle kollektiv am Verstärkungslernen teil und nutzen dabei ein dezentrales Kommunikationsprotokoll – basierend auf Hivemind – um den Wissensaustausch und die Modellverbesserung zu erleichtern. Durch Ausführen der bereitgestellten Client-Software können Teilnehmer einem Schwarm beitreten, gemeinsame Updates beobachten und Modelle lokal trainieren und dabei von der kollektiven Intelligenz profitieren. In Zukunft werden zusätzliche Experimente eingeführt, um ein breiteres Engagement bei der Weiterentwicklung dieser Technologie zu fördern.  

Einzelpersonen sind eingeladen, RL Swarm beizutreten, um das System aus erster Hand zu erleben. Die Teilnahme ist sowohl über Standard-Consumer-Hardware als auch über fortgeschrittenere Cloud-basierte GPU-Ressourcen möglich.

Das Netzwerk für maschinelle Intelligenz

Vor zwei Jahren haben wir unsere Vision für ein Computerprotokoll für maschinelles Lernen dargelegt. Eines, das alle Geräte der Welt zu einem offenen Netzwerk für maschinelle Intelligenz verbindet, ohne Gatekeeper oder künstliche Grenzen.

Diese Woche werden wir … pic.twitter.com/W9WGJHiJPI

— gensyn (@gensynai) 26. Februar 2025

Wie funktioniert RL Swarm? 

Gensyn hat sich schon lange eine Zukunft vorgestellt, in der maschinelles Lernen dezentralisiert und über ein riesiges Netzwerk von Geräten verteilt ist. Anstatt sich auf große, zentralisierte Modelle zu verlassen, würde dieser Ansatz bedeuten, Modelle in kleinere, miteinander verbundene Komponenten aufzuteilen, die zusammenarbeiten. Im Rahmen seiner Forschung zu dieser Vision hat Gensyn verschiedene Wege zum dezentralen Lernen erkundet und kürzlich festgestellt, dass bestärkendes Lernen (RL) nach dem Training besonders effektiv ist, wenn die Modelle miteinander kommunizieren und sich gegenseitig Feedback geben.  

Insbesondere zeigen Experimente, dass RL-Modelle ihre Lerneffizienz verbessern, wenn sie als Teil eines kollaborativen Schwarms und nicht unabhängig trainiert werden.  

In diesem Setup führt jeder Schwarmknoten das Modell Qwen 2.5 1.5B aus und versucht, mathematische Probleme (GSM8K) in einem strukturierten, dreistufigen Prozess zu lösen. In der ersten Phase versucht jedes Modell unabhängig, das gegebene Problem zu lösen, indem es seine Argumentation und Antwort in einem bestimmten Format generiert. In der zweiten Phase überprüfen die Modelle die Antworten ihrer Kollegen und geben konstruktives Feedback. In der letzten Phase stimmt jedes Modell darüber ab, was seiner Vorhersage nach die Mehrheit als die beste Antwort betrachten wird, und verfeinert dann seine Antwort entsprechend. Durch diese iterativen Interaktionen verbessern die Modelle gemeinsam ihre Problemlösungsfähigkeiten.  

Versuchsergebnisse deuten darauf hin, dass diese Methode den Lernprozess beschleunigt und es Modellen ermöglicht, mit weniger Trainingsiterationen genauere Antworten auf unbekannte Testdaten zu generieren.  

Datenvisualisierungen mit TensorBoard veranschaulichen wichtige Trends, die in einem teilnehmenden Schwarmknoten beobachtet werden. Diese Diagramme weisen zyklische Muster aufgrund periodischer „Resets“ auf, die zwischen Runden des kollaborativen Trainings auftreten. Die x-Achse in allen Diagrammen stellt die vergangene Zeit dar, seit der Knoten dem Schwarm beigetreten ist, während die y-Achse verschiedene Leistungsmesswerte vermittelt. Von links nach rechts zeigen die Diagramme: Consensus Correctness Reward, der Fälle misst, in denen ein Modell seine Antwort korrekt formatiert und eine mathematisch genaue Antwort produziert hat; Total Reward, eine gewichtete Summe regelbasierter Bewertungen (wie Formatierung, mathematische Genauigkeit und logische Kohärenz); Training Loss, der widerspiegelt, wie sich das Modell basierend auf Belohnungssignalen anpasst, um seinen Lernprozess zu optimieren; und Response Completion Length, die die Anzahl der in Antworten verwendeten Token verfolgt – was darauf hindeutet, dass Modelle prägnanter werden, wenn sie Kritik von Kollegen erhalten.

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!

Das könnte Ihnen auch gefallen

MetaMask-Wallet fügt Unterstützung für Solana und Bitcoin hinzu

Kurzübersicht MetaMask wird in diesem Jahr Unterstützung für Bitcoin und Solana hinzufügen. MetaMask plant außerdem, die Benutzeroberfläche seiner Wallet-Anwendung zu überarbeiten.

The Block2025/02/28 07:24

Bitcoin fällt unter 80.000 $ und ETH testet 2.100 $ angesichts der Sorgen um Trump-Zölle

Kurze Zusammenfassung Der Bitcoin-Preis fällt weiter auf seinen tiefsten Stand seit Monaten infolge von Trumps jüngster Ankündigung von Zöllen. Institutionelle Neupositionierungen und Bedenken hinsichtlich der Bitcoin-Käufe von Strategy haben die Marktstimmung verschlechtert, sagte ein Analyst.

The Block2025/02/28 07:24

Base reduziert Blockzeiten auf 0,2 Sekunden im Testnetz mit Flashblocks, Einführung im Mainnet für Q2 erwartet

Kurzübersicht: Base hat Flashblocks im Testnetz implementiert und die effektiven Blockzeiten von 2 Sekunden auf 200 Millisekunden reduziert. Es wird erwartet, dass diese Technologie im zweiten Quartal des Jahres vom Testnetz auf das Mainnet übergeht.

The Block2025/02/28 05:12

Crypto News: Bank of America bringt USD pegged Crypto Stablecoin auf den Markt

BOFA steigt mit einem eigenen USD pegged Stablecoin in den Kryptomarkt ein. Ein weiterer Schritt, um digitale Vermögenswerte in das traditionelle Bankwesen zu integrieren, der den Finanzsektor verändern könnte.

Cryptoticker2025/02/28 02:34