Gensyn veröffentlicht RL Swarm Framework für kollaboratives Reinforcement Learning und plant Testnet-Start im März
In Kürze Gensyn hat RL Swarm eingeführt, um kollaboratives bestärkendes Lernen zu erleichtern, und hat für März den Start eines Testnetzes angekündigt, um eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz zu ermöglichen.
Netzwerk für maschinelle Intelligenz, Gensyn , hat RL Swarm vorgestellt, ein dezentrales Peer-to-Peer-System, das kollaboratives Reinforcement Learning über das Internet ermöglichen soll. Nächsten Monat will das Projekt ein Testnetz starten, das eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz ermöglicht.
RL Swarm ist eine vollständig quelloffene Plattform, die es ermöglicht, Reinforcement-Learning-Modelle gemeinsam über verteilte Systeme hinweg zu trainieren. Sie dient als Echtzeitdemonstration von Forschungsergebnissen, die darauf hinweisen, dass Modelle, die RL nutzen, ihre Lerneffizienz verbessern können, wenn sie als Teil eines kollaborativen Schwarms und nicht isoliert trainiert werden.
Der Betrieb eines Schwarmknotens bietet die Möglichkeit, entweder einen neuen Schwarm zu initiieren oder sich über eine öffentliche Adresse mit einem bestehenden zu verbinden. Innerhalb jedes Schwarms nehmen die Modelle kollektiv am Verstärkungslernen teil und nutzen dabei ein dezentrales Kommunikationsprotokoll – basierend auf Hivemind – um den Wissensaustausch und die Modellverbesserung zu erleichtern. Durch Ausführen der bereitgestellten Client-Software können Teilnehmer einem Schwarm beitreten, gemeinsame Updates beobachten und Modelle lokal trainieren und dabei von der kollektiven Intelligenz profitieren. In Zukunft werden zusätzliche Experimente eingeführt, um ein breiteres Engagement bei der Weiterentwicklung dieser Technologie zu fördern.
Einzelpersonen sind eingeladen, RL Swarm beizutreten, um das System aus erster Hand zu erleben. Die Teilnahme ist sowohl über Standard-Consumer-Hardware als auch über fortgeschrittenere Cloud-basierte GPU-Ressourcen möglich.
Wie funktioniert RL Swarm?
Gensyn hat sich schon lange eine Zukunft vorgestellt, in der maschinelles Lernen dezentralisiert und über ein riesiges Netzwerk von Geräten verteilt ist. Anstatt sich auf große, zentralisierte Modelle zu verlassen, würde dieser Ansatz bedeuten, Modelle in kleinere, miteinander verbundene Komponenten aufzuteilen, die zusammenarbeiten. Im Rahmen seiner Forschung zu dieser Vision hat Gensyn verschiedene Wege zum dezentralen Lernen erkundet und kürzlich festgestellt, dass bestärkendes Lernen (RL) nach dem Training besonders effektiv ist, wenn die Modelle miteinander kommunizieren und sich gegenseitig Feedback geben.
Insbesondere zeigen Experimente, dass RL-Modelle ihre Lerneffizienz verbessern, wenn sie als Teil eines kollaborativen Schwarms und nicht unabhängig trainiert werden.
In diesem Setup führt jeder Schwarmknoten das Modell Qwen 2.5 1.5B aus und versucht, mathematische Probleme (GSM8K) in einem strukturierten, dreistufigen Prozess zu lösen. In der ersten Phase versucht jedes Modell unabhängig, das gegebene Problem zu lösen, indem es seine Argumentation und Antwort in einem bestimmten Format generiert. In der zweiten Phase überprüfen die Modelle die Antworten ihrer Kollegen und geben konstruktives Feedback. In der letzten Phase stimmt jedes Modell darüber ab, was seiner Vorhersage nach die Mehrheit als die beste Antwort betrachten wird, und verfeinert dann seine Antwort entsprechend. Durch diese iterativen Interaktionen verbessern die Modelle gemeinsam ihre Problemlösungsfähigkeiten.
Versuchsergebnisse deuten darauf hin, dass diese Methode den Lernprozess beschleunigt und es Modellen ermöglicht, mit weniger Trainingsiterationen genauere Antworten auf unbekannte Testdaten zu generieren.
Datenvisualisierungen mit TensorBoard veranschaulichen wichtige Trends, die in einem teilnehmenden Schwarmknoten beobachtet werden. Diese Diagramme weisen zyklische Muster aufgrund periodischer „Resets“ auf, die zwischen Runden des kollaborativen Trainings auftreten. Die x-Achse in allen Diagrammen stellt die vergangene Zeit dar, seit der Knoten dem Schwarm beigetreten ist, während die y-Achse verschiedene Leistungsmesswerte vermittelt. Von links nach rechts zeigen die Diagramme: Consensus Correctness Reward, der Fälle misst, in denen ein Modell seine Antwort korrekt formatiert und eine mathematisch genaue Antwort produziert hat; Total Reward, eine gewichtete Summe regelbasierter Bewertungen (wie Formatierung, mathematische Genauigkeit und logische Kohärenz); Training Loss, der widerspiegelt, wie sich das Modell basierend auf Belohnungssignalen anpasst, um seinen Lernprozess zu optimieren; und Response Completion Length, die die Anzahl der in Antworten verwendeten Token verfolgt – was darauf hindeutet, dass Modelle prägnanter werden, wenn sie Kritik von Kollegen erhalten.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
MetaMask-Wallet fügt Unterstützung für Solana und Bitcoin hinzu
Kurzübersicht MetaMask wird in diesem Jahr Unterstützung für Bitcoin und Solana hinzufügen. MetaMask plant außerdem, die Benutzeroberfläche seiner Wallet-Anwendung zu überarbeiten.

Bitcoin fällt unter 80.000 $ und ETH testet 2.100 $ angesichts der Sorgen um Trump-Zölle
Kurze Zusammenfassung Der Bitcoin-Preis fällt weiter auf seinen tiefsten Stand seit Monaten infolge von Trumps jüngster Ankündigung von Zöllen. Institutionelle Neupositionierungen und Bedenken hinsichtlich der Bitcoin-Käufe von Strategy haben die Marktstimmung verschlechtert, sagte ein Analyst.

Base reduziert Blockzeiten auf 0,2 Sekunden im Testnetz mit Flashblocks, Einführung im Mainnet für Q2 erwartet
Kurzübersicht: Base hat Flashblocks im Testnetz implementiert und die effektiven Blockzeiten von 2 Sekunden auf 200 Millisekunden reduziert. Es wird erwartet, dass diese Technologie im zweiten Quartal des Jahres vom Testnetz auf das Mainnet übergeht.

Crypto News: Bank of America bringt USD pegged Crypto Stablecoin auf den Markt
BOFA steigt mit einem eigenen USD pegged Stablecoin in den Kryptomarkt ein. Ein weiterer Schritt, um digitale Vermögenswerte in das traditionelle Bankwesen zu integrieren, der den Finanzsektor verändern könnte.
Im Trend
MehrKrypto Preise
Mehr








