Gensyn veröffentlicht RL Swarm Framework für kollaboratives Reinforcement Learning und plant Testnet-Start im März

Bitget App

Trade smarter

MPOST2025/02/27 19:22

Von:MPOST

In Kürze Gensyn hat RL Swarm eingeführt, um kollaboratives bestärkendes Lernen zu erleichtern, und hat für März den Start eines Testnetzes angekündigt, um eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz zu ermöglichen.

Netzwerk für maschinelle Intelligenz, Gensyn , hat RL Swarm vorgestellt, ein dezentrales Peer-to-Peer-System, das kollaboratives Reinforcement Learning über das Internet ermöglichen soll. Nächsten Monat will das Projekt ein Testnetz starten, das eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz ermöglicht.

RL Swarm ist eine vollständig quelloffene Plattform, die es ermöglicht, Reinforcement-Learning-Modelle gemeinsam über verteilte Systeme hinweg zu trainieren. Sie dient als Echtzeitdemonstration von Forschungsergebnissen, die darauf hinweisen, dass Modelle, die RL nutzen, ihre Lerneffizienz verbessern können, wenn sie als Teil eines kollaborativen Schwarms und nicht isoliert trainiert werden.

Der Betrieb eines Schwarmknotens bietet die Möglichkeit, entweder einen neuen Schwarm zu initiieren oder sich über eine öffentliche Adresse mit einem bestehenden zu verbinden. Innerhalb jedes Schwarms nehmen die Modelle kollektiv am Verstärkungslernen teil und nutzen dabei ein dezentrales Kommunikationsprotokoll – basierend auf Hivemind – um den Wissensaustausch und die Modellverbesserung zu erleichtern. Durch Ausführen der bereitgestellten Client-Software können Teilnehmer einem Schwarm beitreten, gemeinsame Updates beobachten und Modelle lokal trainieren und dabei von der kollektiven Intelligenz profitieren. In Zukunft werden zusätzliche Experimente eingeführt, um ein breiteres Engagement bei der Weiterentwicklung dieser Technologie zu fördern.

Einzelpersonen sind eingeladen, RL Swarm beizutreten, um das System aus erster Hand zu erleben. Die Teilnahme ist sowohl über Standard-Consumer-Hardware als auch über fortgeschrittenere Cloud-basierte GPU-Ressourcen möglich.

Das Netzwerk für maschinelle Intelligenz

Vor zwei Jahren haben wir unsere Vision für ein Computerprotokoll für maschinelles Lernen dargelegt. Eines, das alle Geräte der Welt zu einem offenen Netzwerk für maschinelle Intelligenz verbindet, ohne Gatekeeper oder künstliche Grenzen.

Diese Woche werden wir … pic.twitter.com/W9WGJHiJPI
— gensyn (@gensynai) 26. Februar 2025

Wie funktioniert RL Swarm?

Gensyn hat sich schon lange eine Zukunft vorgestellt, in der maschinelles Lernen dezentralisiert und über ein riesiges Netzwerk von Geräten verteilt ist. Anstatt sich auf große, zentralisierte Modelle zu verlassen, würde dieser Ansatz bedeuten, Modelle in kleinere, miteinander verbundene Komponenten aufzuteilen, die zusammenarbeiten. Im Rahmen seiner Forschung zu dieser Vision hat Gensyn verschiedene Wege zum dezentralen Lernen erkundet und kürzlich festgestellt, dass bestärkendes Lernen (RL) nach dem Training besonders effektiv ist, wenn die Modelle miteinander kommunizieren und sich gegenseitig Feedback geben.

Insbesondere zeigen Experimente, dass RL-Modelle ihre Lerneffizienz verbessern, wenn sie als Teil eines kollaborativen Schwarms und nicht unabhängig trainiert werden.

In diesem Setup führt jeder Schwarmknoten das Modell Qwen 2.5 1.5B aus und versucht, mathematische Probleme (GSM8K) in einem strukturierten, dreistufigen Prozess zu lösen. In der ersten Phase versucht jedes Modell unabhängig, das gegebene Problem zu lösen, indem es seine Argumentation und Antwort in einem bestimmten Format generiert. In der zweiten Phase überprüfen die Modelle die Antworten ihrer Kollegen und geben konstruktives Feedback. In der letzten Phase stimmt jedes Modell darüber ab, was seiner Vorhersage nach die Mehrheit als die beste Antwort betrachten wird, und verfeinert dann seine Antwort entsprechend. Durch diese iterativen Interaktionen verbessern die Modelle gemeinsam ihre Problemlösungsfähigkeiten.

Versuchsergebnisse deuten darauf hin, dass diese Methode den Lernprozess beschleunigt und es Modellen ermöglicht, mit weniger Trainingsiterationen genauere Antworten auf unbekannte Testdaten zu generieren.

Datenvisualisierungen mit TensorBoard veranschaulichen wichtige Trends, die in einem teilnehmenden Schwarmknoten beobachtet werden. Diese Diagramme weisen zyklische Muster aufgrund periodischer „Resets“ auf, die zwischen Runden des kollaborativen Trainings auftreten. Die x-Achse in allen Diagrammen stellt die vergangene Zeit dar, seit der Knoten dem Schwarm beigetreten ist, während die y-Achse verschiedene Leistungsmesswerte vermittelt. Von links nach rechts zeigen die Diagramme: Consensus Correctness Reward, der Fälle misst, in denen ein Modell seine Antwort korrekt formatiert und eine mathematisch genaue Antwort produziert hat; Total Reward, eine gewichtete Summe regelbasierter Bewertungen (wie Formatierung, mathematische Genauigkeit und logische Kohärenz); Training Loss, der widerspiegelt, wie sich das Modell basierend auf Belohnungssignalen anpasst, um seinen Lernprozess zu optimieren; und Response Completion Length, die die Anzahl der in Antworten verwendeten Token verfolgt – was darauf hindeutet, dass Modelle prägnanter werden, wenn sie Kritik von Kollegen erhalten.

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn

APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.

Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Term Finance erholt $1 Million von einem Verlust von $1,6 Millionen aufgrund eines Fehlers in der Orakel-Konfiguration

Kurzer Überblick Das auf Ethereum basierende Kreditprotokoll Term Finance verlor am Samstag etwa $1,6 Millionen an ETH aufgrund eines fehlkonfigurierten Orakels. Term gab an, dass durch interne Erfassung und Verhandlungen über $1 Million an Geldern wiedererlangt wurden. Das Team wird das verbleibende Defizit aus der Protokollkasse decken und plant, einen detaillierten Bericht zu veröffentlichen. Impermax Finance, ein kleines DeFi-Protokoll, verlor bei einem Blitzkreditangriff am Samstag $150.000.

The Block•2025/04/28 00:56

Term Finance erholt $1 Million von einem Verlust von $1,6 Millionen aufgrund eines Fehlers in der Orakel-Konfiguration

Kryptomärkte am Sonntagvormittag überwiegend im Minus – Nur NEO mit leichtem Plus

Zusammenfassung des Artikels Am Sonntagvormittag verzeichneten die meisten Coins Verluste, während NEO als einziger Gewinner hervorging und der Top 10 Crypto-ETP ein Tagesplus erzielte.

Kryptomagazin•2025/04/27 23:55

Kryptomärkte am Sonntagvormittag überwiegend im Minus – Nur NEO mit leichtem Plus

Ethereum zwischen Kritik, Kursrally und neuen Rivalen – Zukunft der Blockchain im Fokus

Zusammenfassung des Artikels Ethereum steht zwischen pessimistischen Prognosen und Hoffnung auf eine Renaissance, getrieben von institutionellen Zuflüssen, Innovationen und Konkurrenz durch neue Coins.

Kryptomagazin•2025/04/27 23:55

Ethereum zwischen Kritik, Kursrally und neuen Rivalen – Zukunft der Blockchain im Fokus

Bitget wird rechtliche Schritte gegen 8 Konten einleiten, die verdächtigt werden, durch VOXEL-Handelsmanipulationen 20 Millionen Dollar profitiert zu haben

Schnelle Zusammenfassung Die Kryptobörse Bitget hat angekündigt, rechtliche Schritte gegen die Nutzer hinter acht Konten einzuleiten, die verdächtigt werden, einen der Plattformmärkte zu manipulieren und dadurch illegal 20 Millionen Dollar profitiert zu haben. Die Plattform hat versprochen, alle wiederhergestellten Gelder in Form eines Airdrops an die Plattformnutzer zurückzugeben.

The Block•2025/04/27 19:01