Bitget App
Trade smarter
Comprar criptomoedasMercadosTradingFuturosBotsEarnCopy
Gensyn lança RL Swarm Framework para aprendizado de reforço colaborativo e planeja lançamento de testnet em março

Gensyn lança RL Swarm Framework para aprendizado de reforço colaborativo e planeja lançamento de testnet em março

MPOSTMPOST2025/02/28 11:44
Por:MPOST

Em Breve A Gensyn introduziu o RL Swarm para facilitar o aprendizado por reforço colaborativo e anunciou o lançamento de uma rede de testes em março, permitindo uma participação mais ampla no avanço da inteligência de máquina aberta.

Rede para inteligência de máquina, Gensyn , introduziu o RL Swarm, um sistema peer-to-peer descentralizado projetado para facilitar o aprendizado de reforço colaborativo pela internet. No mês que vem, o projeto pretende lançar uma testnet, permitindo uma participação mais ampla no avanço da inteligência de máquina aberta.  

RL Swarm é uma plataforma totalmente de código aberto que permite que modelos de aprendizado por reforço treinem coletivamente em sistemas distribuídos. Ela serve como uma demonstração em tempo real de descobertas de pesquisa indicando que modelos que alavancam RL podem melhorar sua eficiência de aprendizado quando treinados como parte de um swarm colaborativo em vez de isoladamente.  

Operar um nó de enxame fornece a capacidade de iniciar um novo enxame ou conectar-se a um existente usando um endereço público. Dentro de cada enxame, os modelos se envolvem em aprendizado de reforço como um coletivo, utilizando um protocolo de comunicação descentralizado — baseado no Hivemind — para facilitar o compartilhamento de conhecimento e a melhoria do modelo. Ao executar o software cliente fornecido, os participantes podem se juntar a um enxame, observar atualizações compartilhadas e treinar modelos localmente enquanto se beneficiam da inteligência coletiva. Olhando para o futuro, experimentos adicionais serão introduzidos, encorajando um envolvimento mais amplo no avanço desta tecnologia.  

Indivíduos são convidados a se juntar ao RL Swarm para experimentar o sistema em primeira mão. A participação é acessível tanto por meio de hardware de consumidor padrão quanto por recursos de GPU mais avançados baseados em nuvem.

A rede para inteligência de máquina

Dois anos atrás, nós apresentamos nossa visão para um protocolo de computação de aprendizado de máquina. Um que conecta todos os dispositivos do mundo em uma rede aberta para inteligência de máquina, sem gatekeepers ou limites artificiais.

Esta semana, estaremos… foto.twitter.com/W9WGJHiJPI

— gensyn (@gensynai) 26 de fevereiro de 2025

Como o RL Swarm funciona? 

Gensyn há muito tempo imagina um futuro no qual o aprendizado de máquina é descentralizado e distribuído por uma vasta rede de dispositivos. Em vez de depender de modelos grandes e centralizados, essa abordagem envolveria dividir os modelos em componentes menores e interconectados que operam de forma colaborativa. Como parte de sua pesquisa sobre essa visão, a Gensyn explorou vários caminhos em direção ao aprendizado descentralizado e observou recentemente que o aprendizado por reforço (RL) pós-treinamento é particularmente eficaz quando os modelos se comunicam e fornecem feedback uns aos outros.  

Especificamente, os experimentos indicam que os modelos RL melhoram sua eficiência de aprendizado quando treinam como parte de um enxame colaborativo em vez de independentemente.  

Nesta configuração, cada nó de enxame executa o modelo Qwen 2.5 1.5B e se envolve na resolução de problemas matemáticos (GSM8K) por meio de um processo estruturado de três estágios. No primeiro estágio, cada modelo tenta resolver o problema fornecido de forma independente, gerando seu raciocínio e resposta em um formato especificado. No segundo estágio, os modelos revisam as respostas de seus pares e fornecem feedback construtivo. No estágio final, cada modelo vota no que prevê que a maioria considerará a melhor resposta e, em seguida, refina sua resposta de acordo. Por meio dessas interações iterativas, os modelos aprimoram coletivamente suas capacidades de resolução de problemas.  

Resultados experimentais sugerem que esse método acelera o processo de aprendizado, permitindo que os modelos gerem respostas mais precisas em dados de teste não vistos com menos iterações de treinamento.  

Visualizações de dados usando TensorBoard ilustram tendências-chave observadas em um nó de enxame participante. Esses gráficos exibem padrões cíclicos devido a "reinicializações" periódicas que ocorrem entre rodadas de treinamento colaborativo. O eixo x em todos os gráficos representa o tempo decorrido desde que o nó se juntou ao enxame, enquanto o eixo y transmite diferentes métricas de desempenho. Da esquerda para a direita, os gráficos representam: Consensus Correctness Reward, que mede instâncias em que um modelo formatou corretamente sua resposta e produziu uma resposta matematicamente precisa; Total Reward, uma soma ponderada de avaliações baseadas em regras (como formatação, precisão matemática e coerência lógica); Training Loss, que reflete como o modelo se ajusta com base em sinais de recompensa para otimizar seu processo de aprendizagem; e Response Completion Length, que rastreia o número de tokens usados ​​em respostas — indicando que os modelos se tornam mais concisos quando recebem críticas de colegas.

0

Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.

PoolX: Bloqueie e ganhe
Pelo menos 12% de APR. Quanto mais bloquear, mais pode ganhar.
Bloquear agora!

Talvez você também goste

Lisk lança verificador de elegibilidade antes da primeira temporada Airdrop

Em Breve A Lisk lançou o verificador de elegibilidade, permitindo que os usuários verifiquem suas airdrop alocações para a primeira temporada, que está programada para ocorrer esta semana.

MPOST2025/03/19 01:11
Lisk lança verificador de elegibilidade antes da primeira temporada Airdrop

Matrixport: Influxos de Stablecoin Persistem, Preparando o Cenário para o Aumento da Demanda de Bitcoin

Em Breve A análise de mercado da Matrixport mostra que, embora o rápido crescimento das stablecoins observado no quarto trimestre de 4 tenha desacelerado, a trajetória ascendente geral permanece intacta, sugerindo entradas contínuas de capital nos mercados de criptomoedas.

MPOST2025/03/19 01:11
Matrixport: Influxos de Stablecoin Persistem, Preparando o Cenário para o Aumento da Demanda de Bitcoin