Notícias e Tendências

Com o Seer da Moonshot AI você acelera suas execuções síncronas de aprendizado por reforço e reduz a latência

Descubra como o Seer da Moonshot AI acelera execuções síncronas de aprendizado por reforço, corta latência e melhora resultados em testes reais.

com-o-seer-da-moonshot-ai-voce-acelera-suas-execucoes-sincronas-de-aprendizado-por-reforco-e-reduz-a

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Ouça este artigo


🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Você vai conhecer Seer, o sistema da Moonshot AI que acelera rollouts em reinforcement learning para modelos de raciocínio. Ele quebra pedidos, troca contexto entre instâncias e usa um KVCache global chamado Mooncake. O resultado é menos espera nas suas GPUs e latência bem menor, sem alterar o algoritmo de treino. Para detalhes originais do paper, veja: https://www.marktechpost.com/2025/11/22/moonshot-ai-researchers-introduce-seer-an-online-context-learning-system-for-fast-synchronous-reinforcement-learning-rl-rollouts/.

  • Seer acelera rollouts e melhora uso das GPUs
  • Divide cada pedido em pedaços para evitar estranguladores
  • Usa um cache KV compartilhado para mover pedidos sem refazer prefills
  • Agenda pedidos com prioridade para completar tarefas curtas primeiro e identificar atrasos
  • Especulação agrupada permite decodificação mais rápida de respostas longas

Seer acelera rollouts síncronos de RL para grandes modelos de raciocínio

Uma equipe da Moonshot AI e da Universidade de Tsinghua apresentou o sistema Seer, que reduz gargalos em rollouts síncronos de reinforcement learning (RL) para grandes modelos de linguagem. Relatos indicam ganhos de throughput entre 74% e 97% e redução da latência de cauda entre 75% e 93% versus o baseline síncrono veRL.

Resumo das mudanças principais

  • Seer mantém o mesmo algoritmo de RL (GRPO), preservando comportamento on‑policy.
  • O sistema atua na fase de rollout, onde pedidos longos podem causar subutilização de GPUs.
  • Infraestrutura: Global KVCache Pool (arquitetura Mooncake) que permite migrar estado entre nós sem refazer prefills.
  • Três mecanismos principais reduzem estrangulamentos: rollout dividido, agendamento sensível ao contexto e decodificação especulativa agrupada adaptativa.

Por que isso importa para você

Em sistemas tradicionais, os últimos 10% dos pedidos podem ocupar até 50% do tempo do rollout por causa de stragglers (sequências muito longas). Seer reduz esse efeito, aproveitando melhor o cluster e aumentando o número de iterações por hora sem mexer no algoritmo de treinamento.

Como Seer funciona — visão geral

  • Divisão do rollout
  • Cada grupo de pedidos é separado em pedidos individuais.
  • Cada pedido é dividido em chunks com limite de tokens (ex.: 8.000 tokens).
  • Depois de cada chunk, o pedido volta ao buffer até completar a sequência.
  • Pool global de KVCache (Mooncake)
  • O KVCache fica em camada disaggregada (DRAM SSD).
  • Permite migrar pedidos entre instâncias sem reexecutar o prefill — conceito relacionado a abordagens que explicam como compartilhar caches para acelerar primeiras respostas em LLMs (KVCached).
  • Agendamento sensível ao contexto
  • Um pedido por grupo é tratado como especulativo e recebido com prioridade.
  • O sistema estima comprimentos a partir dos pedidos já concluídos.
  • Pedidos curtos são completados rapidamente; pedidos longos revelam potenciais caudas.
  • Decodificação especulativa agrupada (DGDS)
  • Um servidor distribuído agrega sequências por grupo.
  • Usa estruturas compactas (ex.: sufix trees comprimidos) para permitir decodificação especulativa local.
  • Ajusta profundidade e caminhos de especulação conforme tipo de modelo e estágio do rollout — estratégia alinhada com técnicas de especulação e cascatas para acelerar modelos de linguagem (cascatas especulativas).

Resultados principais

  • Ganhos de throughput: 74% a 97% sobre veRL.
  • Redução da latência de cauda: -75% a -93%.
  • Ablations:
  • Rollout dividido → até 35%.
  • Agendamento sensível ao contexto → até 47% no total.
  • Decodificação especulativa agrupada → 77%–87% em iterações medidas.

Detalhes do experimento

  • Infraestrutura: 32 nós, 8 GPUs H800 por nó.
  • Testes com 32, 128 e 256 GPUs.
  • Pedidos por iteração: 400, 600 e 800 prompts; cada prompt gerou 8 ou 16 respostas.
  • Máximo de tokens por geração: 40k–98k dependendo do modelo.
  • Treinamento distribuído com Megatron; inferência com implementação interna baseada em vLLM — para quem escala transformers e quer reduzir memória, abordagens como Deepspeed e suas extensões são referências úteis.

Tabela resumo de ganhos reportados

Métrica Melhoria reportada
Throughput 74% a 97% vs veRL
Latência da cauda -75% a -93%
Ganho combinado (dividido contexto especulação) Até 87% em iterações medidas

Implicações práticas

  • Para stacks de RL com cadeias longas de raciocínio, Seer mostra que otimizações de sistema podem ser tão decisivas quanto mudanças de arquitetura de modelo.
  • O método preserva garantias on‑policy, facilitando adoção sem alterar o algoritmo de treinamento.
  • Infraestruturas com grandes KVCache podem adotar técnicas similares (pool global, agendamento e especulação) para reduzir desperdício de GPU e diminuir latências.
  • Projetos que integram modelos e ferramentas em tempo real devem considerar protocolos e padrões de contexto, como o protocolo MCP, para facilitar migração de estado e interoperabilidade entre serviços.

Conclusão

Seer é uma otimização de infraestrutura, não de algoritmo. Ao dividir pedidos, usar um KVCache global (ex.: Mooncake) e combinar agendamento sensível ao contexto com decodificação especulativa agrupada, o sistema alcança throughput muito maior e latência de cauda muito menor — com ganhos reportados entre 74% a 97% no throughput e -75% a -93% na latência. O GRPO e o comportamento on‑policy permanecem intactos, permitindo ganhos de eficiência sem sacrificar garantias de treinamento.

Para ler o trabalho original e detalhes técnicos, consulte: https://www.marktechpost.com/2025/11/22/moonshot-ai-researchers-introduce-seer-an-online-context-learning-system-for-fast-synchronous-reinforcement-learning-rl-rollouts/.

Perguntas frequentes (FAQ)

  • O que é o Seer e como ele acelera rollouts síncronos?
    Seer é um sistema de contexto online que divide pedidos em chunks, usa um KVCache global e agenda execução por prioridade, aumentando tokens por segundo e reduzindo espera.
  • Como o Seer evita que poucos rollouts longos travem o treino?
    Quebrando grupos em pedidos individuais e em chunks, e migrando estado entre nós sem refazer prefills graças ao KVCache compartilhado.
  • O Seer altera o GRPO ou o comportamento on‑policy?
    Não. O algoritmo GRPO fica igual; Seer muda a infra mantendo garantias on‑policy.
  • Preciso do Mooncake e do Global KVCache para usar Seer?
    Precisa de uma KVCache desagregada ou solução equivalente. Mooncake é o exemplo usado; sem cache global, a migração de pedidos exige refills caros.
  • Quais ganhos posso esperar em throughput e latência?
    Experimentos relatam 74% a 97% em throughput e -75% a -93% na latência de cauda, dependendo do modelo e configuração.

Leitura adicional e referências: https://www.marktechpost.com/2025/11/22/moonshot-ai-researchers-introduce-seer-an-online-context-learning-system-for-fast-synchronous-reinforcement-learning-rl-rollouts/, recursos sobre KVCache compartilhado, técnicas de especulação e outros artigos relacionados em blog.aidirectory.com.br.

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Compartilhe:

Fernando Vale

Fernando Vale é empreendedor digital e especialista em automação com inteligência artificial. Criador do AI Directory, dedica-se a organizar e divulgar as melhores ferramentas de IA, ajudando profissionais e empresas a ganharem produtividade, escala e vantagem competitiva no mercado digital.

Site do Autor