Você vai conhecer o Ling da Ant Group que usa pouca ativação para melhorar o raciocínio
6 meses ago · Updated 6 meses ago

- Ouça este artigo
- Ant Group lança Ling 2.0 — série MoE voltada para raciocínio com baixa ativação por token Neste artigo você vai conhecer Ling 2.0, a família de modelos da Ant Group que coloca o raciocínio em primeiro lugar e usa um MoE esparso para aumentar muito a capacidade sem subir muito o custo por token. Você verá como a mesma camada de experts roda em todas as versões, como o treino e o alinhamento foram desenhados para raciocínio longo, e como a infraestrutura em FP8 e os pipelines heterogêneos tornam a escala prática — com os principais resultados e comentários editoriais para entender o impacto. Arquitetura MoE esparsa mantém custo por token baixo enquanto o modelo cresce Mesma receita e formato aplicados a todos os tamanhos para escalabilidade previsível Treino prioriza raciocínio e contexto longo para melhorar matemática e código Alinhamento em etapas separa ganho de capacidade da otimização de preferências Otimizações de hardware e precisão tornam viável treinar modelos muito grandes Leia o anúncio original e a cobertura técnica em: https://www.marktechpost.com/2025/10/30/ant-group-releases-ling-2-0-a-reasoning-first-moe-language-model-series-built-on-the-principle-that-each-activation-enhances-reasoning-capability/ O que você precisa saber agora
- Como a arquitetura foi escolhida
- Treinamento e alinhamento
- Infraestrutura e eficiência
- Avaliação e desempenho
- Principais conclusões para você
- Conclusão
- Perguntas frequentes
Ouça este artigo
Ant Group lança Ling 2.0 — série MoE voltada para raciocínio com baixa ativação por token
Neste artigo você vai conhecer Ling 2.0, a família de modelos da Ant Group que coloca o raciocínio em primeiro lugar e usa um MoE esparso para aumentar muito a capacidade sem subir muito o custo por token. Você verá como a mesma camada de experts roda em todas as versões, como o treino e o alinhamento foram desenhados para raciocínio longo, e como a infraestrutura em FP8 e os pipelines heterogêneos tornam a escala prática — com os principais resultados e comentários editoriais para entender o impacto.
- Arquitetura MoE esparsa mantém custo por token baixo enquanto o modelo cresce
- Mesma receita e formato aplicados a todos os tamanhos para escalabilidade previsível
- Treino prioriza raciocínio e contexto longo para melhorar matemática e código
- Alinhamento em etapas separa ganho de capacidade da otimização de preferências
- Otimizações de hardware e precisão tornam viável treinar modelos muito grandes
Leia o anúncio original e a cobertura técnica em: https://www.marktechpost.com/2025/10/30/ant-group-releases-ling-2-0-a-reasoning-first-moe-language-model-series-built-on-the-principle-that-each-activation-enhances-reasoning-capability/
O que você precisa saber agora
- Três variantes: Ling mini 2.0 (16B), Ling flash 2.0 (≈100B) e Ling 1T (1T).
- Ativação por token: cerca de 1/32 do modelo é ativado — ~3,5%.
- Arquitetura comum: cada camada usa 256 experts roteados 1 expert compartilhado; o roteador seleciona 8 experts mais o compartilhado.
- Eficiência: ganho reportado de cerca de 7× frente a um modelo denso equivalente.
- Foco: projetado para raciocínio, contextos longos e uso prático em escala.
Como a arquitetura foi escolhida
A Ant Group usou as chamadas Ling Scaling Laws para prever comportamento em escala. Rodaram um conjunto fixo de testes — o Ling Wind Tunnel — e ajustaram curvas para estimar perda, ativação e equilíbrio de experts em tamanhos maiores. Isso permitiu definir a receita de 1/32 de ativação e 2561 experts antes de treinar modelos de 1T.
A pilha técnica inclui:
- Roteamento sem aux-loss com pontuação em sigmoid.
- Mecanismos para estabilidade de profundidade: QK Norm, MTP loss e partial RoPE. Para entender melhor como variações na atenção e normalização afetam estabilidade e desempenho, é útil consultar materiais sobre mecanismos de atenção e suas aplicações.
- Mesma forma aplicada do 16B ao 1T, para consistência de comportamento.
Treinamento e alinhamento
A estratégia em camadas busca ensinar raciocínio e manejo de contextos longos sem inflar respostas desnecessárias:
- Pré-treinamento em mais de 20 trilhões de tokens, começando com contexto de 4K.
- Expansão de contexto em etapas: estágio intermediário com 32K em um recorte de 150B tokens; injeção de 600B tokens de cadeias de pensamento (chain-of-thought); e extensão a 128K usando técnicas de contexto estendido — métodos recentes para processar janelas muito longas são abordados por trabalhos que mostram como decodificar e processar contextos muito mais longos.
- Alinhamento dividido em fases: primeiro uma passagem de capacidade (separar respostas rápidas de raciocínio profundo), depois expansão de CoT e, por fim, otimização de políticas por sentença com comparações entre saídas humanas; técnicas de aprendizado por reforço para melhorar raciocínio também têm sido exploradas na indústria para esse tipo de ajuste fino.
Para quem investiga como exemplos de raciocínio podem elevar modelos menores a patamares superiores, há casos interessantes sobre modelos compactos que superam alternativas maiores em tarefas de raciocínio, como descrito no texto sobre o TRM de sete milhões.
Infraestrutura e eficiência
Treinaram nativamente em FP8, com salvaguardas para manter a perda próxima ao BF16. Principais ganhos reportados:
- ≈15% de melhoria em utilização do hardware devido ao FP8.
- Ganhos maiores (~40%) vindos de paralelismo heterogêneo, execução intercalada (um forward, um backward) e particionamento consciente do bloco MTP. Para estratégias práticas de escala e memória em Transformers, veja guias sobre como escalar modelos Transformer com menos memória.
- Warmup Stable Merge: método que substitui decaimento de taxa de aprendizado ao mesclar checkpoints, facilitando execuções de 1T em clusters existentes; extensões de infra que evitam paradas durante treinos também aparecem em soluções como ZenFlow.
- Para diminuir latência inicial em inferência distribuída e compartilhar recursos entre usuários, abordagens como KVCached para compartilhar GPUs e acelerar a primeira resposta e cascatas especulativas merecem atenção ao projetar deploys econômicos.
Avaliação e desempenho
A avaliação mostra que MoE com baixa ativação mantém boa qualidade por token. Resumo das versões e ativação por token:
| Modelo | Parâmetros totais | Parâmetros ativados por token | Observação |
|---|---|---|---|
| Ling mini 2.0 | 16B | 1.4B | desempenho parecido com faixa 7–8B densa |
| Ling flash 2.0 | ~100B | 6.1B | mantém receita de 1/32 |
| Ling 1T | 1T | ~50B | mantém proporcionalidade de ativação em escala trillion |
Relatórios da equipe indicam consistência da proporção de ativação ao longo dos tamanhos, preservando qualidade em tarefas de raciocínio e contexto longo. Métodos de avaliação de raciocínio em múltiplos problemas simultâneos ajudam a comparar arquitetura e treino — por exemplo, o protocolo REST propõe métricas voltadas a medir capacidade de raciocínio em cenários diversos.
Principais conclusões para você
- Escalabilidade: aumenta-se capacidade total sem multiplicar o custo por token.
- Consistência: mesma configuração de experts funciona do 16B ao 1T.
- Raciocínio e contexto longo: pipeline de treinamento priorizou cadeias de pensamento e contexto estendido.
- Custo prático: FP8 e paralelismo heterogêneo tornam execuções de 1T mais práticas em hardware existente.
- Trade-offs: maior complexidade de roteamento e requisitos de infraestrutura, mas com ganho significativo em eficiência.
Se você planeja adoção, vale também revisar práticas para extrair mais precisão de modelos já treinados, como ajustes que exploram sinais de todas as camadas internas (usar todas as camadas) e estratégias de few-shot que melhoram previsões com poucos exemplos (TimesFM para poucos exemplos).
Conclusão
A ideia central é clara: Ling 2.0 é uma aposta em colocar o raciocínio no centro enquanto usa um MoE esparso para aumentar capacidade sem inflar o custo por token. É como colocar mais carne no prato sem aumentar a conta — muito poder por token ativado (~1/32) graças a uma receita repetível do 16B ao 1T. A consistência de arquitetura e as escolhas de infra (FP8, paralelismo heterogêneo) tornam a proposta prática, mas exigem mais cuidado com roteamento e deploy.
Se quiser se aprofundar na descrição técnica e nos números, consulte também a cobertura detalhada em: https://www.marktechpost.com/2025/10/30/ant-group-releases-ling-2-0-a-reasoning-first-moe-language-model-series-built-on-the-principle-that-each-activation-enhances-reasoning-capability/
Para material complementar e guias práticos sobre adoção, veja: https://blog.aidirectory.com.br
Perguntas frequentes
- O que é o Ling 2.0 da Ant Group?
Ling 2.0 é uma família de modelos MoE esparsos voltada ao raciocínio, usando poucos experts por token e escalando de 16B a 1T.
- O que significa "pouca ativação"?
Cada token ativa só ~3,5% dos experts. O roteador escolhe 8 experts mais 1 compartilhado — cerca de 1/32 de ativação.
- Isso prejudica matemática, código ou contexto longo?
Não. Treinar com muitos exemplos de raciocínio (CoT) e estender contexto até 128K mantém a qualidade em matemática, código e tarefas de raciocínio profundo; métodos recentes para estender contexto e desempenho em janelas longas ajudam precisamente nesses cenários.
- Quais são os ganhos e trade-offs?
Ganho: muito mais eficiência por token (≈7× vs denso). Trade-off: maior complexidade de roteamento e requisitos de infra; FP8 e paralelismo ajudam a reduzir custo. Ferramentas de infra e cache distribuído, além de algoritmos especulativos, são parte da resposta para tornar isso prático em produção.
- Como escolheram a arquitetura e os hiperparâmetros?
Usaram as "Ling Scaling Laws" e o Ling Wind Tunnel de testes pequenos para definir 1/32 de ativação, 256 experts roteados e a receita aplicada até 1T.
Leitura técnica recomendada (cobertura e detalhes): https://www.marktechpost.com/2025/10/30/ant-group-releases-ling-2-0-a-reasoning-first-moe-language-model-series-built-on-the-principle-that-each-activation-enhances-reasoning-capability/
Se você quiser conhecer outros artigos semelhantes a Você vai conhecer o Ling da Ant Group que usa pouca ativação para melhorar o raciocínio, você pode visitar a categoria Notícias e Tendências.
