- Ouça este artigo
- MiniMax libera o MiniMax M2: modelo aberto orientado a codificação e agentes com custo reduzido
- O que é o MiniMax M2?
- Arquitetura e por que o tamanho das ativações importa
- Benchmarks focados em codificação e agentes
- Comparação: M1 vs M2
- Como acessar e testar
- Conclusão
- Perguntas frequentes
- Referências
Ouça este artigo
Você vai conhecer o MiniMax M nova versão, um modelo open source baseado em mistura de especialistas pensado para codificação e fluxos com agentes. Ele liberou os pesos no Hugging Face sob licença MIT e foi otimizado para ativar só um pequeno subconjunto de parâmetros por passo, o que reduz uso de memória e deixa a latência mais estável em ciclos de planejar, agir e verificar. A equipe pede que você mantenha os blocos de pensamento intercalado … na conversa para preservar qualidade em tarefas longas. O anúncio destaca custo muito menor que modelos de ponta e ganho de velocidade, e o repositório traz guias práticos para rodar e testar localmente. Leia o artigo para ver benchmarks, comparações e notas de arquitetura.
- Modelo MiniMax novo aberto otimizado para codificação e fluxos de agentes
- Ativa apenas uma fração do modelo por token para reduzir memória e latência
- Exige manter blocos … no histórico para raciocínio intercalado em múltiplos passos
- Bom desempenho em benchmarks de terminal, navegação e tarefas de engenharia de software
- Pesos sob licença MIT e receitas para vLLM, SGLang e deploy local com API compatível
MiniMax libera o MiniMax M2: modelo aberto orientado a codificação e agentes com custo reduzido
A equipe do MiniMax publicou o MiniMax M2 com pesos em safetensors no Hugging Face e licença MIT. O modelo foi projetado para fluxos com ferramentas (terminal, navegador, retrieval, edição de múltiplos arquivos) e planos de longa duração. O M2 tem 229B parâmetros totais, ativa cerca de 10B por token e chega com promessa de custo em torno de 8% do preço do Claude Sonnet e quase 2x mais rápido. Há uma janela de acesso gratuito para avaliação. Para cobertura adicional e links originais veja https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.
O que é o MiniMax M2?
Entenda o M2 como um modelo Mixture of Experts (MoE) ajustado para tarefas de desenvolvimento e automação por agentes.
- Alvo principal: uso de ferramentas end‑to‑end, edição multi‑arquivo e planos de longo prazo.
- Design: MoE que roteia para um subconjunto de especialistas, reduzindo a carga ativa por token.
- Formato e distribuição: pesos no Hugging Face em safetensors, com suporte a FP32, BF16 e FP8.
- Licença: MIT, permitindo uso amplo.
- Requisitos de conversa: manter blocos de raciocínio entre tags … — remover esses blocos reduz a qualidade em cadeias de ferramentas longas (veja discussões sobre técnicas de raciocínio intercalado em modelos de código aberto).
Arquitetura e por que o tamanho das ativações importa
A arquitetura MoE do M2 separa muitos parâmetros totais e ativa apenas uma fração em cada passo, o que impacta memória e latência.
- Menos ativações por token reduzem uso de memória.
- Latência mais estável em loops de planejamento e execução (plan-act-verify).
- Mais concorrência possível em pipelines de CI, navegação e retrieval.
- Custos menores por manter apenas parte dos especialistas ativos por token.
Esses pontos justificam o posicionamento do M2 como opção para fluxos agenticos sem exigir memória e custo equivalentes a modelos densos do mesmo “tamanho” teórico. Para técnicas relacionadas a redução de memória e escalabilidade de modelos, ver materiais sobre escala com menos memória (DeepSpeed) e a extensão ZenFlow. Estratégias de redução de custo e latência, como cascatas especulativas, também se aplicam a cenários MoE.
Benchmarks focados em codificação e agentes
Os testes divulgados priorizam tarefas próximas ao trabalho do desenvolvedor, não apenas QA estático.
| Benchmark | Pontuação reportada |
|---|---|
| Terminal Bench | 46.3 |
| Multi SWE Bench | 36.2 |
| BrowseComp | 44.0 |
| SWE Bench Verified (com scaffold) | 69.4 |
Observações: alguns testes usam contexto longo (por exemplo, OpenHands com 128k de contexto e 100 passos). Para abordagens de contexto muito longo, vale conferir avanços que tratam janelas extensas, como o Refrag da Meta Superintelligence Labs (Refrag). Os relatórios sugerem desempenho alinhado a cadeias de ferramentas e interações longas.
Comparação: M1 vs M2
A equipe posiciona o M2 como evolução voltada a agentes e codificação.
- Estrutura: M2 é MoE com alta contagem total e baixa ativação por token.
- Foco de uso: M2 otimiza ciclos de ferramentas e longas interações; M1 era mais genérico.
- Desempenho e custo: relatórios indicam menor custo por tarefa e latência reduzida em laços agenticos comparado à geração anterior.
Em termos de modelos focados em código e performance econômica, vale comparar o posicionamento do M2 com outras iniciativas, como modelos dedicados a código (DevStral 2507) e opções menores e mais econômicas lançadas por várias empresas (GPT-4o Mini).
Essas diferenças motivam a adoção do M2 em pipelines que exigem execução contínua de ferramentas.
Como acessar e testar
Passos básicos para começar:
- Pesquise os pesos no Hugging Face e verifique a licença MIT.
- Formatos disponíveis: FP32, BF16, FP8 em safetensors.
- Documentação de API indica endpoints compatíveis com Anthropic.
- Receitas de deploy: vLLM e SGLang para servir localmente e rodar benchmarks — além de técnicas de deploy e compartilhamento de recursos, considere ferramentas como kvcached para otimizar uso de GPU.
- A equipe fornece template de chat e notas de implantação.
- Para integração com interfaces e operações gráficas, existem receitas para treinar modelos de código aberto a operar GUIs, como o uso de smol2operator.
- Se sua meta é rodar agentes em produção, explore referências sobre orquestração e deploy de agentes, por exemplo as iniciativas de servidores MCP/AgentCore e arquiteturas de agentes em equipe (MCP coordenados).
- A equipe fornece template de chat e notas de implantação.
- Para leitura complementar e cobertura da liberação veja também https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.
Conclusão
O MiniMax M2 é uma aposta prática para quem trabalha com codificação e fluxos de agentes: é aberto, publicado no Hugging Face sob licença MIT, e usa arquitetura MoE para ativar apenas cerca de 10B ativos por token — ou seja, menos memória, latência mais estável e custo muito menor. Em termos simples: virou carta na manga para pipelines que precisam planejar, agir e verificar em laços longos.
Atenção: para manter qualidade em tarefas multi‑etapa siga a receita — mantenha os blocos … no histórico e use as receitas (vLLM, SGLang, templates) para rodar e testar localmente. Os benchmarks mostram promessa, mas teste nos seus próprios cenários antes de migrar tudo. Para testar e validar agentes em ambientes controlados, há ferramentas abertas para avaliação de agentes e testes de segurança, como a ferramenta Rogue (Rogue), e levantamentos sobre como agentes podem transformar fluxos de trabalho (Dify e agentes de IA).
Os benchmarks mostram promessa, mas teste nos seus próprios cenários antes de migrar tudo. Cobertura detalhada e análises adicionais podem ser encontradas em https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.
Perguntas frequentes
- O que é o MiniMax M2?
É um modelo aberto Mixture of Experts feito para codificar e rodar agentes. Tem 229B parâmetros totais e cerca de 10B ativos por token. Pesos públicos no Hugging Face sob MIT.
- Por que ele diz ser quase 2x mais rápido e muito mais barato?
Porque ativa só ~10B por passo. Menos ativação = menos memória e latência de cauda. A equipe anuncia ~2x velocidade e custo ~8% do Claude Sonnet.
- Como o design MoE e os 10B ativos ajudam em workflows de agentes e código?
Reduz pressão de memória e permite mais execuções concorrentes. Melhora loops longos com shell, browser, retrieval e edição multi‑arquivo.
- Preciso manter os blocos … nas conversas?
Sim. O M2 usa “interleaved thinking”. Remover os blocos quebra a qualidade em tarefas multi‑etapa e cadeias de ferramentas — veja discussões sobre raciocínio intercalado.
- Onde encontro pesos, docs e como rodar localmente?
Pesos em Hugging Face (safetensors) com FP32/BF16/FP8. Repo tem docs, template de chat, API compatível Anthropic e receitas vLLM / SGLang. Há janela gratuita para testar.
Referências
- Cobertura de lançamento e detalhes técnicos: https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/



