MiniMax M2 é um modelo aberto para codar e executar agentes e você ganha quase duas vezes mais velocidade por uma fração do preço

Neste artigo:

Ouça este artigo
MiniMax libera o MiniMax M2: modelo aberto orientado a codificação e agentes com custo reduzido
O que é o MiniMax M2?
Arquitetura e por que o tamanho das ativações importa
Benchmarks focados em codificação e agentes
Comparação: M1 vs M2
Como acessar e testar
Conclusão
Perguntas frequentes
Referências

Ouça este artigo

Você vai conhecer o MiniMax M nova versão, um modelo open source baseado em mistura de especialistas pensado para codificação e fluxos com agentes. Ele liberou os pesos no Hugging Face sob licença MIT e foi otimizado para ativar só um pequeno subconjunto de parâmetros por passo, o que reduz uso de memória e deixa a latência mais estável em ciclos de planejar, agir e verificar. A equipe pede que você mantenha os blocos de pensamento intercalado … na conversa para preservar qualidade em tarefas longas. O anúncio destaca custo muito menor que modelos de ponta e ganho de velocidade, e o repositório traz guias práticos para rodar e testar localmente. Leia o artigo para ver benchmarks, comparações e notas de arquitetura.

Modelo MiniMax novo aberto otimizado para codificação e fluxos de agentes

Ativa apenas uma fração do modelo por token para reduzir memória e latência

Exige manter blocos … no histórico para raciocínio intercalado em múltiplos passos

Bom desempenho em benchmarks de terminal, navegação e tarefas de engenharia de software

Pesos sob licença MIT e receitas para vLLM, SGLang e deploy local com API compatível

MiniMax libera o MiniMax M2: modelo aberto orientado a codificação e agentes com custo reduzido

A equipe do MiniMax publicou o MiniMax M2 com pesos em safetensors no Hugging Face e licença MIT. O modelo foi projetado para fluxos com ferramentas (terminal, navegador, retrieval, edição de múltiplos arquivos) e planos de longa duração. O M2 tem 229B parâmetros totais, ativa cerca de 10B por token e chega com promessa de custo em torno de 8% do preço do Claude Sonnet e quase 2x mais rápido. Há uma janela de acesso gratuito para avaliação. Para cobertura adicional e links originais veja https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.

O que é o MiniMax M2?

Entenda o M2 como um modelo Mixture of Experts (MoE) ajustado para tarefas de desenvolvimento e automação por agentes.

Alvo principal: uso de ferramentas end‑to‑end, edição multi‑arquivo e planos de longo prazo.

Design: MoE que roteia para um subconjunto de especialistas, reduzindo a carga ativa por token.

Formato e distribuição: pesos no Hugging Face em safetensors, com suporte a FP32, BF16 e FP8.

Licença: MIT, permitindo uso amplo.

Requisitos de conversa: manter blocos de raciocínio entre tags … — remover esses blocos reduz a qualidade em cadeias de ferramentas longas (veja discussões sobre técnicas de raciocínio intercalado em modelos de código aberto).

Arquitetura e por que o tamanho das ativações importa

A arquitetura MoE do M2 separa muitos parâmetros totais e ativa apenas uma fração em cada passo, o que impacta memória e latência.

Menos ativações por token reduzem uso de memória.

Latência mais estável em loops de planejamento e execução (plan-act-verify).

Mais concorrência possível em pipelines de CI, navegação e retrieval.

Custos menores por manter apenas parte dos especialistas ativos por token.

Esses pontos justificam o posicionamento do M2 como opção para fluxos agenticos sem exigir memória e custo equivalentes a modelos densos do mesmo “tamanho” teórico. Para técnicas relacionadas a redução de memória e escalabilidade de modelos, ver materiais sobre escala com menos memória (DeepSpeed) e a extensão ZenFlow. Estratégias de redução de custo e latência, como cascatas especulativas, também se aplicam a cenários MoE.

Benchmarks focados em codificação e agentes

Os testes divulgados priorizam tarefas próximas ao trabalho do desenvolvedor, não apenas QA estático.

Benchmark	Pontuação reportada
Terminal Bench	46.3
Multi SWE Bench	36.2
BrowseComp	44.0
SWE Bench Verified (com scaffold)	69.4

Observações: alguns testes usam contexto longo (por exemplo, OpenHands com 128k de contexto e 100 passos). Para abordagens de contexto muito longo, vale conferir avanços que tratam janelas extensas, como o Refrag da Meta Superintelligence Labs (Refrag). Os relatórios sugerem desempenho alinhado a cadeias de ferramentas e interações longas.

Comparação: M1 vs M2

A equipe posiciona o M2 como evolução voltada a agentes e codificação.

Estrutura: M2 é MoE com alta contagem total e baixa ativação por token.

Foco de uso: M2 otimiza ciclos de ferramentas e longas interações; M1 era mais genérico.

Desempenho e custo: relatórios indicam menor custo por tarefa e latência reduzida em laços agenticos comparado à geração anterior.

Em termos de modelos focados em código e performance econômica, vale comparar o posicionamento do M2 com outras iniciativas, como modelos dedicados a código (DevStral 2507) e opções menores e mais econômicas lançadas por várias empresas (GPT-4o Mini).

Essas diferenças motivam a adoção do M2 em pipelines que exigem execução contínua de ferramentas.

Como acessar e testar

Passos básicos para começar:

Pesquise os pesos no Hugging Face e verifique a licença MIT.

Formatos disponíveis: FP32, BF16, FP8 em safetensors.

Documentação de API indica endpoints compatíveis com Anthropic.

Receitas de deploy: vLLM e SGLang para servir localmente e rodar benchmarks — além de técnicas de deploy e compartilhamento de recursos, considere ferramentas como kvcached para otimizar uso de GPU.

A equipe fornece template de chat e notas de implantação.

Para integração com interfaces e operações gráficas, existem receitas para treinar modelos de código aberto a operar GUIs, como o uso de smol2operator.

Se sua meta é rodar agentes em produção, explore referências sobre orquestração e deploy de agentes, por exemplo as iniciativas de servidores MCP/AgentCore e arquiteturas de agentes em equipe (MCP coordenados).

A equipe fornece template de chat e notas de implantação.

Para leitura complementar e cobertura da liberação veja também https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.

Conclusão

O MiniMax M2 é uma aposta prática para quem trabalha com codificação e fluxos de agentes: é aberto, publicado no Hugging Face sob licença MIT, e usa arquitetura MoE para ativar apenas cerca de 10B ativos por token — ou seja, menos memória, latência mais estável e custo muito menor. Em termos simples: virou carta na manga para pipelines que precisam planejar, agir e verificar em laços longos.

Atenção: para manter qualidade em tarefas multi‑etapa siga a receita — mantenha os blocos … no histórico e use as receitas (vLLM, SGLang, templates) para rodar e testar localmente. Os benchmarks mostram promessa, mas teste nos seus próprios cenários antes de migrar tudo. Para testar e validar agentes em ambientes controlados, há ferramentas abertas para avaliação de agentes e testes de segurança, como a ferramenta Rogue (Rogue), e levantamentos sobre como agentes podem transformar fluxos de trabalho (Dify e agentes de IA).

Os benchmarks mostram promessa, mas teste nos seus próprios cenários antes de migrar tudo. Cobertura detalhada e análises adicionais podem ser encontradas em https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/.

Perguntas frequentes

O que é o MiniMax M2?
É um modelo aberto Mixture of Experts feito para codificar e rodar agentes. Tem 229B parâmetros totais e cerca de 10B ativos por token. Pesos públicos no Hugging Face sob MIT.

Por que ele diz ser quase 2x mais rápido e muito mais barato?
Porque ativa só ~10B por passo. Menos ativação = menos memória e latência de cauda. A equipe anuncia ~2x velocidade e custo ~8% do Claude Sonnet.

Como o design MoE e os 10B ativos ajudam em workflows de agentes e código?
Reduz pressão de memória e permite mais execuções concorrentes. Melhora loops longos com shell, browser, retrieval e edição multi‑arquivo.

Preciso manter os blocos … nas conversas?
Sim. O M2 usa “interleaved thinking”. Remover os blocos quebra a qualidade em tarefas multi‑etapa e cadeias de ferramentas — veja discussões sobre raciocínio intercalado.

Onde encontro pesos, docs e como rodar localmente?
Pesos em Hugging Face (safetensors) com FP32/BF16/FP8. Repo tem docs, template de chat, API compatível Anthropic e receitas vLLM / SGLang. Há janela gratuita para testar.

Referências

Cobertura de lançamento e detalhes técnicos: https://www.marktechpost.com/2025/10/28/minimax-open-sources-minimax-m2-a-mini-model-built-for-max-coding-and-agentic-workflows-at-8-claude-sonnet-price-and-2x-faster/

🤖 Encontre as Melhores Ferramentas de IA

Ouça este artigo

🤖 Encontre as Melhores Ferramentas de IA

MiniMax libera o MiniMax M2: modelo aberto orientado a codificação e agentes com custo reduzido

O que é o MiniMax M2?

Arquitetura e por que o tamanho das ativações importa

Benchmarks focados em codificação e agentes

Comparação: M1 vs M2

Como acessar e testar

Conclusão

Perguntas frequentes

Referências

🤖 Encontre as Melhores Ferramentas de IA

Você também pode gostar