Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática
5 meses ago · Updated 5 meses ago

- Ouça este artigo
- DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação
- O essencial: como o sistema opera
- Verificador e meta‑verificador: checagem em dois níveis
- Dados de treino e rotulagem
- Treinamento do gerador e sinal de recompensa
- Refinamento sequencial e contexto extenso
- Rotulagem automática por verificação escalada
- Resultados e avaliações
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você vai ver como a DeepSeek lançou uma nova versão do DeepSeekMath que prova matemática de alto nível em linguagem natural e checa se sua própria razão está correta. É um grande modelo de código aberto disponível no Hugging Face com pesos abertos e foco em provas bem escritas. Em vez de só premiar respostas certas, a equipe treinou um verificador e um meta‑verificador para julgar qualidade das provas e das análises, usando GRPO, refinamento sequencial e rotulagem automática para forçar honestidade e rigor. Leia para entender como isso muda o jogo do raciocínio matemático autoverificável e o que significa para suas expectativas sobre IA em matemática. Para mais detalhes e origem do anúncio, veja https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.
- Modelo aberto otimizado para provar teoremas em linguagem natural
- Foco na qualidade e rigor da prova, não só na resposta final
- Verificador e meta‑verificador garantem análises honestas
- Gerador cria prova e autoanálise e refina passo a passo com contexto extenso
- Alto desempenho em competições; pesos abertos e licença Apache 2.0
DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação
Você pode acessar um modelo de linguagem aberto projetado para provar problemas matemáticos de nível olímpico e verificar sua própria lógica. A DeepSeek AI lançou o DeepSeekMath‑V2, baseado em DeepSeek‑V3.2‑Exp‑Base, um sistema de mistura de especialistas com ~685B parâmetros. Código e pesos estão no Hugging Face sob Apache 2.0. Em testes reportados, o modelo alcançou ouro no IMO 2025, ouro no CMO 2024 e obteve 118/120 no Putnam 2024 usando maior poder de cálculo em teste. (Fonte do anúncio: https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/)
O essencial: como o sistema opera
- Prioriza a qualidade da prova (rigor, completude), não apenas a resposta final.
- Três componentes centrais: verificador, meta‑verificador e gerador de provas.
- Entrega análise em linguagem natural e notas discretas de qualidade para cada prova.
- A combinação de sinais de recompensa lembra discussões recentes sobre como modelos de recompensa afetam a confiabilidade dos LLMs.
Verificador e meta‑verificador: checagem em dois níveis
- O verificador lê problema e prova candidata, produz análise em linguagem natural e nota {0, 0.5, 1}.
- Treinado via GRPO para consistência na avaliação.
- O meta‑verificador confirma que a análise do verificador é fiel ao problema e à prova, evitando invenções de defeitos. Essa abordagem é parecida em intenção com sistemas críticos projetados para corrigir e validar saídas, como iniciativas descritas em métodos de crítica automática.
- Avalia reiteração de passos, identificação de defeitos reais e coerência entre análise e nota.
- Segundo a equipe, a adição do meta‑verificador elevou a qualidade média das análises de ~0.85 para ~0.96 numa validação, sem perda da precisão na nota da prova. Para entender métricas e protocolos de teste de raciocínio em larga escala, veja também métodos que testam raciocínio em múltiplos problemas simultaneamente.
Dados de treino e rotulagem
- Base inicial: 17.503 questões de olimpíadas, provas seletivas e problemas públicos pós‑2010.
- Candidatos a provas vieram de um gerador interno que refinou soluções iterativamente, produzindo muitas provas imperfeitas.
- Humanos rotularam usando a rubrica 0 / 0.5 / 1, avaliando rigor e completude. A estratégia de reduzir dependência humana por meio de pipelines automáticos se relaciona a técnicas de treinamento sem anotações completas, como em aprendizagem ativa sem dados anotados.
- O verificador foi treinado com essas etiquetas via GRPO para obter consistência.
Treinamento do gerador e sinal de recompensa
- O gerador produz prova e autoanálise seguindo a mesma rubrica do verificador.
- Recompensa combina: α = 0.76 para a nota da prova e β = 0.24 para a autoanálise, com termo de formato que exige estrutura correta.
- Se o gerador declara prova perfeita com falhas, perde recompensa por desacordo e por baixa pontuação do meta‑verificador. A construção cuidadosa do sinal de recompensa dialoga com pesquisas sobre modelos de recompensa e confiabilidade.
Refinamento sequencial e contexto extenso
- Contexto de até 128K tokens permite provas longas e desenvolvidas.
- Para problemas difíceis, o gerador faz refinamentos sequenciais: gera prova autoanálise, realimenta o contexto e corrige iterativamente até o limite de contexto. Essas práticas lembram arquiteturas de recuperação e refinamento passo a passo descritas em guias sobre sistemas RAG com roteamento e refinamento.
Rotulagem automática por verificação escalada
- Pipeline automático reduz trabalho humano: amostram‑se múltiplas análises independentes do verificador para cada prova candidata.
- Cada análise é avaliada pelo meta‑verificador. Se várias análises de alta qualidade convergem para os mesmos defeitos sérios, a prova é marcada como incorreta; caso contrário, é marcada como correta.
- Nas últimas etapas, esse pipeline substituiu etiquetas humanas com boa concordância pontual com especialistas. O uso de dados sintéticos para testar e validar pipelines semelhantes é mencionado em testes com dados sintéticos para pipelines RAG.
Resultados e avaliações
- IMO 2025: ouro (relatado pela equipe)
- CMO 2024: ouro
- Putnam 2024: 118/120 (com aumento de recursos em teste)
- Conjunto CNML (91 problemas): maior média de notas de prova entre concorrentes, segundo o verificador interno
- IMO Shortlist 2024: refinamento sequencial com autoverificação melhorou métricas de passagem na primeira tentativa e no melhor entre 32 tentativas
- IMO ProofBench: avaliação por especialistas mostrou desempenho competitivo, superando concorrentes em subconjuntos selecionados
| Benchmark | Desempenho reportado |
|---|---|
| IMO 2025 | Ouro |
| CMO 2024 | Ouro |
| Putnam 2024 | 118 / 120 |
| Conjunto CNML (91 problemas) | Maior média de notas (entre concorrentes testados) |
Conclusão
O DeepSeekMath‑V2 entrega um modelo aberto capaz de provar problemas de alto nível em linguagem natural, com pesos abertos e licença Apache 2.0 — ou seja, auditável e reproduzível. O diferencial é a autoverificação: verificador meta‑verificador treinados com GRPO que fiscalizam a prova com rigor. O gerador usa refinamento sequencial e até 128K tokens para lapidar provas longas, priorizando qualidade além de acerto pontual. Os resultados (IMO, Putnam, CMO) são impressionantes, mas recomenda‑se revisão humana em provas críticas: o sistema reduz erros significativamente, não os elimina. Para reflexões sobre auditoria e inspeção independente de modelos, veja análises de ferramentas abertas para auditoria de IA, como PETRI, uma ferramenta aberta de auditoria.
Para a publicação original e contexto adicional do anúncio, consulte https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.
Perguntas frequentes
- Como o DeepSeekMath‑V2 prova problemas olímpicos complexos em linguagem natural?
Gera provas detalhadas em texto claro, usa refinamentos sequenciais quando necessário e aproveita contexto de 128K tokens; o gerador foi treinado para qualidade de prova, não só resposta. Para entender padrões de refinamento e roteamento de contexto, consulte práticas de sistemas RAG com refinamento passo a passo.
- Como o sistema verifica que seu próprio raciocínio está correto?
Um verificador avalia provas com nota 0/0.5/1; um meta‑verificador checa se a análise do verificador é honesta. Ambos foram treinados com GRPO e sinais combinados, numa lógica próxima à de críticos automáticos usados para melhorar gerações, similar ao conceito por trás de sistemas de crítica automática.
- Posso confiar nos resultados sem revisar manualmente?
Não totalmente. A precisão é alta (ex.: qualidade média de análise ~0.96 em validação), mas recomenda‑se revisão humana em provas críticas.
- O modelo é aberto e pode ser auditado por terceiros?
Sim. Pesos e código estão disponíveis publicamente no Hugging Face sob Apache 2.0 e o repositório permite auditoria e reprodução. Para orientações sobre como operar modelos locais e agentes auditáveis, veja um guia prático sobre criação de agentes com modelos locais da Hugging Face.
- Como evitam que o verificador invente problemas (hallucination)?
O meta‑verificador pune análises desonestas; metas de treino forçam fidelidade. Análises que inventam falhas recebem baixa nota e reduzem a recompensa do verificador. Essa defesa contra invenções alinha‑se com estudos sobre sinais de recompensa e confiabilidade em LLMs, discutidos em pesquisas sobre modelos de recompensa.
Se você quiser conhecer outros artigos semelhantes a Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática, você pode visitar a categoria Notícias e Tendências.
