Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática

5 meses ago · Updated 5 meses ago

veja-como-voce-pode-confiar-no-novo-modelo-aberto-da-deepseek-ai-que-resolve-e-verifica-problemas-de

Table

Ouça este artigo
DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação
O essencial: como o sistema opera
Verificador e meta‑verificador: checagem em dois níveis
Dados de treino e rotulagem
Treinamento do gerador e sinal de recompensa
Refinamento sequencial e contexto extenso
Rotulagem automática por verificação escalada
Resultados e avaliações
Conclusão
Perguntas frequentes

Ouça este artigo

Você vai ver como a DeepSeek lançou uma nova versão do DeepSeekMath que prova matemática de alto nível em linguagem natural e checa se sua própria razão está correta. É um grande modelo de código aberto disponível no Hugging Face com pesos abertos e foco em provas bem escritas. Em vez de só premiar respostas certas, a equipe treinou um verificador e um meta‑verificador para julgar qualidade das provas e das análises, usando GRPO, refinamento sequencial e rotulagem automática para forçar honestidade e rigor. Leia para entender como isso muda o jogo do raciocínio matemático autoverificável e o que significa para suas expectativas sobre IA em matemática. Para mais detalhes e origem do anúncio, veja https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.

Modelo aberto otimizado para provar teoremas em linguagem natural

Foco na qualidade e rigor da prova, não só na resposta final

Verificador e meta‑verificador garantem análises honestas

Gerador cria prova e autoanálise e refina passo a passo com contexto extenso

Alto desempenho em competições; pesos abertos e licença Apache 2.0

DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação

Você pode acessar um modelo de linguagem aberto projetado para provar problemas matemáticos de nível olímpico e verificar sua própria lógica. A DeepSeek AI lançou o DeepSeekMath‑V2, baseado em DeepSeek‑V3.2‑Exp‑Base, um sistema de mistura de especialistas com ~685B parâmetros. Código e pesos estão no Hugging Face sob Apache 2.0. Em testes reportados, o modelo alcançou ouro no IMO 2025, ouro no CMO 2024 e obteve 118/120 no Putnam 2024 usando maior poder de cálculo em teste. (Fonte do anúncio: https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/)

O essencial: como o sistema opera

Prioriza a qualidade da prova (rigor, completude), não apenas a resposta final.

Três componentes centrais: verificador, meta‑verificador e gerador de provas.

Entrega análise em linguagem natural e notas discretas de qualidade para cada prova.

A combinação de sinais de recompensa lembra discussões recentes sobre como modelos de recompensa afetam a confiabilidade dos LLMs.

Verificador e meta‑verificador: checagem em dois níveis

O verificador lê problema e prova candidata, produz análise em linguagem natural e nota {0, 0.5, 1}.

Treinado via GRPO para consistência na avaliação.

O meta‑verificador confirma que a análise do verificador é fiel ao problema e à prova, evitando invenções de defeitos. Essa abordagem é parecida em intenção com sistemas críticos projetados para corrigir e validar saídas, como iniciativas descritas em métodos de crítica automática.

Avalia reiteração de passos, identificação de defeitos reais e coerência entre análise e nota.

Segundo a equipe, a adição do meta‑verificador elevou a qualidade média das análises de ~0.85 para ~0.96 numa validação, sem perda da precisão na nota da prova. Para entender métricas e protocolos de teste de raciocínio em larga escala, veja também métodos que testam raciocínio em múltiplos problemas simultaneamente.

Dados de treino e rotulagem

Base inicial: 17.503 questões de olimpíadas, provas seletivas e problemas públicos pós‑2010.

Candidatos a provas vieram de um gerador interno que refinou soluções iterativamente, produzindo muitas provas imperfeitas.

Humanos rotularam usando a rubrica 0 / 0.5 / 1, avaliando rigor e completude. A estratégia de reduzir dependência humana por meio de pipelines automáticos se relaciona a técnicas de treinamento sem anotações completas, como em aprendizagem ativa sem dados anotados.

O verificador foi treinado com essas etiquetas via GRPO para obter consistência.

Treinamento do gerador e sinal de recompensa

O gerador produz prova e autoanálise seguindo a mesma rubrica do verificador.

Recompensa combina: α = 0.76 para a nota da prova e β = 0.24 para a autoanálise, com termo de formato que exige estrutura correta.

Se o gerador declara prova perfeita com falhas, perde recompensa por desacordo e por baixa pontuação do meta‑verificador. A construção cuidadosa do sinal de recompensa dialoga com pesquisas sobre modelos de recompensa e confiabilidade.

Refinamento sequencial e contexto extenso

Contexto de até 128K tokens permite provas longas e desenvolvidas.

Para problemas difíceis, o gerador faz refinamentos sequenciais: gera prova autoanálise, realimenta o contexto e corrige iterativamente até o limite de contexto. Essas práticas lembram arquiteturas de recuperação e refinamento passo a passo descritas em guias sobre sistemas RAG com roteamento e refinamento.

Rotulagem automática por verificação escalada

Pipeline automático reduz trabalho humano: amostram‑se múltiplas análises independentes do verificador para cada prova candidata.

Cada análise é avaliada pelo meta‑verificador. Se várias análises de alta qualidade convergem para os mesmos defeitos sérios, a prova é marcada como incorreta; caso contrário, é marcada como correta.

Nas últimas etapas, esse pipeline substituiu etiquetas humanas com boa concordância pontual com especialistas. O uso de dados sintéticos para testar e validar pipelines semelhantes é mencionado em testes com dados sintéticos para pipelines RAG.

Resultados e avaliações

IMO 2025: ouro (relatado pela equipe)

CMO 2024: ouro

Putnam 2024: 118/120 (com aumento de recursos em teste)

Conjunto CNML (91 problemas): maior média de notas de prova entre concorrentes, segundo o verificador interno

IMO Shortlist 2024: refinamento sequencial com autoverificação melhorou métricas de passagem na primeira tentativa e no melhor entre 32 tentativas

IMO ProofBench: avaliação por especialistas mostrou desempenho competitivo, superando concorrentes em subconjuntos selecionados

Benchmark	Desempenho reportado
IMO 2025	Ouro
CMO 2024	Ouro
Putnam 2024	118 / 120
Conjunto CNML (91 problemas)	Maior média de notas (entre concorrentes testados)

Conclusão

O DeepSeekMath‑V2 entrega um modelo aberto capaz de provar problemas de alto nível em linguagem natural, com pesos abertos e licença Apache 2.0 — ou seja, auditável e reproduzível. O diferencial é a autoverificação: verificador meta‑verificador treinados com GRPO que fiscalizam a prova com rigor. O gerador usa refinamento sequencial e até 128K tokens para lapidar provas longas, priorizando qualidade além de acerto pontual. Os resultados (IMO, Putnam, CMO) são impressionantes, mas recomenda‑se revisão humana em provas críticas: o sistema reduz erros significativamente, não os elimina. Para reflexões sobre auditoria e inspeção independente de modelos, veja análises de ferramentas abertas para auditoria de IA, como PETRI, uma ferramenta aberta de auditoria.

Para a publicação original e contexto adicional do anúncio, consulte https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.

Perguntas frequentes

Como o DeepSeekMath‑V2 prova problemas olímpicos complexos em linguagem natural?
Gera provas detalhadas em texto claro, usa refinamentos sequenciais quando necessário e aproveita contexto de 128K tokens; o gerador foi treinado para qualidade de prova, não só resposta. Para entender padrões de refinamento e roteamento de contexto, consulte práticas de sistemas RAG com refinamento passo a passo.

Como o sistema verifica que seu próprio raciocínio está correto?
Um verificador avalia provas com nota 0/0.5/1; um meta‑verificador checa se a análise do verificador é honesta. Ambos foram treinados com GRPO e sinais combinados, numa lógica próxima à de críticos automáticos usados para melhorar gerações, similar ao conceito por trás de sistemas de crítica automática.

Posso confiar nos resultados sem revisar manualmente?
Não totalmente. A precisão é alta (ex.: qualidade média de análise ~0.96 em validação), mas recomenda‑se revisão humana em provas críticas.

O modelo é aberto e pode ser auditado por terceiros?
Sim. Pesos e código estão disponíveis publicamente no Hugging Face sob Apache 2.0 e o repositório permite auditoria e reprodução. Para orientações sobre como operar modelos locais e agentes auditáveis, veja um guia prático sobre criação de agentes com modelos locais da Hugging Face.

Como evitam que o verificador invente problemas (hallucination)?
O meta‑verificador pune análises desonestas; metas de treino forçam fidelidade. Análises que inventam falhas recebem baixa nota e reduzem a recompensa do verificador. Essa defesa contra invenções alinha‑se com estudos sobre sinais de recompensa e confiabilidade em LLMs, discutidos em pesquisas sobre modelos de recompensa.

Se você quiser conhecer outros artigos semelhantes a Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática, você pode visitar a categoria Notícias e Tendências.