Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática

5 meses ago · Updated 5 meses ago

veja-como-voce-pode-confiar-no-novo-modelo-aberto-da-deepseek-ai-que-resolve-e-verifica-problemas-de
Table
  1. Ouça este artigo
  2. DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação
  3. O essencial: como o sistema opera
  4. Verificador e meta‑verificador: checagem em dois níveis
  5. Dados de treino e rotulagem
  6. Treinamento do gerador e sinal de recompensa
  7. Refinamento sequencial e contexto extenso
  8. Rotulagem automática por verificação escalada
  9. Resultados e avaliações
  10. Conclusão
  11. Perguntas frequentes

Ouça este artigo


Você vai ver como a DeepSeek lançou uma nova versão do DeepSeekMath que prova matemática de alto nível em linguagem natural e checa se sua própria razão está correta. É um grande modelo de código aberto disponível no Hugging Face com pesos abertos e foco em provas bem escritas. Em vez de só premiar respostas certas, a equipe treinou um verificador e um meta‑verificador para julgar qualidade das provas e das análises, usando GRPO, refinamento sequencial e rotulagem automática para forçar honestidade e rigor. Leia para entender como isso muda o jogo do raciocínio matemático autoverificável e o que significa para suas expectativas sobre IA em matemática. Para mais detalhes e origem do anúncio, veja https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.

  • Modelo aberto otimizado para provar teoremas em linguagem natural
  • Foco na qualidade e rigor da prova, não só na resposta final
  • Verificador e meta‑verificador garantem análises honestas
  • Gerador cria prova e autoanálise e refina passo a passo com contexto extenso
  • Alto desempenho em competições; pesos abertos e licença Apache 2.0

DeepSeekMath‑V2: modelo aberto que prova problemas olímpicos com autoverificação

Você pode acessar um modelo de linguagem aberto projetado para provar problemas matemáticos de nível olímpico e verificar sua própria lógica. A DeepSeek AI lançou o DeepSeekMath‑V2, baseado em DeepSeek‑V3.2‑Exp‑Base, um sistema de mistura de especialistas com ~685B parâmetros. Código e pesos estão no Hugging Face sob Apache 2.0. Em testes reportados, o modelo alcançou ouro no IMO 2025, ouro no CMO 2024 e obteve 118/120 no Putnam 2024 usando maior poder de cálculo em teste. (Fonte do anúncio: https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/)

O essencial: como o sistema opera

  • Prioriza a qualidade da prova (rigor, completude), não apenas a resposta final.
  • Três componentes centrais: verificador, meta‑verificador e gerador de provas.
  • Entrega análise em linguagem natural e notas discretas de qualidade para cada prova.

Verificador e meta‑verificador: checagem em dois níveis

  • O verificador lê problema e prova candidata, produz análise em linguagem natural e nota {0, 0.5, 1}.
  • Treinado via GRPO para consistência na avaliação.
  • O meta‑verificador confirma que a análise do verificador é fiel ao problema e à prova, evitando invenções de defeitos. Essa abordagem é parecida em intenção com sistemas críticos projetados para corrigir e validar saídas, como iniciativas descritas em métodos de crítica automática.
  • Avalia reiteração de passos, identificação de defeitos reais e coerência entre análise e nota.

Dados de treino e rotulagem

  • Base inicial: 17.503 questões de olimpíadas, provas seletivas e problemas públicos pós‑2010.
  • Candidatos a provas vieram de um gerador interno que refinou soluções iterativamente, produzindo muitas provas imperfeitas.
  • Humanos rotularam usando a rubrica 0 / 0.5 / 1, avaliando rigor e completude. A estratégia de reduzir dependência humana por meio de pipelines automáticos se relaciona a técnicas de treinamento sem anotações completas, como em aprendizagem ativa sem dados anotados.
  • O verificador foi treinado com essas etiquetas via GRPO para obter consistência.

Treinamento do gerador e sinal de recompensa

  • O gerador produz prova e autoanálise seguindo a mesma rubrica do verificador.
  • Recompensa combina: α = 0.76 para a nota da prova e β = 0.24 para a autoanálise, com termo de formato que exige estrutura correta.
  • Se o gerador declara prova perfeita com falhas, perde recompensa por desacordo e por baixa pontuação do meta‑verificador. A construção cuidadosa do sinal de recompensa dialoga com pesquisas sobre modelos de recompensa e confiabilidade.

Refinamento sequencial e contexto extenso

  • Contexto de até 128K tokens permite provas longas e desenvolvidas.
  • Para problemas difíceis, o gerador faz refinamentos sequenciais: gera prova autoanálise, realimenta o contexto e corrige iterativamente até o limite de contexto. Essas práticas lembram arquiteturas de recuperação e refinamento passo a passo descritas em guias sobre sistemas RAG com roteamento e refinamento.

Rotulagem automática por verificação escalada

  • Pipeline automático reduz trabalho humano: amostram‑se múltiplas análises independentes do verificador para cada prova candidata.
  • Cada análise é avaliada pelo meta‑verificador. Se várias análises de alta qualidade convergem para os mesmos defeitos sérios, a prova é marcada como incorreta; caso contrário, é marcada como correta.
  • Nas últimas etapas, esse pipeline substituiu etiquetas humanas com boa concordância pontual com especialistas. O uso de dados sintéticos para testar e validar pipelines semelhantes é mencionado em testes com dados sintéticos para pipelines RAG.

Resultados e avaliações

  • IMO 2025: ouro (relatado pela equipe)
  • CMO 2024: ouro
  • Putnam 2024: 118/120 (com aumento de recursos em teste)
  • Conjunto CNML (91 problemas): maior média de notas de prova entre concorrentes, segundo o verificador interno
  • IMO Shortlist 2024: refinamento sequencial com autoverificação melhorou métricas de passagem na primeira tentativa e no melhor entre 32 tentativas
  • IMO ProofBench: avaliação por especialistas mostrou desempenho competitivo, superando concorrentes em subconjuntos selecionados
Benchmark Desempenho reportado
IMO 2025 Ouro
CMO 2024 Ouro
Putnam 2024 118 / 120
Conjunto CNML (91 problemas) Maior média de notas (entre concorrentes testados)

Conclusão

O DeepSeekMath‑V2 entrega um modelo aberto capaz de provar problemas de alto nível em linguagem natural, com pesos abertos e licença Apache 2.0 — ou seja, auditável e reproduzível. O diferencial é a autoverificação: verificador meta‑verificador treinados com GRPO que fiscalizam a prova com rigor. O gerador usa refinamento sequencial e até 128K tokens para lapidar provas longas, priorizando qualidade além de acerto pontual. Os resultados (IMO, Putnam, CMO) são impressionantes, mas recomenda‑se revisão humana em provas críticas: o sistema reduz erros significativamente, não os elimina. Para reflexões sobre auditoria e inspeção independente de modelos, veja análises de ferramentas abertas para auditoria de IA, como PETRI, uma ferramenta aberta de auditoria.

Para a publicação original e contexto adicional do anúncio, consulte https://www.marktechpost.com/2025/11/28/deepseek-ai-releases-deepseekmath-v2-the-open-weights-maths-model-that-scored-118-120-on-putnam-2024/.

Perguntas frequentes

  • Como o DeepSeekMath‑V2 prova problemas olímpicos complexos em linguagem natural?
    Gera provas detalhadas em texto claro, usa refinamentos sequenciais quando necessário e aproveita contexto de 128K tokens; o gerador foi treinado para qualidade de prova, não só resposta. Para entender padrões de refinamento e roteamento de contexto, consulte práticas de sistemas RAG com refinamento passo a passo.
  • Como o sistema verifica que seu próprio raciocínio está correto?
    Um verificador avalia provas com nota 0/0.5/1; um meta‑verificador checa se a análise do verificador é honesta. Ambos foram treinados com GRPO e sinais combinados, numa lógica próxima à de críticos automáticos usados para melhorar gerações, similar ao conceito por trás de sistemas de crítica automática.
  • Posso confiar nos resultados sem revisar manualmente?
    Não totalmente. A precisão é alta (ex.: qualidade média de análise ~0.96 em validação), mas recomenda‑se revisão humana em provas críticas.
  • O modelo é aberto e pode ser auditado por terceiros?
    Sim. Pesos e código estão disponíveis publicamente no Hugging Face sob Apache 2.0 e o repositório permite auditoria e reprodução. Para orientações sobre como operar modelos locais e agentes auditáveis, veja um guia prático sobre criação de agentes com modelos locais da Hugging Face.
  • Como evitam que o verificador invente problemas (hallucination)?
    O meta‑verificador pune análises desonestas; metas de treino forçam fidelidade. Análises que inventam falhas recebem baixa nota e reduzem a recompensa do verificador. Essa defesa contra invenções alinha‑se com estudos sobre sinais de recompensa e confiabilidade em LLMs, discutidos em pesquisas sobre modelos de recompensa.

Se você quiser conhecer outros artigos semelhantes a Veja como você pode confiar no novo modelo aberto da DeepSeek AI que resolve e verifica problemas de matemática, você pode visitar a categoria Notícias e Tendências.

Go up