Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio

7 meses ago · Updated 7 meses ago

voce-vai-se-surpreender-com-trm-de-sete-milhoes-que-derrota-gemini-e-outros-em-raciocinio

Ouça este artigo


Você vai ler sobre o TRM, um modelo minúsculo que virou conversa em raciocínio automático. É uma rede recursiva e leve que revisa rascunhos num scratchpad latente e surpreendeu ao superar modelos muito maiores em avaliações públicas de ARC‑AGI e em puzzles como Sudoku e labirinto. Os autores liberaram o código e mostram que eficiência arquitetural pode vencer escala bruta. Leia para entender o que há de novo, como chegaram aos resultados e por que isso importa.

Resumo rápido

  • Modelo TRM muito pequeno vence modelos maiores em testes ARC públicos.
  • Usa ciclos rascunho–revisão sobre um scratchpad latente para atualizar soluções.
  • Substitui hierarquias complexas por uma única rede que recursa sobre o rascunho.
  • Mostra ganho de eficiência arquitetural, sem pretender resolver ARC‑AGI por completo.

TRM: um modelo de 7M que supera LLMs maiores em testes ARC‑AGI
Você está vendo um resultado inesperado: a equipe da Samsung SAIT (Montreal) apresenta o Tiny Recursive Model (TRM) — um raciocinador recursivo de ≈7 milhões de parâmetros — que reporta ≈45% em ARC‑AGI‑1 e ≈8% em ARC‑AGI‑2 em avaliações públicas. Esses números superam relatórios públicos de modelos substancialmente maiores (DeepSeek‑R1, Gemini 2.5 Pro, o3‑mini‑high) nas mesmas avaliações. Para comparação técnica sobre a família Gemini e suas variantes, veja a análise sobre as diferenças entre Gemini 2.5 Pro e Flash, bem como a informação sobre a disponibilidade do Gemini na Play Store. O trabalho também melhora benchmarks de quebra‑cabeça (Sudoku‑Extreme, Maze‑Hard) usando uma arquitetura mais simples e focada.

Principais fatos

  • Modelo: TRM, recursivo, duas camadas, ≈7M parâmetros.
  • Desempenho: ≈44.6–45% em ARC‑AGI‑1; ≈7.8–8% em ARC‑AGI‑2.
  • Outros ganhos: Sudoku‑Extreme 87.4%, Maze‑Hard 85.3% (vs HRM de 27M).
  • Disponibilidade: código e detalhes técnicos publicados em repositório público; procedimentos de reprodução e pipelines similares estão descritos em textos como construindo uma pipeline de pesquisa.

O que é o TRM e como difere
O TRM não é um grande transformador empilhado. Funciona como um pequeno motor que repete ciclos de rascunho e revisão sobre uma memória latente:

  • Um único módulo pequeno recursa sobre um scratchpad latente (z) e uma representação de solução (y).
  • Recursão gera profundidade efetiva (muitos passos de atualização) em vez de muitas camadas empilhadas.
  • Para problemas com estrutura fixa (p. ex. Sudoku) o time substitui atenção por um token‑mixer estilo MLP‑Mixer; essa troca por arquiteturas mais simples e econômicas é análoga a abordagens que reduzem custo e tokens, como discutido na peça sobre a Gemini Flash Lite.
  • Usa EMA nos pesos para estabilizar treino em dados limitados.

Detalhes técnicos essenciais

  • Ciclos rascunho–revisão repetidos (até 16 ciclos relatados).
  • Cada ciclo realiza várias atualizações latentes (~6 atualizações por ciclo).
  • Treinamento do zero em conjuntos pequenos e altamente aumentados; isso se relaciona com pesquisas sobre redução massiva de dados e rotulagem eficiente em cenários com dados limitados (rotulagem de alta fidelidade).
  • Não é few‑shot prompting; são modelos de predição direta.

Por que um modelo tão pequeno pode superar modelos maiores?

  • A arquitetura recursiva oferece profundidade computacional sem inflar o número de parâmetros.
  • Treino focalizado com dados aumentados melhora a eficiência por parâmetro.
  • O ganho é de eficiência arquitetural e de treino; não é prova de que o raciocínio geral foi resolvido. Abordagens que testam capacidades de raciocínio de forma ampla, como o método REST, ajudam a contextualizar esse tipo de progresso (métodos de avaliação de raciocínio).

Contexto maior e limites

  • ARC‑AGI segue como alvo aberto: a meta pública do ARC‑AGI‑2 é 85% em um conjunto privado — bem acima do que TRM alcança.
  • O avanço demonstra que designs enxutos e recursivos são promissores para benchmarks específicos, mas não resolvem o raciocínio geral.
  • Resultados citados são das avaliações públicas, em conformidade com regras e métricas da comunidade ARC. Para entendimentos mais amplos sobre sistemas de avaliação e painéis visuais, veja também o texto sobre o novo sistema de avaliação de agentes de IA.

Comparação rápida (dados relatados)

  • TRM: ~7M — ARC‑AGI‑1 ≈44.6–45% — ARC‑AGI‑2 ≈7.8–8% — Recursivo, código público.
  • HRM: 27M — TRM melhorou em puzzles (Sudoku, Maze).
  • DeepSeek‑R1 / Gemini 2.5 Pro / o3‑mini‑high: muito maiores — desempenho público menor que TRM nas mesmas avaliações públicas (segundo relatórios).

O que isso implica

  • Projetos pequenos e recursivos podem competir em benchmarks específicos.
  • Não significa que modelos pequenos resolvem raciocínio geral. ARC‑AGI continua distante da meta de 85%.
  • Pesquisadores podem explorar recursão, memória latente e designs enxutos para eficiência; técnicas complementares como cascatas especulativas também exploram reduzir custo e latência em inferência.

Como acessar o trabalho

  • Paper no arXiv e código no GitHub; procure por Tiny Recursive Model TRM (Samsung SAIT).
  • Artigo de divulgação e análise adicional podem ser encontrados em: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/
  • Repositório e material suplementar indicados pelo time estão no GitHub; para orientações sobre montar pipelines de pesquisa e reprodução, veja construindo uma pipeline de pesquisa.

Conclusão
O TRM prova que tamanho não é tudo: um modelo de ≈7M parâmetros usando recursão, scratchpad latente e ciclos de rascunho–revisão obteve ganhos reais em benchmarks como ARC‑AGI e puzzles difíceis. É um avanço de eficiência arquitetural, não a solução final do desafio ARC‑AGI. Explore recursão, memória latente e designs enxutos; replique o código público e adapte as ideias para suas tarefas.

Leitura e referências

  • Divulgação técnica e análise: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/

Perguntas frequentes (resumido)

  • O que é o TRM de 7 milhões?
    O Tiny Recursive Model da Samsung SAIT: ~7M parâmetros, scratchpad latente e ciclos de rascunho‑revisão, recursão intensa com poucas camadas.
  • Como um modelo tão pequeno bate Gemini e outros?
    Recursão cria profundidade sem muitas camadas; treino direcionado e dados aumentados aumentam eficiência por parâmetro; EMA e token‑mixer ajudam na estabilidade e no custo computacional.
  • Em quais benchmarks ele se destacou?
    ARC‑AGI‑1 ≈44.6–45%; ARC‑AGI‑2 ≈7.8–8%; Sudoku‑Extreme 87.4%; Maze‑Hard 85.3%.
  • Isso quer dizer que o TRM resolveu ARC‑AGI?
    Não. É um avanço arquitetural e prático, mas ARC‑AGI ainda não está resolvido; a meta privada de 85% permanece distante.
  • Onde encontro paper e código?
    Paper no arXiv (2510.04871v1); código no GitHub do grupo SAIT; e matéria de divulgação em https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/.

Se você quiser conhecer outros artigos semelhantes a Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio, você pode visitar a categoria Notícias e Tendências.

Go up