Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio

7 meses ago · Updated 7 meses ago

voce-vai-se-surpreender-com-trm-de-sete-milhoes-que-derrota-gemini-e-outros-em-raciocinio

Ouça este artigo

Você vai ler sobre o TRM, um modelo minúsculo que virou conversa em raciocínio automático. É uma rede recursiva e leve que revisa rascunhos num scratchpad latente e surpreendeu ao superar modelos muito maiores em avaliações públicas de ARC‑AGI e em puzzles como Sudoku e labirinto. Os autores liberaram o código e mostram que eficiência arquitetural pode vencer escala bruta. Leia para entender o que há de novo, como chegaram aos resultados e por que isso importa.

Resumo rápido

Modelo TRM muito pequeno vence modelos maiores em testes ARC públicos.

Usa ciclos rascunho–revisão sobre um scratchpad latente para atualizar soluções.

Substitui hierarquias complexas por uma única rede que recursa sobre o rascunho.

Cria profundidade por recursão e usa média móvel exponencial (EMA) para treino estável — uma abordagem alinhada com estudos sobre eficiência de dados e rotulagem de alta fidelidade.

Mostra ganho de eficiência arquitetural, sem pretender resolver ARC‑AGI por completo.

TRM: um modelo de 7M que supera LLMs maiores em testes ARC‑AGI
Você está vendo um resultado inesperado: a equipe da Samsung SAIT (Montreal) apresenta o Tiny Recursive Model (TRM) — um raciocinador recursivo de ≈7 milhões de parâmetros — que reporta ≈45% em ARC‑AGI‑1 e ≈8% em ARC‑AGI‑2 em avaliações públicas. Esses números superam relatórios públicos de modelos substancialmente maiores (DeepSeek‑R1, Gemini 2.5 Pro, o3‑mini‑high) nas mesmas avaliações. Para comparação técnica sobre a família Gemini e suas variantes, veja a análise sobre as diferenças entre Gemini 2.5 Pro e Flash, bem como a informação sobre a disponibilidade do Gemini na Play Store. O trabalho também melhora benchmarks de quebra‑cabeça (Sudoku‑Extreme, Maze‑Hard) usando uma arquitetura mais simples e focada.

Principais fatos

Modelo: TRM, recursivo, duas camadas, ≈7M parâmetros.

Desempenho: ≈44.6–45% em ARC‑AGI‑1; ≈7.8–8% em ARC‑AGI‑2.

Outros ganhos: Sudoku‑Extreme 87.4%, Maze‑Hard 85.3% (vs HRM de 27M).

Disponibilidade: código e detalhes técnicos publicados em repositório público; procedimentos de reprodução e pipelines similares estão descritos em textos como construindo uma pipeline de pesquisa.

O que é o TRM e como difere
O TRM não é um grande transformador empilhado. Funciona como um pequeno motor que repete ciclos de rascunho e revisão sobre uma memória latente:

Um único módulo pequeno recursa sobre um scratchpad latente (z) e uma representação de solução (y).

Recursão gera profundidade efetiva (muitos passos de atualização) em vez de muitas camadas empilhadas.

Para problemas com estrutura fixa (p. ex. Sudoku) o time substitui atenção por um token‑mixer estilo MLP‑Mixer; essa troca por arquiteturas mais simples e econômicas é análoga a abordagens que reduzem custo e tokens, como discutido na peça sobre a Gemini Flash Lite.

Usa EMA nos pesos para estabilizar treino em dados limitados.

Detalhes técnicos essenciais

Ciclos rascunho–revisão repetidos (até 16 ciclos relatados).

Cada ciclo realiza várias atualizações latentes (~6 atualizações por ciclo).

Treinamento do zero em conjuntos pequenos e altamente aumentados; isso se relaciona com pesquisas sobre redução massiva de dados e rotulagem eficiente em cenários com dados limitados (rotulagem de alta fidelidade).

Não é few‑shot prompting; são modelos de predição direta.

Por que um modelo tão pequeno pode superar modelos maiores?

A arquitetura recursiva oferece profundidade computacional sem inflar o número de parâmetros.

Treino focalizado com dados aumentados melhora a eficiência por parâmetro.

O ganho é de eficiência arquitetural e de treino; não é prova de que o raciocínio geral foi resolvido. Abordagens que testam capacidades de raciocínio de forma ampla, como o método REST, ajudam a contextualizar esse tipo de progresso (métodos de avaliação de raciocínio).

Contexto maior e limites

ARC‑AGI segue como alvo aberto: a meta pública do ARC‑AGI‑2 é 85% em um conjunto privado — bem acima do que TRM alcança.

O avanço demonstra que designs enxutos e recursivos são promissores para benchmarks específicos, mas não resolvem o raciocínio geral.

Resultados citados são das avaliações públicas, em conformidade com regras e métricas da comunidade ARC. Para entendimentos mais amplos sobre sistemas de avaliação e painéis visuais, veja também o texto sobre o novo sistema de avaliação de agentes de IA.

Comparação rápida (dados relatados)

TRM: ~7M — ARC‑AGI‑1 ≈44.6–45% — ARC‑AGI‑2 ≈7.8–8% — Recursivo, código público.

HRM: 27M — TRM melhorou em puzzles (Sudoku, Maze).

DeepSeek‑R1 / Gemini 2.5 Pro / o3‑mini‑high: muito maiores — desempenho público menor que TRM nas mesmas avaliações públicas (segundo relatórios).

O que isso implica

Projetos pequenos e recursivos podem competir em benchmarks específicos.

Não significa que modelos pequenos resolvem raciocínio geral. ARC‑AGI continua distante da meta de 85%.

Pesquisadores podem explorar recursão, memória latente e designs enxutos para eficiência; técnicas complementares como cascatas especulativas também exploram reduzir custo e latência em inferência.

Como acessar o trabalho

Paper no arXiv e código no GitHub; procure por Tiny Recursive Model TRM (Samsung SAIT).

Artigo de divulgação e análise adicional podem ser encontrados em: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/

Repositório e material suplementar indicados pelo time estão no GitHub; para orientações sobre montar pipelines de pesquisa e reprodução, veja construindo uma pipeline de pesquisa.

Conclusão
O TRM prova que tamanho não é tudo: um modelo de ≈7M parâmetros usando recursão, scratchpad latente e ciclos de rascunho–revisão obteve ganhos reais em benchmarks como ARC‑AGI e puzzles difíceis. É um avanço de eficiência arquitetural, não a solução final do desafio ARC‑AGI. Explore recursão, memória latente e designs enxutos; replique o código público e adapte as ideias para suas tarefas.

Leitura e referências

Divulgação técnica e análise: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/

Métodos de avaliação de raciocínio e benchmarks: REST — novo método para testar raciocínio.

Textos sobre eficiência de dados e rotulagem: redução de dados de treinamento e rotulagem.

Para mais artigos e guias práticos sobre IA: visite a seção de publicações do blog, por exemplo novos sistemas de avaliação e comparativos entre modelos.

Perguntas frequentes (resumido)

O que é o TRM de 7 milhões?
O Tiny Recursive Model da Samsung SAIT: ~7M parâmetros, scratchpad latente e ciclos de rascunho‑revisão, recursão intensa com poucas camadas.

Como um modelo tão pequeno bate Gemini e outros?
Recursão cria profundidade sem muitas camadas; treino direcionado e dados aumentados aumentam eficiência por parâmetro; EMA e token‑mixer ajudam na estabilidade e no custo computacional.

Em quais benchmarks ele se destacou?
ARC‑AGI‑1 ≈44.6–45%; ARC‑AGI‑2 ≈7.8–8%; Sudoku‑Extreme 87.4%; Maze‑Hard 85.3%.

Isso quer dizer que o TRM resolveu ARC‑AGI?
Não. É um avanço arquitetural e prático, mas ARC‑AGI ainda não está resolvido; a meta privada de 85% permanece distante.

Onde encontro paper e código?
Paper no arXiv (2510.04871v1); código no GitHub do grupo SAIT; e matéria de divulgação em https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/.

Se você quiser conhecer outros artigos semelhantes a Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio, você pode visitar a categoria Notícias e Tendências.