Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio
7 meses ago · Updated 7 meses ago

Ouça este artigo
Você vai ler sobre o TRM, um modelo minúsculo que virou conversa em raciocínio automático. É uma rede recursiva e leve que revisa rascunhos num scratchpad latente e surpreendeu ao superar modelos muito maiores em avaliações públicas de ARC‑AGI e em puzzles como Sudoku e labirinto. Os autores liberaram o código e mostram que eficiência arquitetural pode vencer escala bruta. Leia para entender o que há de novo, como chegaram aos resultados e por que isso importa.
Resumo rápido
- Modelo TRM muito pequeno vence modelos maiores em testes ARC públicos.
- Usa ciclos rascunho–revisão sobre um scratchpad latente para atualizar soluções.
- Substitui hierarquias complexas por uma única rede que recursa sobre o rascunho.
- Cria profundidade por recursão e usa média móvel exponencial (EMA) para treino estável — uma abordagem alinhada com estudos sobre eficiência de dados e rotulagem de alta fidelidade.
- Mostra ganho de eficiência arquitetural, sem pretender resolver ARC‑AGI por completo.
TRM: um modelo de 7M que supera LLMs maiores em testes ARC‑AGI
Você está vendo um resultado inesperado: a equipe da Samsung SAIT (Montreal) apresenta o Tiny Recursive Model (TRM) — um raciocinador recursivo de ≈7 milhões de parâmetros — que reporta ≈45% em ARC‑AGI‑1 e ≈8% em ARC‑AGI‑2 em avaliações públicas. Esses números superam relatórios públicos de modelos substancialmente maiores (DeepSeek‑R1, Gemini 2.5 Pro, o3‑mini‑high) nas mesmas avaliações. Para comparação técnica sobre a família Gemini e suas variantes, veja a análise sobre as diferenças entre Gemini 2.5 Pro e Flash, bem como a informação sobre a disponibilidade do Gemini na Play Store. O trabalho também melhora benchmarks de quebra‑cabeça (Sudoku‑Extreme, Maze‑Hard) usando uma arquitetura mais simples e focada.
Principais fatos
- Modelo: TRM, recursivo, duas camadas, ≈7M parâmetros.
- Desempenho: ≈44.6–45% em ARC‑AGI‑1; ≈7.8–8% em ARC‑AGI‑2.
- Outros ganhos: Sudoku‑Extreme 87.4%, Maze‑Hard 85.3% (vs HRM de 27M).
- Disponibilidade: código e detalhes técnicos publicados em repositório público; procedimentos de reprodução e pipelines similares estão descritos em textos como construindo uma pipeline de pesquisa.
O que é o TRM e como difere
O TRM não é um grande transformador empilhado. Funciona como um pequeno motor que repete ciclos de rascunho e revisão sobre uma memória latente:
- Um único módulo pequeno recursa sobre um scratchpad latente (z) e uma representação de solução (y).
- Recursão gera profundidade efetiva (muitos passos de atualização) em vez de muitas camadas empilhadas.
- Para problemas com estrutura fixa (p. ex. Sudoku) o time substitui atenção por um token‑mixer estilo MLP‑Mixer; essa troca por arquiteturas mais simples e econômicas é análoga a abordagens que reduzem custo e tokens, como discutido na peça sobre a Gemini Flash Lite.
- Usa EMA nos pesos para estabilizar treino em dados limitados.
Detalhes técnicos essenciais
- Ciclos rascunho–revisão repetidos (até 16 ciclos relatados).
- Cada ciclo realiza várias atualizações latentes (~6 atualizações por ciclo).
- Treinamento do zero em conjuntos pequenos e altamente aumentados; isso se relaciona com pesquisas sobre redução massiva de dados e rotulagem eficiente em cenários com dados limitados (rotulagem de alta fidelidade).
- Não é few‑shot prompting; são modelos de predição direta.
Por que um modelo tão pequeno pode superar modelos maiores?
- A arquitetura recursiva oferece profundidade computacional sem inflar o número de parâmetros.
- Treino focalizado com dados aumentados melhora a eficiência por parâmetro.
- O ganho é de eficiência arquitetural e de treino; não é prova de que o raciocínio geral foi resolvido. Abordagens que testam capacidades de raciocínio de forma ampla, como o método REST, ajudam a contextualizar esse tipo de progresso (métodos de avaliação de raciocínio).
Contexto maior e limites
- ARC‑AGI segue como alvo aberto: a meta pública do ARC‑AGI‑2 é 85% em um conjunto privado — bem acima do que TRM alcança.
- O avanço demonstra que designs enxutos e recursivos são promissores para benchmarks específicos, mas não resolvem o raciocínio geral.
- Resultados citados são das avaliações públicas, em conformidade com regras e métricas da comunidade ARC. Para entendimentos mais amplos sobre sistemas de avaliação e painéis visuais, veja também o texto sobre o novo sistema de avaliação de agentes de IA.
Comparação rápida (dados relatados)
- TRM: ~7M — ARC‑AGI‑1 ≈44.6–45% — ARC‑AGI‑2 ≈7.8–8% — Recursivo, código público.
- HRM: 27M — TRM melhorou em puzzles (Sudoku, Maze).
- DeepSeek‑R1 / Gemini 2.5 Pro / o3‑mini‑high: muito maiores — desempenho público menor que TRM nas mesmas avaliações públicas (segundo relatórios).
O que isso implica
- Projetos pequenos e recursivos podem competir em benchmarks específicos.
- Não significa que modelos pequenos resolvem raciocínio geral. ARC‑AGI continua distante da meta de 85%.
- Pesquisadores podem explorar recursão, memória latente e designs enxutos para eficiência; técnicas complementares como cascatas especulativas também exploram reduzir custo e latência em inferência.
Como acessar o trabalho
- Paper no arXiv e código no GitHub; procure por Tiny Recursive Model TRM (Samsung SAIT).
- Artigo de divulgação e análise adicional podem ser encontrados em: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/
- Repositório e material suplementar indicados pelo time estão no GitHub; para orientações sobre montar pipelines de pesquisa e reprodução, veja construindo uma pipeline de pesquisa.
Conclusão
O TRM prova que tamanho não é tudo: um modelo de ≈7M parâmetros usando recursão, scratchpad latente e ciclos de rascunho–revisão obteve ganhos reais em benchmarks como ARC‑AGI e puzzles difíceis. É um avanço de eficiência arquitetural, não a solução final do desafio ARC‑AGI. Explore recursão, memória latente e designs enxutos; replique o código público e adapte as ideias para suas tarefas.
Leitura e referências
- Divulgação técnica e análise: https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/
- Métodos de avaliação de raciocínio e benchmarks: REST — novo método para testar raciocínio.
- Textos sobre eficiência de dados e rotulagem: redução de dados de treinamento e rotulagem.
- Para mais artigos e guias práticos sobre IA: visite a seção de publicações do blog, por exemplo novos sistemas de avaliação e comparativos entre modelos.
Perguntas frequentes (resumido)
- O que é o TRM de 7 milhões?
O Tiny Recursive Model da Samsung SAIT: ~7M parâmetros, scratchpad latente e ciclos de rascunho‑revisão, recursão intensa com poucas camadas.
- Como um modelo tão pequeno bate Gemini e outros?
Recursão cria profundidade sem muitas camadas; treino direcionado e dados aumentados aumentam eficiência por parâmetro; EMA e token‑mixer ajudam na estabilidade e no custo computacional.
- Em quais benchmarks ele se destacou?
ARC‑AGI‑1 ≈44.6–45%; ARC‑AGI‑2 ≈7.8–8%; Sudoku‑Extreme 87.4%; Maze‑Hard 85.3%.
- Isso quer dizer que o TRM resolveu ARC‑AGI?
Não. É um avanço arquitetural e prático, mas ARC‑AGI ainda não está resolvido; a meta privada de 85% permanece distante.
- Onde encontro paper e código?
Paper no arXiv (2510.04871v1); código no GitHub do grupo SAIT; e matéria de divulgação em https://www.marktechpost.com/2025/10/09/tiny-recursive-model-trm-a-tiny-7m-model-that-surpass-deepseek-r1-gemini-2-5-pro-and-o3-mini-at-reasoning-on-both-arg-agi-1-and-arc-agi-2/.
Se você quiser conhecer outros artigos semelhantes a Você vai se surpreender com TRM de sete milhões que derrota Gemini e outros em raciocínio, você pode visitar a categoria Notícias e Tendências.
