Do MIT ao Prime Intellect modelos de linguagem recursivos aumentam a capacidade da IA para lidar com contextos muito longos

4 meses ago

Aqui, você vai ver como os Modelos de Linguagem Recursivos (RLMs) mudam a forma de lidar com textos enormes. Em vez de forçar o modelo a ler tudo de uma vez, eles tratam o texto como um ambiente e deixam o modelo escrever código no REPL para fatiar, buscar e chamar submodelos menores. O texto apresenta o Blueprint do MIT e a implementação RLMEnv da Prime Intellect, mostra ganhos fortes em precisão e custo em tarefas muito longas e explica o que ainda precisa ser afinado para esses agentes de longo prazo.

RLMs deixam o modelo buscar e ler pedaços do texto em vez de ler tudo de uma vez

O modelo principal escreve código no REPL para dividir, filtrar e resumir o conteúdo

A abordagem aumenta muito a precisão em tarefas com contexto muito longo

RLMEnv da Prime Intellect separa ferramentas pesadas e delega trabalho a submodelos

A técnica ainda precisa de ajuste para reduzir custo, profundidade e execuções longas

Table

RLMs e RLMEnv: como modelos recursivos estendem o contexto dos LLMs
O que são os Recursive Language Models (RLMs)
Como funciona na prática
Resultados em benchmarks principais
Comportamento observado nas execuções
O que a Prime Intellect implementou: RLMEnv
Limitações atuais e próximos passos
Conclusão
Perguntas frequentes (resumo)

RLMs e RLMEnv: como modelos recursivos estendem o contexto dos LLMs

Pesquisadores e a equipe da Prime Intellect desenvolveram métodos que transformam o problema do contexto longo em um problema de programação. Resultados iniciais mostram ganhos relevantes em precisão e custo em tarefas que exigem leitura e raciocínio sobre grandes volumes de texto, alinhando-se às práticas de engenharia de contexto para modelos de linguagem.

O que são os Recursive Language Models (RLMs)

RLMs tratam o texto completo como um ambiente externo.

O modelo raiz não recebe toda a entrada em seu contexto; em vez disso, recebe instruções para inspecionar fatias do texto via REPL (geralmente Python).

O modelo escreve código que chama submodelos menores, realiza buscas e resume partes, combinando os resultados em uma resposta final — aproveitando avanços em arquiteturas compactas e de especialistas, como variantes Mixture-of-Experts (MoE) e modelos otimizados para contexto longo.

Assim, o tamanho do prompt deixa de depender diretamente da janela de contexto do modelo, uma ideia explorada em textos sobre tokenização e chunking.

Como funciona na prática

A entrada completa é guardada em uma variável no REPL.

O modelo raiz recebe um prompt de sistema que descreve como usar funções como string slicing, regex e llm_query.

Ele cria funções auxiliares, faz chamadas recursivas a submodelos e armazena saídas intermediárias em variáveis — um fluxo que lembra abordagens híbridas entre RAG tradicional e métodos agentic, discutidos em posts sobre agentic RAG.

No final, o sistema retorna texto normal, mantendo a interface igual a um endpoint de chat.

Resultados em benchmarks principais

A pesquisa avaliou quatro benchmarks projetados para testar recuperação e raciocínio em longo prazo. Resumo dos ganhos:

Benchmark	Tipo de tarefa	Desempenho base	Desempenho RLM
S-NIAH	Agulha no palheiro (constante)	Baixo	Muito melhor
BrowseComp-Plus	Perguntas multi-hop sobre até 1.000 doc.	Cai com mais docs	Mantém alta precisão (~91.33% com GPT-5)
OOLONG	Transformação linear e agregação	Moderado	Grande ganho
OOLONG Pairs	Agregação quadrática (pares)	Quase inútil em base	RLM alcança F1 alto (ex.: 58.00 para GPT-5)

Em Q&A sobre documentos longos (CodeQA), GPT-5 passou de ~24% (chamada direta) para 62% com RLM; outra variante sem recursão chegou a 66%.

Em tarefas quadráticas (OOLONG Pairs), ganhos foram dramáticos: modelos diretos tiveram F1 quase zero; RLM trouxe recuperação substancial.

No BrowseComp-Plus, RLM manteve desempenho com 1.000 documentos e custos por consulta competitivos (~$0.99 por consulta com GPT-5), com estratégias que podem ser combinadas com técnicas de cache semântico para reduzir latência e preço por chamada.

Comportamento observado nas execuções

Execuções típicas seguem passos repetidos:

Vislumbre inicial das primeiras milhares de caracteres.

Filtragem tipo grep com regex ou palavras-chave.

Partição do texto e chamadas recursivas para rotular/extrair — um processo que depende fortemente de boas estratégias de chunking.

Agregação programática dos resultados.

Para saídas longas, o sistema salva pedaços em variáveis e junta depois, evitando limites de saída do modelo.

O que a Prime Intellect implementou: RLMEnv

A empresa converteu a ideia em um ambiente prático chamado RLMEnv, integrado ao seu stack de verificação.

No projeto, o modelo raiz só tem acesso ao REPL; submodelos recebem ferramentas pesadas (busca web, acesso a arquivos).

O REPL oferece uma função llm_batch para disparar várias consultas em paralelo e uma variável answer onde o resultado final deve ser escrito.

Testes em quatro ambientes:

DeepDive: pesquisa web com páginas longas.

Math Python: problemas matemáticos complexos com REPL.

Oolong: benchmark de contexto longo adaptado.

Verbatim Copy: reprodução exata de strings complexas (JSON, CSV, código).

Modelos menores como GPT-5-mini e variantes MoE (ex.: INTELLECT-3-MoE) ganharam em taxa de sucesso e robustez a contextos muito grandes — resultados complementares a iniciativas de memória e agentes persistentes, como as descritas no post sobre memória persistente em SQL e em textos sobre como estender memória de agentes.

Limitações atuais e próximos passos

Implementações atuais ainda não estão otimizadas. Problemas relatados:

Chamadas síncronas que aumentam latência.

Profundidade de recursão limitada.

Distribuição de custo com caudas pesadas por trajetórias muito longas.

Pesquisadores indicam que treinar políticas via aprendizado por reforço e técnicas aninhadas pode reduzir custo e tornar o método mais eficiente — temas próximos aos artigos sobre aprendizagem aninhada e propostas de nested learning. Outras abordagens práticas para escalar e reduzir memória incluem técnicas de inferência distribuída e otimizações apresentadas em posts sobre escalabilidade com menos memória.

Se aperfeiçoado, o método pode permitir agentes que processem ambientes com milhões de tokens sem degradação rápida de contexto — uma evolução natural para arquiteturas que combinam chunking, memória persistente e políticas de decisão para chunking/recursão.

Conclusão

Os RLMs transformam textos enormes em um ambiente programável: o modelo escreve código no REPL, fatiando o conteúdo e delegando tarefas a submodelos. Os ganhos são palpáveis — maior precisão, redução de custo em tarefas de contexto muito longo e robustez comprovada em benchmarks difíceis. A implementação RLMEnv da Prime Intellect mostra que a teoria funciona na prática, embora ainda seja necessário otimizar latência, profundidade de recursão e trajetórias de custo.

Se bem afinado, esse método pode permitir agentes que processem milhões de tokens sem se perder — como um alfaiate que corta e costura o tecido do texto, peça por peça, até encaixar a resposta perfeita.

Quer se aprofundar? Leia mais em https://blog.aidirectory.com.br.

Perguntas frequentes (resumo)

O que são modelos de linguagem recursivos (RLMs)?
RLMs tratam textos grandes como um ambiente externo; o modelo raiz escreve código no REPL para fatiar, buscar e resumir pedaços, chamando submodelos e agregando respostas — uma técnica que complementa práticas de tokenização e chunking.

Como o REPL permite ler contextos muito longos?
O REPL guarda todo o input numa variável; o modelo principal inspeciona partes usando slice, regex e queries a submodelos, sem precisar carregar tudo no contexto — um padrão discutido em materiais sobre engenharia de contexto.

Os RLMs realmente melhoram precisão e custo?
Sim. Estudos mostram ganhos grandes em tarefas longas; em alguns benchmarks, RLMs dobraram ou mais a acurácia versus chamadas diretas e reduziram custos em cenários de muitos documentos. Técnicas de redução de custo, como cache semântico e paralelismo controlado, ajudam a manter latência e preço razoáveis.

O que a Prime Intellect fez com o RLMEnv?
Criou um REPL padrão, moveu ferramentas pesadas para submodelos, adicionou llm_batch para paralelismo e uma variável answer para isolar saídas grandes — um fluxo que pode se integrar a pipelines de RAG e agentes descritos em posts sobre RAG nativo vs RAG agente.

Quais são limitações e próximos passos?
Limitações atuais incluem latência por chamadas síncronas, limites de recursão e caudas de custo; próximo passo é treinar políticas (via RL) para otimizar chunking, recursão e uso de ferramentas, aproveitando ideias de aprendizagem aninhada e modelos com memória persistente.

Se você quiser conhecer outros artigos semelhantes a Do MIT ao Prime Intellect modelos de linguagem recursivos aumentam a capacidade da IA para lidar com contextos muito longos, você pode visitar a categoria Notícias e Tendências.