AgeMem unifica memória curta e longa em modelos de linguagem e ensina quando guardar ou esquecer

3 meses ago · Updated 3 meses ago

agemem-unifica-memoria-curta-e-longa-em-modelos-de-linguagem-e-ensina-quando-guardar-ou-esquecer

Table

Ouça este artigo
AgeMem: como seu agente LLM aprende a decidir o que lembrar e o que apagar Neste artigo você vai descobrir como AgeMem faz seu agente decidir sozinho o que guardar na memória de longo prazo, o que manter na memória de curto prazo e o que apagar. A ideia é simples: as operações de memória viram ferramentas que o modelo pode chamar enquanto gera texto. O treinamento é progressivo e usa aprendizado por reforço para alinhar escolhas com resultados. Os testes mostram melhora de desempenho e memória mais fiel. Se você quer evitar regras manuais e controles externos, este texto é para você. Agente decide quando guardar, recuperar, resumir e esquecer Memória longa e curta são geridas pela mesma política sem controladores externos Operações de memória viram ferramentas no espaço de ação do modelo Treino em etapas com reforço ensina o agente a usar memória para raciocínio complexo Melhora desempenho e qualidade da memória e reduz o tamanho do contexto AgeMem: o que é e por que importa
O que é AgeMem
Como funciona na prática
Treinamento e algoritmo
Experimentos e principais resultados
Contexto e implicações
O que isso significa para você
Conclusão
Perguntas frequentes

Ouça este artigo

AgeMem: como seu agente LLM aprende a decidir o que lembrar e o que apagar

Neste artigo você vai descobrir como AgeMem faz seu agente decidir sozinho o que guardar na memória de longo prazo, o que manter na memória de curto prazo e o que apagar. A ideia é simples: as operações de memória viram ferramentas que o modelo pode chamar enquanto gera texto. O treinamento é progressivo e usa aprendizado por reforço para alinhar escolhas com resultados. Os testes mostram melhora de desempenho e memória mais fiel. Se você quer evitar regras manuais e controles externos, este texto é para você.

Agente decide quando guardar, recuperar, resumir e esquecer

Memória longa e curta são geridas pela mesma política sem controladores externos

Operações de memória viram ferramentas no espaço de ação do modelo

Treino em etapas com reforço ensina o agente a usar memória para raciocínio complexo

Melhora desempenho e qualidade da memória e reduz o tamanho do contexto

AgeMem: o que é e por que importa

Se você desenvolve ou usa agentes baseados em modelos de linguagem, precisa saber: pesquisadores da Alibaba Group e da Universidade de Wuhan criaram o AgeMem, um sistema que permite ao agente escolher por si só quando armazenar, recuperar, resumir ou esquecer informações. Em vez de regras fixas ou controladores externos, a memória vira uma ação dentro do espaço de decisão do modelo. Testes mostraram ganhos claros em várias tarefas padronizadas. Essa ideia de reduzir o esquecimento e permitir aprendizado contínuo conecta-se com técnicas de aprendizado aninhado e estratégias para evitar que modelos "esqueçam" o que aprenderam ao longo do tempo, como descrito em discussões sobre aprendizagem aninhada para evitar esquecimento.

O que é AgeMem

Integra memória de longo prazo (LTM) e memória de curto prazo (STM) ao mesmo conjunto de ações do agente.

Em vez de gatilhos externos, o agente decide usar ferramentas de memória da mesma forma que gera texto.

Isso reduz dependência de heurísticas e melhora adaptação em jornadas longas de raciocínio, cenário tratado por soluções que focam em memória persistente e indexação, como o uso de memória persistente em bancos SQL e artigos sobre mecanismos de memória de longa duração como Titans e MiRAs.

Como funciona na prática

A cada passo o agente pensa e então age: gera uma resposta ou chama uma ferramenta. Há seis ferramentas principais:

ADD — guardar nova informação com metadados.

UPDATE — editar entradas já armazenadas.

DELETE — remover itens obsoletos.

RETRIEVE — buscar semânticamente na memória de longo prazo.

SUMMARY — comprimir trechos do diálogo em resumos.

FILTER — remover partes do contexto que não ajudam no raciocínio futuro.

A interação segue um protocolo estruturado: primeiro um bloco de pensamento, depois um bloco de chamada de ferramenta ou de resposta ao usuário. Isso torna as ações de memória decisões explícitas. Implementar e treinar agentes que usam ferramentas de memória e várias ações é semelhante ao processo explicado em guias práticos sobre como construir agentes que planejam, lembram e usam ferramentas com aprendizado por reforço ponta a ponta. Para operações de FILTER e limpeza de contexto, técnicas que removem duplicatas semânticas e otimizam buscas vetoriais também são úteis, como em remover duplicatas semânticas.

Treinamento e algoritmo

O treinamento é feito em três etapas progressivas:

Construção da memória de longo prazo — o agente aprende a adicionar, atualizar e apagar lembranças.

Controle do contexto curto — foco em recuperar e condensar informação para manter o contexto eficiente.

Raciocínio integrado — combina LTM e STM para resolver tarefas complexas.

Para lidar com recompensas esparsas, os autores usam uma versão passo a passo do Group Relative Policy Optimization (GRPO):

Amostram-se vários trajetos por tarefa formando um grupo.

A recompensa final de cada trajeto é normalizada dentro do grupo e propagada a todos os passos.

A função de recompensa inclui três componentes igualmente ponderados e adiciona penalidade por ultrapassar limites de diálogo ou contexto.

O fluxo de treinamento em etapas e o uso de normalização de recompensas se alinham com práticas descritas em tutoriais sobre construção de agentes offline e pipelines de RL para múltiplas ferramentas, por exemplo em como criar um agente offline que planeja, recupera e usa várias ferramentas.

Experimentos e principais resultados

Fine-tune feito sobre HotpotQA. Avaliação em 5 benchmarks: ALFWorld, SciWorld, BabyAI, tarefas PDDL e HotpotQA.

Backbones testados: Qwen2.5-7B-Instruct e Qwen3-4B-Instruct.

Métricas: taxa de sucesso, progresso em PDDL, pontuação de juiz LLM para HotpotQA e métrica de Qualidade de Memória (LLM compara memórias armazenadas com fatos de suporte).

Desempenho médio (5 benchmarks):

Modelo base	AgeMem	Melhor baseline
Qwen2.5-7B-Instruct	41.96	37.14 (Mem0)
Qwen3-4B-Instruct	54.31	45.74 (A Mem)

Qualidade de Memória em HotpotQA: Qwen2.5-7B = 0.533; Qwen3-4B = 0.605 (valores acima das linhas de base).

Economia de tokens: configurações com ferramentas de memória curta reduziram cerca de 3–5% do comprimento do prompt sem perda de desempenho. Técnicas práticas para reduzir custo e latência em pipelines RAG e caches semânticos ajudam a maximizar essa economia, como discutido em como reduzir custo e latência em aplicações RAG.

Estudos de ablação mostram: adicionar apenas ferramentas de longo prazo já traz ganho; treino por reforço melhora ainda mais; sistema completo (LTM STM RL) alcançou até 21,7 pontos percentuais a mais que o agente sem memória em SciWorld.

Contexto e implicações

Agentes LLM são limitados pela janela de contexto. Tratar LTM e STM como sistemas separados exige regras manuais que nem sempre se adaptam. A abordagem dos pesquisadores sugere transformar operações de memória em ferramentas aprendidas pela mesma política que gera linguagem. Assim o agente aprende quando lembrar, esquecer e compactar informação ao longo de longos diálogos ou tarefas, ficando mais autônomo e eficiente.

Essas preocupações sobre janelas de contexto e arquiteturas para contextos muito longos aparecem em trabalhos e lançamentos recentes sobre modelos e arquiteturas que estendem o contexto, como em análises sobre modelos recursivos para contextos muito longos, além de lançamentos industriais que ampliam capacidade de contexto, por exemplo GPT-5.2 da OpenAI e avanços em arquiteturas especializadas como ReFrag.

Além disso, quando você projeta a infraestrutura do agente, vale considerar arquiteturas e gráficos de memória que suportem deliberação e ciclos de reflexão, tema abordado em guias sobre arquiteturas com LangGraph e grafos de memória e implementações multiagente com memória e grafos, como explicado em sistemas multiagente com memórias e grafos.

O que isso significa para você

Se você projeta agentes, considere integrar ações de memória ao espaço de decisão em vez de controlar memória por fora — uma mudança de desenho discutida em tutoriais práticos sobre como criar agentes com memória procedural e módulos reutilizáveis.

Treinar em etapas e usar normalização de recompensa ajuda com sinais esparsos — práticas semelhantes são cobertas em guias de treinamento e RL para agentes.

Ferramentas de SUMMARY e FILTER reduzem custo de prompt e mantêm desempenho; em cenários RAG, compare abordagens e arquiteturas antes de decidir entre uma solução nativa de RAG ou um RAG orientado por agente, como discutido em RAG nativo vs RAG agente.

Conclusão

O AgeMem transforma a memória do agente em uma ação — não mais uma gaveta cheia de regras rígidas. Você obtém um agente que decide quando guardar, recuperar, resumir ou esquecer. O treino em etapas e o uso de reforço elevam desempenho, melhoram a qualidade da memória e tornam o contexto mais enxuto. Em suma: menos controles manuais; mais precisão e autonomia.

Quer continuar explorando? Leia mais no https://blog.aidirectory.com.br.

Perguntas frequentes

Como o AgeMem decide o que guardar, manter no contexto e o que esquecer?
O agente usa as ferramentas ADD, UPDATE, DELETE, RETRIEVE, SUMMARY e FILTER como parte do espaço de saída. Essas ações foram aprendidas por reforço, não por regras fixas.

Uma única política pode gerir memória curta e longa ao mesmo tempo?
Sim. A mesma política emite texto ou chama ferramentas, controlando LTM e STM numa única rotina.

O que é o treino em três estágios e por que usam GRPO?
Estágio 1: construir memória longa. Estágio 2: controlar o contexto curto. Estágio 3: integrar para tarefas-alvo. GRPO normaliza recompensas por grupo e dá sinal aos passos intermediários, ajudando ações de memória quando a recompensa é rara.

Quais ganhos práticos o AgeMem mostrou?
Melhor resultado em vários benchmarks (ex.: ~42 vs 37 com Qwen2.5; ~54 vs 46 com Qwen3), memória mais precisa em HotpotQA e redução de tokens no prompt com ferramentas de STM.

O que muda no desenho de agentes LLM no futuro?
Memória vira ação aprendida, não módulo externo. Ferramentas explícitas permitem decidir lembrar ou esquecer, tornando agentes mais autônomos e eficientes.

Se você quiser conhecer outros artigos semelhantes a AgeMem unifica memória curta e longa em modelos de linguagem e ensina quando guardar ou esquecer, você pode visitar a categoria Notícias e Tendências.