AgeMem unifica memória curta e longa em modelos de linguagem e ensina quando guardar ou esquecer
3 meses ago · Updated 3 meses ago

- Ouça este artigo
- AgeMem: como seu agente LLM aprende a decidir o que lembrar e o que apagar Neste artigo você vai descobrir como AgeMem faz seu agente decidir sozinho o que guardar na memória de longo prazo, o que manter na memória de curto prazo e o que apagar. A ideia é simples: as operações de memória viram ferramentas que o modelo pode chamar enquanto gera texto. O treinamento é progressivo e usa aprendizado por reforço para alinhar escolhas com resultados. Os testes mostram melhora de desempenho e memória mais fiel. Se você quer evitar regras manuais e controles externos, este texto é para você. Agente decide quando guardar, recuperar, resumir e esquecer Memória longa e curta são geridas pela mesma política sem controladores externos Operações de memória viram ferramentas no espaço de ação do modelo Treino em etapas com reforço ensina o agente a usar memória para raciocínio complexo Melhora desempenho e qualidade da memória e reduz o tamanho do contexto AgeMem: o que é e por que importa
- O que é AgeMem
- Como funciona na prática
- Treinamento e algoritmo
- Experimentos e principais resultados
- Contexto e implicações
- O que isso significa para você
- Conclusão
- Perguntas frequentes
Ouça este artigo
AgeMem: como seu agente LLM aprende a decidir o que lembrar e o que apagar
Neste artigo você vai descobrir como AgeMem faz seu agente decidir sozinho o que guardar na memória de longo prazo, o que manter na memória de curto prazo e o que apagar. A ideia é simples: as operações de memória viram ferramentas que o modelo pode chamar enquanto gera texto. O treinamento é progressivo e usa aprendizado por reforço para alinhar escolhas com resultados. Os testes mostram melhora de desempenho e memória mais fiel. Se você quer evitar regras manuais e controles externos, este texto é para você.
- Agente decide quando guardar, recuperar, resumir e esquecer
- Memória longa e curta são geridas pela mesma política sem controladores externos
- Operações de memória viram ferramentas no espaço de ação do modelo
- Treino em etapas com reforço ensina o agente a usar memória para raciocínio complexo
- Melhora desempenho e qualidade da memória e reduz o tamanho do contexto
AgeMem: o que é e por que importa
Se você desenvolve ou usa agentes baseados em modelos de linguagem, precisa saber: pesquisadores da Alibaba Group e da Universidade de Wuhan criaram o AgeMem, um sistema que permite ao agente escolher por si só quando armazenar, recuperar, resumir ou esquecer informações. Em vez de regras fixas ou controladores externos, a memória vira uma ação dentro do espaço de decisão do modelo. Testes mostraram ganhos claros em várias tarefas padronizadas. Essa ideia de reduzir o esquecimento e permitir aprendizado contínuo conecta-se com técnicas de aprendizado aninhado e estratégias para evitar que modelos "esqueçam" o que aprenderam ao longo do tempo, como descrito em discussões sobre aprendizagem aninhada para evitar esquecimento.
O que é AgeMem
- Integra memória de longo prazo (LTM) e memória de curto prazo (STM) ao mesmo conjunto de ações do agente.
- Em vez de gatilhos externos, o agente decide usar ferramentas de memória da mesma forma que gera texto.
- Isso reduz dependência de heurísticas e melhora adaptação em jornadas longas de raciocínio, cenário tratado por soluções que focam em memória persistente e indexação, como o uso de memória persistente em bancos SQL e artigos sobre mecanismos de memória de longa duração como Titans e MiRAs.
Como funciona na prática
A cada passo o agente pensa e então age: gera uma resposta ou chama uma ferramenta. Há seis ferramentas principais:
- ADD — guardar nova informação com metadados.
- UPDATE — editar entradas já armazenadas.
- DELETE — remover itens obsoletos.
- RETRIEVE — buscar semânticamente na memória de longo prazo.
- SUMMARY — comprimir trechos do diálogo em resumos.
- FILTER — remover partes do contexto que não ajudam no raciocínio futuro.
A interação segue um protocolo estruturado: primeiro um bloco de pensamento, depois um bloco de chamada de ferramenta ou de resposta ao usuário. Isso torna as ações de memória decisões explícitas. Implementar e treinar agentes que usam ferramentas de memória e várias ações é semelhante ao processo explicado em guias práticos sobre como construir agentes que planejam, lembram e usam ferramentas com aprendizado por reforço ponta a ponta. Para operações de FILTER e limpeza de contexto, técnicas que removem duplicatas semânticas e otimizam buscas vetoriais também são úteis, como em remover duplicatas semânticas.
Treinamento e algoritmo
O treinamento é feito em três etapas progressivas:
- Construção da memória de longo prazo — o agente aprende a adicionar, atualizar e apagar lembranças.
- Controle do contexto curto — foco em recuperar e condensar informação para manter o contexto eficiente.
- Raciocínio integrado — combina LTM e STM para resolver tarefas complexas.
Para lidar com recompensas esparsas, os autores usam uma versão passo a passo do Group Relative Policy Optimization (GRPO):
- Amostram-se vários trajetos por tarefa formando um grupo.
- A recompensa final de cada trajeto é normalizada dentro do grupo e propagada a todos os passos.
- A função de recompensa inclui três componentes igualmente ponderados e adiciona penalidade por ultrapassar limites de diálogo ou contexto.
O fluxo de treinamento em etapas e o uso de normalização de recompensas se alinham com práticas descritas em tutoriais sobre construção de agentes offline e pipelines de RL para múltiplas ferramentas, por exemplo em como criar um agente offline que planeja, recupera e usa várias ferramentas.
Experimentos e principais resultados
- Fine-tune feito sobre HotpotQA. Avaliação em 5 benchmarks: ALFWorld, SciWorld, BabyAI, tarefas PDDL e HotpotQA.
- Backbones testados: Qwen2.5-7B-Instruct e Qwen3-4B-Instruct.
- Métricas: taxa de sucesso, progresso em PDDL, pontuação de juiz LLM para HotpotQA e métrica de Qualidade de Memória (LLM compara memórias armazenadas com fatos de suporte).
Desempenho médio (5 benchmarks):
| Modelo base | AgeMem | Melhor baseline |
|---|---|---|
| Qwen2.5-7B-Instruct | 41.96 | 37.14 (Mem0) |
| Qwen3-4B-Instruct | 54.31 | 45.74 (A Mem) |
- Qualidade de Memória em HotpotQA: Qwen2.5-7B = 0.533; Qwen3-4B = 0.605 (valores acima das linhas de base).
- Economia de tokens: configurações com ferramentas de memória curta reduziram cerca de 3–5% do comprimento do prompt sem perda de desempenho. Técnicas práticas para reduzir custo e latência em pipelines RAG e caches semânticos ajudam a maximizar essa economia, como discutido em como reduzir custo e latência em aplicações RAG.
- Estudos de ablação mostram: adicionar apenas ferramentas de longo prazo já traz ganho; treino por reforço melhora ainda mais; sistema completo (LTM STM RL) alcançou até 21,7 pontos percentuais a mais que o agente sem memória em SciWorld.
Contexto e implicações
Agentes LLM são limitados pela janela de contexto. Tratar LTM e STM como sistemas separados exige regras manuais que nem sempre se adaptam. A abordagem dos pesquisadores sugere transformar operações de memória em ferramentas aprendidas pela mesma política que gera linguagem. Assim o agente aprende quando lembrar, esquecer e compactar informação ao longo de longos diálogos ou tarefas, ficando mais autônomo e eficiente.
Essas preocupações sobre janelas de contexto e arquiteturas para contextos muito longos aparecem em trabalhos e lançamentos recentes sobre modelos e arquiteturas que estendem o contexto, como em análises sobre modelos recursivos para contextos muito longos, além de lançamentos industriais que ampliam capacidade de contexto, por exemplo GPT-5.2 da OpenAI e avanços em arquiteturas especializadas como ReFrag.
Além disso, quando você projeta a infraestrutura do agente, vale considerar arquiteturas e gráficos de memória que suportem deliberação e ciclos de reflexão, tema abordado em guias sobre arquiteturas com LangGraph e grafos de memória e implementações multiagente com memória e grafos, como explicado em sistemas multiagente com memórias e grafos.
O que isso significa para você
- Se você projeta agentes, considere integrar ações de memória ao espaço de decisão em vez de controlar memória por fora — uma mudança de desenho discutida em tutoriais práticos sobre como criar agentes com memória procedural e módulos reutilizáveis.
- Treinar em etapas e usar normalização de recompensa ajuda com sinais esparsos — práticas semelhantes são cobertas em guias de treinamento e RL para agentes.
- Ferramentas de SUMMARY e FILTER reduzem custo de prompt e mantêm desempenho; em cenários RAG, compare abordagens e arquiteturas antes de decidir entre uma solução nativa de RAG ou um RAG orientado por agente, como discutido em RAG nativo vs RAG agente.
Conclusão
O AgeMem transforma a memória do agente em uma ação — não mais uma gaveta cheia de regras rígidas. Você obtém um agente que decide quando guardar, recuperar, resumir ou esquecer. O treino em etapas e o uso de reforço elevam desempenho, melhoram a qualidade da memória e tornam o contexto mais enxuto. Em suma: menos controles manuais; mais precisão e autonomia.
Quer continuar explorando? Leia mais no https://blog.aidirectory.com.br.
Perguntas frequentes
- Como o AgeMem decide o que guardar, manter no contexto e o que esquecer?
O agente usa as ferramentas ADD, UPDATE, DELETE, RETRIEVE, SUMMARY e FILTER como parte do espaço de saída. Essas ações foram aprendidas por reforço, não por regras fixas.
- Uma única política pode gerir memória curta e longa ao mesmo tempo?
Sim. A mesma política emite texto ou chama ferramentas, controlando LTM e STM numa única rotina.
- O que é o treino em três estágios e por que usam GRPO?
Estágio 1: construir memória longa. Estágio 2: controlar o contexto curto. Estágio 3: integrar para tarefas-alvo. GRPO normaliza recompensas por grupo e dá sinal aos passos intermediários, ajudando ações de memória quando a recompensa é rara.
- Quais ganhos práticos o AgeMem mostrou?
Melhor resultado em vários benchmarks (ex.: ~42 vs 37 com Qwen2.5; ~54 vs 46 com Qwen3), memória mais precisa em HotpotQA e redução de tokens no prompt com ferramentas de STM.
- O que muda no desenho de agentes LLM no futuro?
Memória vira ação aprendida, não módulo externo. Ferramentas explícitas permitem decidir lembrar ou esquecer, tornando agentes mais autônomos e eficientes.
Se você quiser conhecer outros artigos semelhantes a AgeMem unifica memória curta e longa em modelos de linguagem e ensina quando guardar ou esquecer, você pode visitar a categoria Notícias e Tendências.
