DeepAgent promete que você terá um agente de IA que pensa, encontra ferramentas e age sozinho

6 meses ago · Updated 6 meses ago

deepagent-promete-que-voce-tera-um-agente-de-ia-que-pensa-encontra-ferramentas-e-age-sozinho
Table
  1. Ouça este artigo
  2. DeepAgent: o que isso muda para você ao usar agentes de IA
  3. Principais pontos que você deve guardar
  4. Como o sistema funciona, em linhas simples
  5. Resultados nos benchmarks (modelo 32B RL com backbone QwQ 32B)
  6. O que os dados significam para você
  7. Aspectos técnicos e escolhas de engenharia
  8. Conclusão — o que muda para o seu uso de agentes LLM
  9. Perguntas Frequentes

Ouça este artigo


Você vai conhecer o DeepAgent, um agente de IA que une raciocínio e ação no mesmo processo. Ele faz busca de ferramentas sob demanda em grandes catálogos, transforma longos históricos em memórias compactas com dobrar memória para seguir tarefas longas e aprende quando buscar e quando chamar ferramentas com a técnica ToolPO. O artigo original descreve por que isso torna agentes mais flexíveis e práticos no mundo real — veja o paper em https://www.marktechpost.com/2025/11/01/deepagent-a-deep-reasoning-ai-agent-that-performs-autonomous-thinking-tool-discovery-and-action-execution-within-a-single-reasoning-process/ para detalhes completos. Se quiser ver aplicações práticas similares, confira também como agentes podem transformar produtividade.

  • Agente unificado que pensa, busca ferramentas, chama ferramentas e gerencia memória
  • Busca ferramentas de forma dinâmica em grandes catálogos sem depender de lista fixa
  • Compacta longos históricos em memórias episódica, de trabalho e de ferramentas para manter contexto
  • Treina com APIs simuladas e otimiza chamadas de ferramenta via reforço para decidir quando agir
  • Entrega melhorias estáveis em vários testes e em tarefas longas e com ruído

DeepAgent: o que isso muda para você ao usar agentes de IA

Pesquisadores da Universidade Renmin da China e da Xiaohongshu apresentam o DeepAgent, um agente de raciocínio profundo que integra pensamento, descoberta de ferramentas, chamada de ferramentas e gestão de memória dentro de um único processo. O objetivo é reduzir a dependência de listas fixas de ferramentas e lidar com ambientes reais onde o catálogo muda (leia mais em https://www.marktechpost.com/2025/11/01/deepagent-a-deep-reasoning-ai-agent-that-performs-autonomous-thinking-tool-discovery-and-action-execution-within-a-single-reasoning-process/). Para quem desenvolve agentes que precisam coordenar múltiplos serviços em tempo real, vale ver práticas de integração e orquestração, como as descritas em MCP e integração em tempo real.

Principais pontos que você deve guardar

  • O DeepAgent emite quatro tipos de ação em texto: pensamento interno, busca de ferramenta, chamada de ferramenta e dobrar memória.
  • Ferramentas são buscadas dinamicamente em um índice denso com dezenas de milhares de entradas (mais de 16.000 da RapidAPI e 3.912 da ToolHop). Se você está interessado em abordagens de busca e recuperação para agentes, veja discussões sobre agentes de pesquisa profunda.
  • Para controlar históricos longos, o agente comprime o passado em três memórias: Episódica, de Trabalho e de Ferramentas; esse tipo de memória estruturada tem similaridades com técnicas de memória persistente exploradas por outras soluções, como memória persistente em SQL.
  • A equipe propõe ToolPO (Tool Policy Optimization), um método de aprendizado por reforço que usa APIs simuladas por LLM para treinar decisões de uso de ferramentas. Para entender outras abordagens de RL aplicadas a agentes, consulte iniciativas sobre treinamento por reforço para agentes.
  • Em testes, o agente mostrou ganhos consistentes em modelos de 32B parâmetros em cenários com ferramentas rotuladas e em cenário aberto.

Como o sistema funciona, em linhas simples

  • O modelo decide internamente e, quando necessário, emite a ação de buscar ferramentas.
  • A busca usa um índice denso e devolve só as ferramentas mais relevantes, evitando depender de uma lista inicial — um padrão cada vez mais comum em arquiteturas de agentes que dependem de recuperação semântica (recuperação densa para agentes).
  • Quando o histórico cresce, o agente emite o token de dobrar memória. Uma LLM auxiliar cria três entradas compactas e estruturadas:
  • Memória Episódica: eventos do seu trabalho.
  • Memória de Trabalho: subobjetivo atual e problemas recentes.
  • Memória de Ferramentas: nomes, parâmetros e resultados de chamadas.
  • O ToolPO treina o agente com simulações de API. A recompensa é atribuída diretamente aos tokens que representam chamadas de ferramenta, o que reforça decisões corretas de busca, chamada e dobra de memória. Para fluxos de desenvolvimento e testes que simulam APIs e estressam decisões de chamada, existem ferramentas e frameworks que permitem validar agentes em ambientes controlados, como a plataforma de testes aberta mencionada em Rogue, da Qualifire.

Resultados nos benchmarks (modelo 32B RL com backbone QwQ 32B)

Cenários com ferramentas rotuladas:

Cenário Conjunto DeepAgent (32B RL)
Ferramentas rotuladas ToolBench 69.0
API Bank 75.3
TMDB 89.0
Spotify 75.4
ToolHop 51.3

Cenário aberto (retrieval chamada):

Cenário DeepAgent (32B RL) Melhores baselines workflow
ToolBench 64.0 55.0
ToolHop 40.6 36.2

Em tarefas downstream com o mesmo modelo 32B, os resultados incluíram: ALFWorld 91.8% de sucesso, WebShop 34.4% de sucesso (pontuação 56.3), GAIA 53.3, e desempenho superior em HLE comparado a agentes workflow.

O que os dados significam para você

  • Se você precisa de um agente que lide com muitos serviços e catálogos em mudança, DeepAgent foi projetado para isso. Para cenários de integração e publicação de agentes entre frameworks, há guias sobre como publicar e descobrir agentes em runtimes MCP, por exemplo em MCP e runtime Coral.
  • Em cenários com ferramentas já rotuladas, o agente teve desempenho forte e mais uniforme que abordagens baseadas em fluxos como ReAct e CodeAct. Essas abordagens podem ter picos em casos isolados, mas não se mantêm igualmente boas em todos os conjuntos testados.
  • No cenário realista de busca aberta, o DeepAgent manteve vantagem. A simples adição de busca dinâmica melhora agentes workflow, mas a arquitetura e o treinamento do DeepAgent trazem ganhos maiores. Se você quer construir agentes sem programar toda a pipeline, veja ferramentas de criação low-code e frameworks prontos em plataformas no-code para agentes.

Aspectos técnicos e escolhas de engenharia

  • A compressão automática de histórico resolve o problema do estouro de contexto por longas cadeias de chamadas, resultados web e código — uma área que vem evoluindo com soluções de memória e armazenamento persistente (memória persistente em SQL).
  • O uso de APIs simuladas por LLM no ToolPO é uma escolha prática: reduz latência e instabilidade durante o treino em comparação com chamadas reais. Abordagens de RL aplicadas a agentes e frameworks de treino especializam-se justamente em reduzir custos e acelerar iterações, como discutido em soluções de RL para agentes.
  • A atribuição de vantagem diretamente aos tokens de chamada de ferramenta (tool call advantage attribution) torna o treinamento mais eficiente para aprender quando e qual ferramenta usar. Para contextos maiores de avaliação e comparação entre agentes, há novos sistemas de avaliação que geram relatórios e painéis para desenvolvedores e avaliadores (sistemas de avaliação de agentes).

Conclusão — o que muda para o seu uso de agentes LLM

Segundo os pesquisadores, o DeepAgent aproxima agentes LLM de um uso prático em catálogos grandes e mutáveis. A combinação de recuperação densa, chamada estruturada de ferramentas, dobrar memória e RL focado em chamadas mostra um caminho para agentes que não dependem de prompts com lista fixa. Para desenvolvedores e avaliadores, esse trabalho indica que arquiteturas end‑to‑end com memória e RL podem se tornar padrão para cenários complexos. Consulte o estudo original em https://www.marktechpost.com/2025/11/01/deepagent-a-deep-reasoning-ai-agent-that-performs-autonomous-thinking-tool-discovery-and-action-execution-within-a-single-reasoning-process/ para aprofundar. Se quiser continuar explorando práticas, padrões e tendências para agentes em 2025, veja também nove padrões de trabalho de IA para 2025.

Se precisa de um agente que resista ao ruído e à complexidade do mundo real, o DeepAgent aponta um caminho claro. Quer continuar explorando? Leia mais artigos práticos em como aplicar agentes para produtividade.

Perguntas Frequentes

O que é o DeepAgent?
É um agente de IA que integra raciocínio e ação num único fluxo: busca ferramentas, chama APIs e age com memória estruturada.

Como ele acha ferramentas sem uma lista fixa?
Faz busca em um índice denso que indexa descrições de milhares de ferramentas (RapidAPI, ToolHop) e retorna as opções mais relevantes para o contexto.

O que é "memory folding" e por que importa?
É a compressão automática do histórico em Memória Episódica, Memória de Trabalho e Memória de Ferramentas. Evita estouro de contexto e mantém eficiência em tarefas longas — um conceito ligado a soluções de memória persistente e estruturada (memória persistente).

O que é ToolPO e como melhora o uso de ferramentas?
ToolPO é treinamento por reforço focado em chamadas de ferramentas. Usa APIs simuladas e atribui recompensa diretamente ao token do chamado, ensinando quando buscar, chamar e dobrar memória. Métodos semelhantes de RL para agentes estão sendo adotados em plataformas de treino especializadas (treinamento por reforço para agentes).

Ele é melhor que agentes que usam ReAct ou CodeAct?
Sim, em média. Fica mais uniforme em muitos testes e tem vantagem em cenários com muitas ferramentas e tarefas longas. Para ver como arquiteturas distintas se comportam em ambientes reais e mutáveis, consulte guias práticos sobre publicação e integração de agentes em diferentes runtimes (publicação e descoberta de agentes MCP).

Se você quiser conhecer outros artigos semelhantes a DeepAgent promete que você terá um agente de IA que pensa, encontra ferramentas e age sozinho, você pode visitar a categoria Notícias e Tendências.

Go up