Veja como você pode treinar agentes de IA de software com poucas amostras usando supervisão focada em agência
7 meses ago · Updated 7 meses ago

- Ouça este artigo
- LIMI transforma um modelo em agente de software com apenas 78 exemplos
- O que aconteceu — a notícia principal
- Como o método funciona
- Resultados em comparação — tabela resumida
- Contexto e detalhes técnicos
- Principais conclusões para você
- O que isso significa na prática
- Onde ver o trabalho
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você vai descobrir como a equipe da Shanghai Jiao Tong University e do SII Generative AI Research Lab criou LIMI, um método que transforma um modelo base em um agente de software com apenas algumas dezenas de exemplos. O segredo é treinar com trajetórias longas e guiadas por ferramentas que forçam planejamento, orquestração de ferramentas e verificação. O resultado é um agente muito mais capaz do que modelos treinados com conjuntos de dados enormes. Confira o paper, o GitHub e o modelo para ver os detalhes — e leia também a cobertura em https://www.marktechpost.com/2025/10/06/a-new-agency-focused-supervision-approach-scales-software-ai-agents-with-only-78-examples/.
- LIMI é um método novo que transforma um modelo base em agente de software usando poucos exemplos curados.
- Ele treina com trajetórias longas e com uso de ferramentas em linha de comando, focando planejamento e verificação.
- O método gera agentes bem mais fortes que baselines amplos e que variantes treinadas com muito mais dados.
- Melhora aparece também em testes sem ferramentas, mostrando ganho intrínseco no comportamento do agente.
- Trajetórias curadas e densas escalam capacidades de agente de forma eficiente; paper e código são públicos.
LIMI transforma um modelo em agente de software com apenas 78 exemplos
Você pode criar um agente de software capaz de planejar e usar ferramentas com um conjunto muito pequeno de demonstrações. É isso que um grupo de pesquisadores relata ao apresentar LIMI (Less Is More for Agency). Segundo o estudo, a técnica converte variantes do GLM-4.5 em agentes funcionais usando 78 trajetórias curadas, e alcança 73,5% de média em AgencyBench. Para perspectiva sobre metodologias de avaliação de agentes, veja também o novo sistema de avaliação de agentes com painéis visuais.
O que aconteceu — a notícia principal
- LIMI é um método de fine-tuning supervisionado que usa 78 exemplos focados em interação com ferramentas.
- O experimento foi feito em variantes do GLM-4.5, com tarefas em um ambiente de linha de comando (CLI) voltadas para engenharia de software e pesquisa; para entender desafios de agentes em tarefas de pesquisa autônoma, veja o texto sobre agentes de pesquisa profunda.
- O modelo treinado com LIMI atinge 73,5% em AgencyBench (média de três métricas: FTFC 71,7; RC@3 74,2; SR@3 74,6).
- Isso supera modelos fortes e também uma versão treinada com 10.000 amostras, usando 128× menos dados — um padrão que ressoa com estudos sobre redução drástica de dados com rótulos de alta fidelidade (redução massiva de dados de treinamento) como discutido em redução de dados de treinamento em 10.000×.
Como o método funciona
- Os pesquisadores coletaram trajetórias longas e multi-turno que mostram planejamento, uso de ferramentas e verificação de resultados.
- Essas demonstrações foram capturadas em um ambiente CLI cobrindo tarefas reais de engenharia e pesquisa.
- O fine-tuning enfatiza a orquestração de ferramentas e verificação, não apenas instruções isoladas.
- O objetivo é ensinar comportamento de agente por exemplo guiado em vez de empilhar grandes volumes de instruções genéricas.
- Como as trajetórias são densas em tokens e dependem de chunking eficaz, conceitos de tokenização e chunking são relevantes para montar datasets eficientes; um guia prático sobre isso está em tokenização e chunking.
Resultados em comparação — tabela resumida
| Métrica / Modelo | LIMI (78) | GLM-4.5 (base) | AFM-CodeAgent (10k) | Outros baselines |
|---|---|---|---|---|
| AgencyBench (média) | 73,5% | 45,1% | 47,8% | GLM-4.5 45,1%; Qwen3-235B-A22B 27,5%; Kimi-K2 24,1%; DeepSeek-V3.1 11,9 |
| FTFC | 71,7 | — | — | — |
| RC@3 | 74,2 | — | — | — |
| SR@3 | 74,6 | — | — | — |
| Avaliação sem ferramentas | ≈50,0% | 48,7% | — | — |
(Valores e comparações conforme relatório dos pesquisadores.)
Contexto e detalhes técnicos
- As trajetórias usadas são densas em tokens e mostram sequências de ações e decisões.
- O foco não foi aumentar a quantidade de exemplos, mas escolher exemplos ricos e orientados a ferramentas.
- Avaliações medem capacidade de execução de tarefas que exigem raciocínio passo a passo e uso prático de ferramentas.
- Para quem precisa orquestrar agentes em interfaces e integrar workflows em tempo real, a perspectiva de ferramentas de integração é útil, como o AG-UI que facilita a incorporação de agentes em interfaces (integração de agentes em tempo real).
Principais conclusões para você
- Menos pode ser suficiente: exemplos bem curados e longos podem superar grandes conjuntos de instruções.
- Qualidade sobre quantidade: demonstrar planejamento e verificação ajuda o modelo a aprender a agir como agente — abordagem similar é defendida por métodos que melhoram previsões com poucos exemplos, como o TimesFM para poucos exemplos.
- Economia de dados: o método alcança desempenho competitivo usando uma fração dos dados usados por outras abordagens.
- Ganhos intrínsecos: melhoria persiste mesmo quando ferramentas não estão disponíveis na avaliação, indicando aprendizado de habilidades gerais.
O que isso significa na prática
- Se você desenvolve agentes de software, considerar demonstrações guiadas e longas pode ser mais eficiente do que coletar massas de instruções curtas.
- Equipes com recursos limitados podem obter agentes úteis com conjuntos pequenos e bem planejados.
- Avaliações devem checar tanto o uso de ferramentas quanto capacidades internas do modelo; rastrear respostas e métricas de agentes em produção é um passo prático, como exemplificado por fluxos que usam MLflow para monitoramento (rastreio de respostas com MLflow).
- Memória persistente e mecanismos de contexto também podem aumentar a utilidade prática de agentes; veja iniciativas de memória persistente para agentes (memória persistente em SQL).
Onde ver o trabalho
- O estudo está disponível no repositório de pré-publicações em arXiv.
- Há também materiais de suporte, incluindo código e ficha do modelo, publicados pelos autores em repositórios públicos (paper e GitHub).
- Para uma cobertura acessível e links adicionais, consulte a matéria em https://www.marktechpost.com/2025/10/06/a-new-agency-focused-supervision-approach-scales-software-ai-agents-with-only-78-examples/.
- Se você quiser ver exemplos práticos de pipelines e ferramentas que aceleram pesquisa e desenvolvimento de agentes, há guias sobre como montar pipelines com LangGraph e outras ferramentas (pipeline de análise com LangGraph).
Conclusão
LIMI prova que, às vezes, menos é mais. Com apenas 78 exemplos cuidadosamente curados e trajetórias longas que forçam planejamento, orquestração de ferramentas e verificação, o método transforma um modelo base em um agente prático e eficiente. Menos dados. Mais resultado — como ensinar alguém a pescar de verdade, em vez de apenas dar um peixe.
Para quem desenvolve agentes, a lição é clara: foque em qualidade, não em volume. Demonstrações densas e guiadas funcionam como uma bússola — mostram o caminho, passo a passo. O ganho não é só com ferramentas; aparece também em avaliações sem elas, sinal de aprendizado real. E sim: economia de dados importa — LIMI alcança desempenho competitivo com 128× menos dados. Em contextos de simulação e testes controlados, motores de simulação para agentes podem complementar a criação de trajetórias ricas (motor de simulação para agentes).
Ficou curioso para mergulhar nos detalhes técnicos, no paper e no código? Consulte os repositórios públicos dos autores e a cobertura em https://www.marktechpost.com/2025/10/06/a-new-agency-focused-supervision-approach-scales-software-ai-agents-with-only-78-examples/, além de recursos no GitHub e no arXiv.
Perguntas frequentes
- O que há de novo no método LIMI?
LIMI usa só 78 exemplos bem curados: trajetórias longas com uso real de ferramentas em CLI. Resultado: agente forte com 128× menos dados que alternativas.
- Como LIMI transforma um modelo base em agente?
Faz fine-tuning supervisionado com demonstrações multi-turn que mostram planejamento, orquestração de ferramentas e verificação passo a passo.
- Quais são os resultados práticos?
73,5% em AgencyBench (FTFC 71,7; RC@3 74,2; SR@3 74,6), muito acima do GLM-4.5 (45,1) e do baseline com 10.000 amostras (47,8). Ganho intrínseco também em avaliação sem ferramentas (~50% vs 48,7).
- Por que demonstrações focadas em ferramentas funcionam melhor?
Elas mostram execução real, não instruções vagas. Trajetórias densas em tokens ensinam planejamento e checagem, dando sinal claro para o agente aprender a agir.
- Como posso replicar isso em um projeto?
Colete 70–100 trajetórias longas e anotadas em um ambiente CLI; enfatize passos de planejamento, chamadas de ferramenta e verificação; faça SFT no modelo base e teste em benchmarks como AgencyBench. Para complementar com técnicas de RAG e melhoria de respostas, veja referências sobre Agentic RAG e, se quiser implementar agentes conversacionais com memória, há guias práticos sobre integração de memória em agentes conversacionais (agentes conversacionais com memória).
Se você quiser conhecer outros artigos semelhantes a Veja como você pode treinar agentes de IA de software com poucas amostras usando supervisão focada em agência, você pode visitar a categoria Notícias e Tendências.
