Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código
3 meses ago · Updated 3 meses ago

- Ouça este artigo
- Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.Principais pontos: O CCA é open source e foca em repositórios reais do GitHub.O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.Inclui um Meta Agent que automatiza criação e refinamento de configurações.Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo. Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código
- Arquitetura e recursos essenciais
- Como o sistema se adapta e evolui
- Resultados de desempenho
- Experimentos adicionais
- Desempenho por número de arquivos editados
- Metodologia de avaliação
- O que isso significa para você
- Conclusão
- Perguntas Frequentes
Ouça este artigo
Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código
Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.
Principais pontos:
- O CCA é open source e foca em repositórios reais do GitHub.
- O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.
- Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.
- Inclui um Meta Agent que automatiza criação e refinamento de configurações.
- Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo.
Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código
A Meta e a Universidade de Harvard apresentaram o Confucius Code Agent (CCA), projetado para operar em escala industrial: manter sessões longas, lidar com repositórios extensos e produzir resultados mensuráveis em benchmarks reais. Para quem está avaliando arquiteturas de agente, é útil comparar abordagens de scaffolding e automação com trabalhos sobre agentes que aprendem e refinam suas próprias configurações, como em agentes com currículo progressivo e exploração adaptativa.
Arquitetura e recursos essenciais
- Agent Experience (AX): controla o que o modelo vê — organização do contexto, memória de trabalho hierárquica e resultados de ferramentas.
- User Experience (UX): gera rastros legíveis, diffs de código e salvaguardas para engenheiros humanos.
- Developer Experience (DX): fornece observabilidade, configuração e depuração do agente — pensando nisso, soluções que transformam o IDE em painel de controle são relevantes, como a experiência descrita em IDE como painel de controle para agentes de código.
- Mecanismos principais:
- Hierarchical Working Memory: divide a trajetória em escopos e mantém resumos comprimidos para preservar contexto sem estourar limites do modelo.
- Persistent Notes: um agente separado escreve notas estruturadas entre execuções; essas notas funcionam como memória reutilizável. Para armazenamento e busca eficientes de contexto, veja também abordagens de embeddings e buscas locais como uso de embeddings móveis e escalonamento de índices multimodais em buscas multimodais com MetaEmbed.
- Extensões Modulares: cada ferramenta (edição de arquivos, comandos, testes, busca de código) é uma extensão com estado e roteiros próprios. Integração em tempo real com ferramentas e recursos externos é discutida em integração de IA com recursos em tempo real, e a disponibilidade de servidores para agent cores está coberta em servidores open source para AgentCore.
Como o sistema se adapta e evolui
O Meta Agent recebe uma especificação em linguagem natural, propõe uma configuração de agente (prompts, extensões, parâmetros), executa testes, coleta traços e métricas e refina a configuração no ciclo build → test → improve. Esse processo automatiza parte da engenharia do agente; técnicas relacionadas de planejar, lembrar e usar múltiplas ferramentas com aprendizado por reforço são abordadas em agentes que planejam, lembram e encadeiam ferramentas.
Resultados de desempenho
Em SWE Bench Pro (mesmo ambiente de repositórios e ferramentas para todos), o CCA com Claude 4.5 Sonnet alcançou Resolve@1 = 52.7%, superando uma variante concorrente com scaffold mais fraco usando modelo similar.
Em SWE Bench Verified, destaque para:
- CCA (Claude 4 Sonnet): Resolve@1 = 74.6%
- SWE Agent: Resolve@1 = 66.6%
- OpenHands: Resolve@1 = 72.8%
- Mini SWE Agent (Claude 4.5 Sonnet): Resolve@1 = 70.6%
As diferenças mostram que, além do modelo, a estratégia de uso do contexto e das ferramentas importa — algo também observado em comparações com modelos e stacks alternativos, como os lançamentos recentes de modelos e ferramentas para agentes descritos em GPT‑5.2 para agentes com contexto longo, Minimax M2 para codificação e eficiência e as ferramentas CLI/agent do ecossistema Mistral em DevStral e Vibe CLI.
Tabela resumida:
| Sistema / Configuração | Resolve@1 |
|---|---|
| CCA (Claude 4.5 Sonnet) | 52.7% |
| Competidor (Claude 4.5 Opus) | 52.0% |
| CCA (Claude 4 Sonnet) — SWE Bench Verified | 74.6% |
| SWE Agent | 66.6% |
| OpenHands | 72.8% |
| Mini SWE Agent (Claude 4.5 Sonnet) | 70.6% |
Experimentos adicionais
- Memória entre sessões (notas persistentes): em 151 instâncias com Claude 4.5 Sonnet, executar o agente uma vez para gerar notas e depois novamente lendo as notas reduziu turnos médios de 64 → 61, tokens usados de ~104k → ~93k, e melhorou Resolve@1 de 53.0 → 54.4. As notas funcionaram como memória reutilizável, não apenas logs — práticas de persistência e recuperação de contexto são discutidas em artigos sobre agentes offline e pipelines locais, por exemplo agentes offline que planejam e recuperam erros e pipelines locais para agentes.
- Sofisticação no uso de ferramentas (ablação) — em 100 exemplos:
- Claude 4 Sonnet sem recursos avançados: Resolve@1 = 42.0% → com recursos avançados: 48.6%.
- Claude 4.5 Sonnet: configuração simples 44.0%; variante intermediária 51.0%; variante rica 51.6%. Esses resultados indicam que a forma como o agente usa e encadeia ferramentas impacta tanto quanto a escolha do modelo — tema também explorado por projetos que integram múltiplas ferramentas e agentes especializados, como em sistemas de agentes especializados e ferramentas coordenadas.
Desempenho por número de arquivos editados
| Faixa de arquivos editados | Resolve@1 |
|---|---|
| 1–2 arquivos | 57.8% |
| 3–4 arquivos | 49.2% |
| 5–6 arquivos | 44.1% |
| 7–10 arquivos | 52.6% |
| >10 arquivos | 44.4% |
Relatórios indicam estabilidade mesmo quando mudanças envolvem múltiplos arquivos.
Metodologia de avaliação
- Avaliação principal em SWE Bench Pro, com 731 issues reais que exigem alterar repositórios até os testes passarem.
- Todos os sistemas foram testados com os mesmos repositórios, ambiente de ferramentas e harness de avaliação; diferenças nas métricas refletem principalmente scaffold e comportamento do agente.
O que isso significa para você
- Se você trabalha com grandes repositórios, investir na infraestrutura do agente — memória explícita, notas persistentes e integração de ferramentas — pode melhorar resultados mesmo com modelos de porte moderado. Implementações práticas de integração e observabilidade mostram caminhos para adotar esse tipo de scaffold em produção, como em integração em tempo real com ferramentas e servidores open source para agent cores em AgentCore open source.
- Ferramentas modulares e um processo automático de ajuste (meta agent) tornam o sistema mais adaptável a repositórios reais: menos tokens, menos turnos, mais acertos. Para montar pipelines de treino, teste e ajuste automático, veja também materiais sobre criação e treino de agentes e pipelines locais em aprendizado por reforço para agentes e pipelines locais.
Conclusão
O Confucius Code Agent, forjado sobre o Confucius SDK, destaca que um scaffold bem desenhado (memória hierárquica, notas persistentes, extensões modulares e um meta‑agent) pode superar ganhos atribuíveis apenas ao modelo. Em benchmarks como SWE Bench Pro, isso se traduz em melhorias reais de Resolve@1. Para quem lida com repositórios grandes, a recomendação é clara: invista na infraestrutura do agente.
Curioso para se aprofundar? Confira mais em https://blog.aidirectory.com.br
Perguntas Frequentes
- O que é o Confucius Code Agent (CCA)?
É um agente de engenharia de software open‑source criado por Meta e Harvard. Atua em repositórios grandes e usa o Confucius SDK como base.
- Como ele lida com bases de código muito grandes?
Usa memória hierárquica: divide tarefas em escopos, resume passos e guarda patches e logs comprimidos, mantendo contexto sem estourar o limite do modelo.
- O que são as notas persistentes e por que importam?
Um agente escreve notas estruturadas (por exemplo, em ) que registram estratégias e falhas comuns. Na prática reduzem tokens, diminuem turnos e melhoram acerto entre sessões.
- O que faz o meta‑agent do SDK?
Automatiza criação e ajuste do agente no ciclo build → testar → melhorar, escolhendo prompts, extensões e configurações por tentativa e erro guiada.
- Modelo importa mais que scaffold?
Não: um bom scaffold com modelo médio pode superar um modelo mais forte com scaffold fraco. A forma de uso e encadeamento de ferramentas tem grande impacto.
Se você quiser conhecer outros artigos semelhantes a Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código, você pode visitar a categoria Notícias e Tendências.
