Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código

3 meses ago · Updated 3 meses ago

meta-e-harvard-lancam-confucius-code-agent-para-operar-em-grandes-bases-de-codigo

Table

Ouça este artigo
Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.Principais pontos: O CCA é open source e foca em repositórios reais do GitHub.O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.Inclui um Meta Agent que automatiza criação e refinamento de configurações.Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo. Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código
Arquitetura e recursos essenciais
Como o sistema se adapta e evolui
Resultados de desempenho
Experimentos adicionais
Desempenho por número de arquivos editados
Metodologia de avaliação
O que isso significa para você
Conclusão
Perguntas Frequentes

Ouça este artigo

Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código

Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.

Principais pontos:

O CCA é open source e foca em repositórios reais do GitHub.

O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.

Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.

Inclui um Meta Agent que automatiza criação e refinamento de configurações.

Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo.

Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código

A Meta e a Universidade de Harvard apresentaram o Confucius Code Agent (CCA), projetado para operar em escala industrial: manter sessões longas, lidar com repositórios extensos e produzir resultados mensuráveis em benchmarks reais. Para quem está avaliando arquiteturas de agente, é útil comparar abordagens de scaffolding e automação com trabalhos sobre agentes que aprendem e refinam suas próprias configurações, como em agentes com currículo progressivo e exploração adaptativa.

Arquitetura e recursos essenciais

Agent Experience (AX): controla o que o modelo vê — organização do contexto, memória de trabalho hierárquica e resultados de ferramentas.

User Experience (UX): gera rastros legíveis, diffs de código e salvaguardas para engenheiros humanos.

Developer Experience (DX): fornece observabilidade, configuração e depuração do agente — pensando nisso, soluções que transformam o IDE em painel de controle são relevantes, como a experiência descrita em IDE como painel de controle para agentes de código.

Mecanismos principais:

Hierarchical Working Memory: divide a trajetória em escopos e mantém resumos comprimidos para preservar contexto sem estourar limites do modelo.

Persistent Notes: um agente separado escreve notas estruturadas entre execuções; essas notas funcionam como memória reutilizável. Para armazenamento e busca eficientes de contexto, veja também abordagens de embeddings e buscas locais como uso de embeddings móveis e escalonamento de índices multimodais em buscas multimodais com MetaEmbed.

Extensões Modulares: cada ferramenta (edição de arquivos, comandos, testes, busca de código) é uma extensão com estado e roteiros próprios. Integração em tempo real com ferramentas e recursos externos é discutida em integração de IA com recursos em tempo real, e a disponibilidade de servidores para agent cores está coberta em servidores open source para AgentCore.

Como o sistema se adapta e evolui

O Meta Agent recebe uma especificação em linguagem natural, propõe uma configuração de agente (prompts, extensões, parâmetros), executa testes, coleta traços e métricas e refina a configuração no ciclo build → test → improve. Esse processo automatiza parte da engenharia do agente; técnicas relacionadas de planejar, lembrar e usar múltiplas ferramentas com aprendizado por reforço são abordadas em agentes que planejam, lembram e encadeiam ferramentas.

Resultados de desempenho

Em SWE Bench Pro (mesmo ambiente de repositórios e ferramentas para todos), o CCA com Claude 4.5 Sonnet alcançou Resolve@1 = 52.7%, superando uma variante concorrente com scaffold mais fraco usando modelo similar.

Em SWE Bench Verified, destaque para:

CCA (Claude 4 Sonnet): Resolve@1 = 74.6%

SWE Agent: Resolve@1 = 66.6%

OpenHands: Resolve@1 = 72.8%

Mini SWE Agent (Claude 4.5 Sonnet): Resolve@1 = 70.6%

As diferenças mostram que, além do modelo, a estratégia de uso do contexto e das ferramentas importa — algo também observado em comparações com modelos e stacks alternativos, como os lançamentos recentes de modelos e ferramentas para agentes descritos em GPT‑5.2 para agentes com contexto longo, Minimax M2 para codificação e eficiência e as ferramentas CLI/agent do ecossistema Mistral em DevStral e Vibe CLI.

Tabela resumida:

Sistema / Configuração	Resolve@1
CCA (Claude 4.5 Sonnet)	52.7%
Competidor (Claude 4.5 Opus)	52.0%
CCA (Claude 4 Sonnet) — SWE Bench Verified	74.6%
SWE Agent	66.6%
OpenHands	72.8%
Mini SWE Agent (Claude 4.5 Sonnet)	70.6%

Experimentos adicionais

Memória entre sessões (notas persistentes): em 151 instâncias com Claude 4.5 Sonnet, executar o agente uma vez para gerar notas e depois novamente lendo as notas reduziu turnos médios de 64 → 61, tokens usados de ~104k → ~93k, e melhorou Resolve@1 de 53.0 → 54.4. As notas funcionaram como memória reutilizável, não apenas logs — práticas de persistência e recuperação de contexto são discutidas em artigos sobre agentes offline e pipelines locais, por exemplo agentes offline que planejam e recuperam erros e pipelines locais para agentes.

Sofisticação no uso de ferramentas (ablação) — em 100 exemplos:

Claude 4 Sonnet sem recursos avançados: Resolve@1 = 42.0% → com recursos avançados: 48.6%.

Claude 4.5 Sonnet: configuração simples 44.0%; variante intermediária 51.0%; variante rica 51.6%. Esses resultados indicam que a forma como o agente usa e encadeia ferramentas impacta tanto quanto a escolha do modelo — tema também explorado por projetos que integram múltiplas ferramentas e agentes especializados, como em sistemas de agentes especializados e ferramentas coordenadas.

Desempenho por número de arquivos editados

Faixa de arquivos editados	Resolve@1
1–2 arquivos	57.8%
3–4 arquivos	49.2%
5–6 arquivos	44.1%
7–10 arquivos	52.6%
>10 arquivos	44.4%

Relatórios indicam estabilidade mesmo quando mudanças envolvem múltiplos arquivos.

Metodologia de avaliação

Avaliação principal em SWE Bench Pro, com 731 issues reais que exigem alterar repositórios até os testes passarem.

Todos os sistemas foram testados com os mesmos repositórios, ambiente de ferramentas e harness de avaliação; diferenças nas métricas refletem principalmente scaffold e comportamento do agente.

O que isso significa para você

Se você trabalha com grandes repositórios, investir na infraestrutura do agente — memória explícita, notas persistentes e integração de ferramentas — pode melhorar resultados mesmo com modelos de porte moderado. Implementações práticas de integração e observabilidade mostram caminhos para adotar esse tipo de scaffold em produção, como em integração em tempo real com ferramentas e servidores open source para agent cores em AgentCore open source.

Ferramentas modulares e um processo automático de ajuste (meta agent) tornam o sistema mais adaptável a repositórios reais: menos tokens, menos turnos, mais acertos. Para montar pipelines de treino, teste e ajuste automático, veja também materiais sobre criação e treino de agentes e pipelines locais em aprendizado por reforço para agentes e pipelines locais.

Conclusão

O Confucius Code Agent, forjado sobre o Confucius SDK, destaca que um scaffold bem desenhado (memória hierárquica, notas persistentes, extensões modulares e um meta‑agent) pode superar ganhos atribuíveis apenas ao modelo. Em benchmarks como SWE Bench Pro, isso se traduz em melhorias reais de Resolve@1. Para quem lida com repositórios grandes, a recomendação é clara: invista na infraestrutura do agente.

Curioso para se aprofundar? Confira mais em https://blog.aidirectory.com.br

Perguntas Frequentes

O que é o Confucius Code Agent (CCA)?
É um agente de engenharia de software open‑source criado por Meta e Harvard. Atua em repositórios grandes e usa o Confucius SDK como base.

Como ele lida com bases de código muito grandes?
Usa memória hierárquica: divide tarefas em escopos, resume passos e guarda patches e logs comprimidos, mantendo contexto sem estourar o limite do modelo.

O que são as notas persistentes e por que importam?
Um agente escreve notas estruturadas (por exemplo, em ) que registram estratégias e falhas comuns. Na prática reduzem tokens, diminuem turnos e melhoram acerto entre sessões.

O que faz o meta‑agent do SDK?
Automatiza criação e ajuste do agente no ciclo build → testar → melhorar, escolhendo prompts, extensões e configurações por tentativa e erro guiada.

Modelo importa mais que scaffold?
Não: um bom scaffold com modelo médio pode superar um modelo mais forte com scaffold fraco. A forma de uso e encadeamento de ferramentas tem grande impacto.

Se você quiser conhecer outros artigos semelhantes a Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código, você pode visitar a categoria Notícias e Tendências.