Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código

3 meses ago · Updated 3 meses ago

meta-e-harvard-lancam-confucius-code-agent-para-operar-em-grandes-bases-de-codigo
Table
  1. Ouça este artigo
  2. Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.Principais pontos: O CCA é open source e foca em repositórios reais do GitHub.O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.Inclui um Meta Agent que automatiza criação e refinamento de configurações.Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo. Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código
  3. Arquitetura e recursos essenciais
  4. Como o sistema se adapta e evolui
  5. Resultados de desempenho
  6. Experimentos adicionais
  7. Desempenho por número de arquivos editados
  8. Metodologia de avaliação
  9. O que isso significa para você
  10. Conclusão
  11. Perguntas Frequentes

Ouça este artigo


Confucius Code Agent: o agente open‑source da Meta e Harvard para grandes bases de código

Neste artigo você vai conhecer o Confucius Code Agent (CCA), um agente de engenharia de software open‑source criado por pesquisadores da Meta e de Harvard, construído sobre o Confucius SDK. O CCA prioriza o scaffolding (infraestrutura do agente) — com memória hierárquica, notas persistentes, extensões modulares e um meta‑agent que monta e melhora agentes automaticamente — e foi avaliado em repositórios reais e benchmarks como SWE Bench Pro.

Principais pontos:

  • O CCA é open source e foca em repositórios reais do GitHub.
  • O Confucius SDK trata a infraestrutura do agente como componente central, não apenas uma camada sobre o modelo.
  • Mecanismos-chave: Hierarchical Working Memory, Persistent Notes e Extensões Modulares.
  • Inclui um Meta Agent que automatiza criação e refinamento de configurações.
  • Resultados em SWE Bench Pro/Verified mostram ganhos atribuídos ao scaffold, não só ao modelo.

Pesquisadores da Meta e Harvard lançam o Confucius Code Agent para grandes bases de código

A Meta e a Universidade de Harvard apresentaram o Confucius Code Agent (CCA), projetado para operar em escala industrial: manter sessões longas, lidar com repositórios extensos e produzir resultados mensuráveis em benchmarks reais. Para quem está avaliando arquiteturas de agente, é útil comparar abordagens de scaffolding e automação com trabalhos sobre agentes que aprendem e refinam suas próprias configurações, como em agentes com currículo progressivo e exploração adaptativa.

Arquitetura e recursos essenciais

  • Agent Experience (AX): controla o que o modelo vê — organização do contexto, memória de trabalho hierárquica e resultados de ferramentas.
  • User Experience (UX): gera rastros legíveis, diffs de código e salvaguardas para engenheiros humanos.
  • Developer Experience (DX): fornece observabilidade, configuração e depuração do agente — pensando nisso, soluções que transformam o IDE em painel de controle são relevantes, como a experiência descrita em IDE como painel de controle para agentes de código.
  • Mecanismos principais:
  • Hierarchical Working Memory: divide a trajetória em escopos e mantém resumos comprimidos para preservar contexto sem estourar limites do modelo.
  • Persistent Notes: um agente separado escreve notas estruturadas entre execuções; essas notas funcionam como memória reutilizável. Para armazenamento e busca eficientes de contexto, veja também abordagens de embeddings e buscas locais como uso de embeddings móveis e escalonamento de índices multimodais em buscas multimodais com MetaEmbed.

Como o sistema se adapta e evolui

O Meta Agent recebe uma especificação em linguagem natural, propõe uma configuração de agente (prompts, extensões, parâmetros), executa testes, coleta traços e métricas e refina a configuração no ciclo build → test → improve. Esse processo automatiza parte da engenharia do agente; técnicas relacionadas de planejar, lembrar e usar múltiplas ferramentas com aprendizado por reforço são abordadas em agentes que planejam, lembram e encadeiam ferramentas.

Resultados de desempenho

Em SWE Bench Pro (mesmo ambiente de repositórios e ferramentas para todos), o CCA com Claude 4.5 Sonnet alcançou Resolve@1 = 52.7%, superando uma variante concorrente com scaffold mais fraco usando modelo similar.

Em SWE Bench Verified, destaque para:

  • CCA (Claude 4 Sonnet): Resolve@1 = 74.6%
  • SWE Agent: Resolve@1 = 66.6%
  • OpenHands: Resolve@1 = 72.8%
  • Mini SWE Agent (Claude 4.5 Sonnet): Resolve@1 = 70.6%

As diferenças mostram que, além do modelo, a estratégia de uso do contexto e das ferramentas importa — algo também observado em comparações com modelos e stacks alternativos, como os lançamentos recentes de modelos e ferramentas para agentes descritos em GPT‑5.2 para agentes com contexto longo, Minimax M2 para codificação e eficiência e as ferramentas CLI/agent do ecossistema Mistral em DevStral e Vibe CLI.

Tabela resumida:

Sistema / Configuração Resolve@1
CCA (Claude 4.5 Sonnet) 52.7%
Competidor (Claude 4.5 Opus) 52.0%
CCA (Claude 4 Sonnet) — SWE Bench Verified 74.6%
SWE Agent 66.6%
OpenHands 72.8%
Mini SWE Agent (Claude 4.5 Sonnet) 70.6%

Experimentos adicionais

  • Memória entre sessões (notas persistentes): em 151 instâncias com Claude 4.5 Sonnet, executar o agente uma vez para gerar notas e depois novamente lendo as notas reduziu turnos médios de 64 → 61, tokens usados de ~104k → ~93k, e melhorou Resolve@1 de 53.0 → 54.4. As notas funcionaram como memória reutilizável, não apenas logs — práticas de persistência e recuperação de contexto são discutidas em artigos sobre agentes offline e pipelines locais, por exemplo agentes offline que planejam e recuperam erros e pipelines locais para agentes.
  • Sofisticação no uso de ferramentas (ablação) — em 100 exemplos:
  • Claude 4 Sonnet sem recursos avançados: Resolve@1 = 42.0% → com recursos avançados: 48.6%.
  • Claude 4.5 Sonnet: configuração simples 44.0%; variante intermediária 51.0%; variante rica 51.6%. Esses resultados indicam que a forma como o agente usa e encadeia ferramentas impacta tanto quanto a escolha do modelo — tema também explorado por projetos que integram múltiplas ferramentas e agentes especializados, como em sistemas de agentes especializados e ferramentas coordenadas.

Desempenho por número de arquivos editados

Faixa de arquivos editados Resolve@1
1–2 arquivos 57.8%
3–4 arquivos 49.2%
5–6 arquivos 44.1%
7–10 arquivos 52.6%
>10 arquivos 44.4%

Relatórios indicam estabilidade mesmo quando mudanças envolvem múltiplos arquivos.

Metodologia de avaliação

  • Avaliação principal em SWE Bench Pro, com 731 issues reais que exigem alterar repositórios até os testes passarem.
  • Todos os sistemas foram testados com os mesmos repositórios, ambiente de ferramentas e harness de avaliação; diferenças nas métricas refletem principalmente scaffold e comportamento do agente.

O que isso significa para você

  • Se você trabalha com grandes repositórios, investir na infraestrutura do agente — memória explícita, notas persistentes e integração de ferramentas — pode melhorar resultados mesmo com modelos de porte moderado. Implementações práticas de integração e observabilidade mostram caminhos para adotar esse tipo de scaffold em produção, como em integração em tempo real com ferramentas e servidores open source para agent cores em AgentCore open source.
  • Ferramentas modulares e um processo automático de ajuste (meta agent) tornam o sistema mais adaptável a repositórios reais: menos tokens, menos turnos, mais acertos. Para montar pipelines de treino, teste e ajuste automático, veja também materiais sobre criação e treino de agentes e pipelines locais em aprendizado por reforço para agentes e pipelines locais.

Conclusão

O Confucius Code Agent, forjado sobre o Confucius SDK, destaca que um scaffold bem desenhado (memória hierárquica, notas persistentes, extensões modulares e um meta‑agent) pode superar ganhos atribuíveis apenas ao modelo. Em benchmarks como SWE Bench Pro, isso se traduz em melhorias reais de Resolve@1. Para quem lida com repositórios grandes, a recomendação é clara: invista na infraestrutura do agente.

Curioso para se aprofundar? Confira mais em https://blog.aidirectory.com.br

Perguntas Frequentes

  • O que é o Confucius Code Agent (CCA)?
    É um agente de engenharia de software open‑source criado por Meta e Harvard. Atua em repositórios grandes e usa o Confucius SDK como base.
  • Como ele lida com bases de código muito grandes?
    Usa memória hierárquica: divide tarefas em escopos, resume passos e guarda patches e logs comprimidos, mantendo contexto sem estourar o limite do modelo.
  • O que são as notas persistentes e por que importam?
    Um agente escreve notas estruturadas (por exemplo, em ) que registram estratégias e falhas comuns. Na prática reduzem tokens, diminuem turnos e melhoram acerto entre sessões.
  • O que faz o meta‑agent do SDK?
    Automatiza criação e ajuste do agente no ciclo build → testar → melhorar, escolhendo prompts, extensões e configurações por tentativa e erro guiada.
  • Modelo importa mais que scaffold?
    Não: um bom scaffold com modelo médio pode superar um modelo mais forte com scaffold fraco. A forma de uso e encadeamento de ferramentas tem grande impacto.

Se você quiser conhecer outros artigos semelhantes a Meta e Harvard lançam Confucius Code Agent para operar em grandes bases de código, você pode visitar a categoria Notícias e Tendências.

Go up