SETA oferece ambiente aberto para treinar agentes de terminal com toolkit CAMEL e memória de notas

3 meses ago · Updated 3 meses ago

seta-oferece-ambiente-aberto-para-treinar-agentes-de-terminal-com-toolkit-camel-e-memoria-de-notas

Table

Ouça este artigo
SETA: o que você precisa saber sobre a nova pilha open source para agentes em terminal
Principais fatos
O que SETA entrega (visão geral)
Como o repositório organiza execução e logs
Memória persistente: Note Taking Toolkit
Resultados em comparação (resumo)
Integração com CAMEL e uso prático
Conclusões e implicações para quem usa
Conclusão
Perguntas frequentes

Ouça este artigo

Você vai ver como SETA junta um kit de terminal que transforma modelos em agentes executáveis, um sistema de logs para debugar passo a passo e um bloco de notas que vira memória persistente para tarefas longas. O projeto usa ambientes sintéticos e avaliação alinhada ao benchmark Terminal Bench para treinar e medir agentes que atuam no shell, e mostra resultados de ponta que deixam claro onde o agente acerta ou erra.

SETA transforma modelos de linguagem em agentes que atuam no terminal (ferramentas para criar agentes e codar direto no terminal).

Logs organizados permitem seguir decisões até os comandos executados.

Note Taking Toolkit oferece memória persistente para tarefas longas (exemplos de memória persistente em SQL).

Ambientes sintéticos e treino por RL melhoram desempenho em tarefas reais (práticas de treino por reforço de ponta a ponta).

Integração com CAMEL e testes padronizados facilita reprodução e avaliação (ferramentas modernas de avaliação e painéis de análise).

SETA: o que você precisa saber sobre a nova pilha open source para agentes em terminal

Pesquisadores da CAMEL AI, Eigent AI e colaboradores lançaram SETA, um conjunto open source que combina ambientes sintéticos, ferramentas estruturadas e avaliação alinhada a benchmarks para treinar agentes que atuam em terminais Unix. A pilha permite executar, debugar e avaliar agentes que realizam tarefas verificáveis em shells.

Principais fatos

SETA agrega um Terminal Toolkit, uma Note Taking Toolkit (memória persistente) e um conjunto de 400 tarefas sintéticas.

Em benchmarks oficiais Terminal Bench, agentes criados com SETA atingiram resultados de ponta, com ganhos frente a baselines supervisionados.

O repositório inclui entrada específica para avaliações do Terminal Bench e uma estrutura de logs para rastrear decisões do agente passo a passo.

O que SETA entrega (visão geral)

Desempenho de referência:

Agente com base em Claude Sonnet-4.5: 46,5% no Terminal Bench 2.0 (89 tarefas reais), segundo os desenvolvedores.

Agente baseado em GPT-4.1: 35% no Terminal Bench 1.0.

Baseline supervisionado Qwen3 8B: 3,4% no TB2.0; o Qwen3 8B treinado via pipeline de RL do SETA mostrou melhora.

Treinamento em larga escala:

Conjunto sintético com 400 tarefas; cerca de 260 foram usadas para fine-tuning por RL do Qwen3-8B.

O uso de curadorias sintéticas e currículos progressivos é comum em pipelines que escalam agentes via exploração e adaptação (exemplo de currículos progressivos).

Design unificado:

A mesma implementação de agente serve para execuções locais e para avaliações oficiais, facilitando reprodução e integração (padrões de execução local para agentes).

Como o repositório organiza execução e logs

No repositório há um Terminal Toolkit que transforma um modelo em agente capaz de executar comandos. A estrutura de logs foi pensada para facilitar debug e auditoria.

Diretórios e pontos de entrada:

evaluation/terminalbenchrun — logs para execuções por tarefa (ex.: play-zork).

evaluation/terminalbencheval — entrada para avaliação oficial. Use runeval.sh para TB1.0 e runtb2.sh para TB2.0.

Resultados: evaluation/terminalbencheval/run/{run_id}/results.json.

Logs de sessão por tarefa: evaluation/terminalbencheval/logs/camellogs/{taskid}.

Conector do agente CAMEL para o benchmark: tbenchcamelagent.py.

Arquivos de log importantes:

chatagent.log — histórico de mensagens do agente e chamadas de ferramenta.

sessions/sessionlogs/ — logs de comandos e saídas (ex.: blockingcommands.log, session_zork-1.log).

tests.log e tests.log.strip — saídas dos testes (a versão .strip remove caracteres de controle).

Esses arquivos permitem rastrear desde decisões de alto nível até cada comando no shell e verificar sucesso ou falha. Para quem precisa de painéis e relatórios mais visuais sobre execução e métricas, há iniciativas focadas em avaliação de agentes que complementam esse tipo de saída (sistemas de avaliação com relatórios visuais).

Memória persistente: Note Taking Toolkit

A Note Taking Toolkit funciona como memória persistente para tarefas de longa duração.

O agente pode escrever e ler notas em formato estruturado enquanto resolve uma tarefa, registrando resultados intermediários e dicas, separado do buffer do terminal.

Há exemplos públicos de uso, mas ainda não existe uma definição completa de objetivo de treinamento para otimizar o uso das notas. Abordagens alternativas incluem memórias procedurais e armazenamento estruturado para reutilização de conhecimento (memória procedural e modular) e soluções que persistem dados em bancos SQL (persistência em SQL).

Resultados em comparação (resumo)

Modelo / Configuração	Benchmark	Acurácia
Claude Sonnet-4.5 (CAMEL agent)	Terminal Bench 2.0	46,5%
GPT-4.1 (CAMEL agent)	Terminal Bench 1.0	35%
Qwen3 8B (supervisionado)	Terminal Bench 2.0	3,4%
Qwen3 8B (treinado com RL do SETA)	Curadorias sintéticas	Melhora sobre baseline

Integração com CAMEL e uso prático

SETA integra-se ao CAMEL toolkit, que oferece primitivas para criar agentes que raciocinam, planejam e atuam.

Isso possibilita montar agentes individuais ou sociedades de agentes com papéis definidos; arquiteturas que coordenam agentes especializados têm sido exploradas em outras plataformas de orquestração (coordenação de agentes especializados).

O mesmo agente pode ser executado localmente e em avaliações oficiais, simplificando testes e depuração.

Conclusões e implicações para quem usa

SETA fornece uma pilha reproduzível para treinar e avaliar agentes em terminais.

A estrutura de logs torna o processo transparente e auditável, importante para pesquisa e produção.

A Note Taking Toolkit abre caminho para memória persistente em tarefas longas, embora falte ainda um objetivo de treino formal para maximizar seu uso.

Para desenvolvedores e pesquisadores, SETA oferece ferramentas e dados para escalar RL em tarefas de terminal e comparar resultados em benchmarks padronizados.

Para quem deseja experimentar localmente com agentes que planejam, recuperam erros e usam múltiplas ferramentas, há guias e exemplos de agentes offline e pipelines locais que ajudam a montar esses fluxos (padrões para agentes offline e multi-ferramenta, pipelines locais com integração a modelos).

Conclusão

SETA entrega um kit completo para transformar modelos em agentes que atuam no terminal: o Terminal Toolkit para executar comandos, um sistema de logs para debug passo a passo e a Note Taking Toolkit como memória persistente. O uso de ambientes sintéticos e treino por RL gera resultados reproduzíveis e competitivos no Terminal Bench.

Para quem desenvolve ou pesquisa, a maior vantagem é a transparência: os logs mostram a trilha desde a decisão até cada comando. A implementação unificada facilita validar localmente e oficialmente. Ainda há desafios — por exemplo, definir objetivos de treino para aproveitar melhor a memória — mas a base é prática, escalável e pronta para experimentos.

Mergulhe, coloque a mão na massa e acompanhe os logs para pegar o jeito. Quer continuar explorando? Leia mais em https://blog.aidirectory.com.br/mistral-lanca-devstral-dois-e-vibe-cli-para-criar-agentes-e-codar-direto-no-terminal/.

Perguntas frequentes

O que é o SETA?

Conjunto open source que treina agentes que usam um terminal Unix, com 400 tarefas sintéticas e integração ao CAMEL; foco em RL e avaliação com Terminal Bench.

Como funciona o Terminal Toolkit e os logs?

Transforma um modelo em agente de terminal; gera pastas em evaluation/terminalbenchrun; chatagent.log guarda decisões e chamadas; sessions/session_logs mostra comandos e saídas; tests.log confirma sucesso ou erro — proporcionando trilha completa para debugar.

O que faz o Note Taking Toolkit?

Fornece memória persistente: o agente escreve e lê notas estruturadas para ajudar em tarefas longas, separadas do buffer do terminal. Ainda não há um objetivo de treino completo público.

Como rodar a avaliação do Terminal Bench com SETA?

Entre em evaluation/terminalbencheval. Rode runeval.sh para TB 1.0 e runtb2.sh para TB 2.0. Resultados vão para run/{runid}/results.json. Logs por tarefa: logs/camellogs/{taskid}. tbenchcamel_agent.py conecta o agente ao benchmark.

Qual o desempenho do agente CAMEL com SETA?

Claude Sonnet-4.5: 46,5% no TB 2.0 (1º em 89 tarefas reais).

GPT-4.1: 35% no TB 1.0.

Qwen3 8B (supervisionado): 3,4% no TB 2.0; houve melhoria com treino por RL no pipeline do SETA.

Se você quiser conhecer outros artigos semelhantes a SETA oferece ambiente aberto para treinar agentes de terminal com toolkit CAMEL e memória de notas, você pode visitar a categoria Notícias e Tendências.