SETA oferece ambiente aberto para treinar agentes de terminal com toolkit CAMEL e memória de notas
3 meses ago · Updated 3 meses ago

- Ouça este artigo
- SETA: o que você precisa saber sobre a nova pilha open source para agentes em terminal
- Principais fatos
- O que SETA entrega (visão geral)
- Como o repositório organiza execução e logs
- Memória persistente: Note Taking Toolkit
- Resultados em comparação (resumo)
- Integração com CAMEL e uso prático
- Conclusões e implicações para quem usa
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você vai ver como SETA junta um kit de terminal que transforma modelos em agentes executáveis, um sistema de logs para debugar passo a passo e um bloco de notas que vira memória persistente para tarefas longas. O projeto usa ambientes sintéticos e avaliação alinhada ao benchmark Terminal Bench para treinar e medir agentes que atuam no shell, e mostra resultados de ponta que deixam claro onde o agente acerta ou erra.
- SETA transforma modelos de linguagem em agentes que atuam no terminal (ferramentas para criar agentes e codar direto no terminal).
- Logs organizados permitem seguir decisões até os comandos executados.
- Note Taking Toolkit oferece memória persistente para tarefas longas (exemplos de memória persistente em SQL).
- Ambientes sintéticos e treino por RL melhoram desempenho em tarefas reais (práticas de treino por reforço de ponta a ponta).
- Integração com CAMEL e testes padronizados facilita reprodução e avaliação (ferramentas modernas de avaliação e painéis de análise).
SETA: o que você precisa saber sobre a nova pilha open source para agentes em terminal
Pesquisadores da CAMEL AI, Eigent AI e colaboradores lançaram SETA, um conjunto open source que combina ambientes sintéticos, ferramentas estruturadas e avaliação alinhada a benchmarks para treinar agentes que atuam em terminais Unix. A pilha permite executar, debugar e avaliar agentes que realizam tarefas verificáveis em shells.
Principais fatos
- SETA agrega um Terminal Toolkit, uma Note Taking Toolkit (memória persistente) e um conjunto de 400 tarefas sintéticas.
- Em benchmarks oficiais Terminal Bench, agentes criados com SETA atingiram resultados de ponta, com ganhos frente a baselines supervisionados.
- O repositório inclui entrada específica para avaliações do Terminal Bench e uma estrutura de logs para rastrear decisões do agente passo a passo.
O que SETA entrega (visão geral)
- Desempenho de referência:
- Agente com base em Claude Sonnet-4.5: 46,5% no Terminal Bench 2.0 (89 tarefas reais), segundo os desenvolvedores.
- Agente baseado em GPT-4.1: 35% no Terminal Bench 1.0.
- Baseline supervisionado Qwen3 8B: 3,4% no TB2.0; o Qwen3 8B treinado via pipeline de RL do SETA mostrou melhora.
- Treinamento em larga escala:
- Conjunto sintético com 400 tarefas; cerca de 260 foram usadas para fine-tuning por RL do Qwen3-8B.
- O uso de curadorias sintéticas e currículos progressivos é comum em pipelines que escalam agentes via exploração e adaptação (exemplo de currículos progressivos).
- Design unificado:
- A mesma implementação de agente serve para execuções locais e para avaliações oficiais, facilitando reprodução e integração (padrões de execução local para agentes).
Como o repositório organiza execução e logs
No repositório há um Terminal Toolkit que transforma um modelo em agente capaz de executar comandos. A estrutura de logs foi pensada para facilitar debug e auditoria.
Diretórios e pontos de entrada:
- evaluation/terminalbenchrun — logs para execuções por tarefa (ex.: play-zork).
- evaluation/terminalbencheval — entrada para avaliação oficial. Use runeval.sh para TB1.0 e runtb2.sh para TB2.0.
- Resultados: evaluation/terminalbencheval/run/{run_id}/results.json.
- Logs de sessão por tarefa: evaluation/terminalbencheval/logs/camellogs/{taskid}.
- Conector do agente CAMEL para o benchmark: tbenchcamelagent.py.
Arquivos de log importantes:
- chatagent.log — histórico de mensagens do agente e chamadas de ferramenta.
- sessions/sessionlogs/ — logs de comandos e saídas (ex.: blockingcommands.log, session_zork-1.log).
- tests.log e tests.log.strip — saídas dos testes (a versão .strip remove caracteres de controle).
Esses arquivos permitem rastrear desde decisões de alto nível até cada comando no shell e verificar sucesso ou falha. Para quem precisa de painéis e relatórios mais visuais sobre execução e métricas, há iniciativas focadas em avaliação de agentes que complementam esse tipo de saída (sistemas de avaliação com relatórios visuais).
Memória persistente: Note Taking Toolkit
- A Note Taking Toolkit funciona como memória persistente para tarefas de longa duração.
- O agente pode escrever e ler notas em formato estruturado enquanto resolve uma tarefa, registrando resultados intermediários e dicas, separado do buffer do terminal.
- Há exemplos públicos de uso, mas ainda não existe uma definição completa de objetivo de treinamento para otimizar o uso das notas. Abordagens alternativas incluem memórias procedurais e armazenamento estruturado para reutilização de conhecimento (memória procedural e modular) e soluções que persistem dados em bancos SQL (persistência em SQL).
Resultados em comparação (resumo)
| Modelo / Configuração | Benchmark | Acurácia |
|---|---|---|
| Claude Sonnet-4.5 (CAMEL agent) | Terminal Bench 2.0 | 46,5% |
| GPT-4.1 (CAMEL agent) | Terminal Bench 1.0 | 35% |
| Qwen3 8B (supervisionado) | Terminal Bench 2.0 | 3,4% |
| Qwen3 8B (treinado com RL do SETA) | Curadorias sintéticas | Melhora sobre baseline |
Integração com CAMEL e uso prático
- SETA integra-se ao CAMEL toolkit, que oferece primitivas para criar agentes que raciocinam, planejam e atuam.
- Isso possibilita montar agentes individuais ou sociedades de agentes com papéis definidos; arquiteturas que coordenam agentes especializados têm sido exploradas em outras plataformas de orquestração (coordenação de agentes especializados).
- O mesmo agente pode ser executado localmente e em avaliações oficiais, simplificando testes e depuração.
Conclusões e implicações para quem usa
- SETA fornece uma pilha reproduzível para treinar e avaliar agentes em terminais.
- A estrutura de logs torna o processo transparente e auditável, importante para pesquisa e produção.
- A Note Taking Toolkit abre caminho para memória persistente em tarefas longas, embora falte ainda um objetivo de treino formal para maximizar seu uso.
- Para desenvolvedores e pesquisadores, SETA oferece ferramentas e dados para escalar RL em tarefas de terminal e comparar resultados em benchmarks padronizados.
- Para quem deseja experimentar localmente com agentes que planejam, recuperam erros e usam múltiplas ferramentas, há guias e exemplos de agentes offline e pipelines locais que ajudam a montar esses fluxos (padrões para agentes offline e multi-ferramenta, pipelines locais com integração a modelos).
Conclusão
SETA entrega um kit completo para transformar modelos em agentes que atuam no terminal: o Terminal Toolkit para executar comandos, um sistema de logs para debug passo a passo e a Note Taking Toolkit como memória persistente. O uso de ambientes sintéticos e treino por RL gera resultados reproduzíveis e competitivos no Terminal Bench.
Para quem desenvolve ou pesquisa, a maior vantagem é a transparência: os logs mostram a trilha desde a decisão até cada comando. A implementação unificada facilita validar localmente e oficialmente. Ainda há desafios — por exemplo, definir objetivos de treino para aproveitar melhor a memória — mas a base é prática, escalável e pronta para experimentos.
Mergulhe, coloque a mão na massa e acompanhe os logs para pegar o jeito. Quer continuar explorando? Leia mais em https://blog.aidirectory.com.br/mistral-lanca-devstral-dois-e-vibe-cli-para-criar-agentes-e-codar-direto-no-terminal/.
Perguntas frequentes
- O que é o SETA?
- Conjunto open source que treina agentes que usam um terminal Unix, com 400 tarefas sintéticas e integração ao CAMEL; foco em RL e avaliação com Terminal Bench.
- Como funciona o Terminal Toolkit e os logs?
- Transforma um modelo em agente de terminal; gera pastas em evaluation/terminalbenchrun; chatagent.log guarda decisões e chamadas; sessions/session_logs mostra comandos e saídas; tests.log confirma sucesso ou erro — proporcionando trilha completa para debugar.
- O que faz o Note Taking Toolkit?
- Fornece memória persistente: o agente escreve e lê notas estruturadas para ajudar em tarefas longas, separadas do buffer do terminal. Ainda não há um objetivo de treino completo público.
- Como rodar a avaliação do Terminal Bench com SETA?
- Entre em evaluation/terminalbencheval. Rode runeval.sh para TB 1.0 e runtb2.sh para TB 2.0. Resultados vão para run/{runid}/results.json. Logs por tarefa: logs/camellogs/{taskid}. tbenchcamel_agent.py conecta o agente ao benchmark.
- Qual o desempenho do agente CAMEL com SETA?
- Claude Sonnet-4.5: 46,5% no TB 2.0 (1º em 89 tarefas reais).
- GPT-4.1: 35% no TB 1.0.
- Qwen3 8B (supervisionado): 3,4% no TB 2.0; houve melhoria com treino por RL no pipeline do SETA.
Se você quiser conhecer outros artigos semelhantes a SETA oferece ambiente aberto para treinar agentes de terminal com toolkit CAMEL e memória de notas, você pode visitar a categoria Notícias e Tendências.
