Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta
4 meses ago · Updated 4 meses ago

Ouça este artigo
- Bloom é open source e automatiza avaliações comportamentais de modelos grandes de IA
- Uma seed define o comportamento alvo e gera cenários reproduzíveis
- Pipeline em quatro agentes que entende, cria, simula e julga conversas
- Validado em modelos de ponta e consistente com julgamentos humanos
- Roda em Python, disponível no GitHub e integra Anthropic, OpenAI e LiteLLM
Anthropic lança Bloom, ferramenta aberta para avaliar comportamentos de IA
Agora é possível acessar Bloom, um framework open source da Anthropic que automatiza avaliações comportamentais de modelos de IA avançados. O sistema transforma uma descrição do comportamento em cenários realistas e mede com que frequência e intensidade o comportamento alvo aparece.
O que é Bloom e por que importa
- Bloom automatiza a criação de testes focados num comportamento específico, reduzindo o trabalho manual de escrever cenários e ler transcrições.
- Resolve um problema de escala: gera avaliações novas e reproduzíveis sem depender de um conjunto fixo de prompts.
- Código em Python, licenciado em MIT, disponível no GitHub.
Como Bloom funciona
Você começa com uma seed que define o comportamento a ser estudado e parâmetros básicos.
Arquivos centrais:
- seed.yaml — entrada principal que controla a execução.
- behaviors/behaviors.json — lista de comportamentos referenciados pela seed.
A seed pode incluir exemplos de conversas e parâmetros globais; o registro da seed permite reproduzir uma execução.
Pipeline agentic em quatro etapas sequenciais:
- Agente de Compreensão — interpreta a descrição do comportamento e exemplos.
- Agente de Ideação — gera cenários e perfis de usuário.
- Agente de Execução (Rollout) — realiza conversas multi-turno com o modelo e grava transcrições.
- Agente de Julgamento — avalia e pontua presença e severidade do comportamento.
Integrações e infraestrutura
- Pode usar LiteLLM para chamadas locais e conecta-se a modelos da Anthropic e da OpenAI por uma interface única; para cenários que envolvem agentes e simulações, Bloom se complementa com ferramentas de teste de agentes como a Rogue.
- Suporta integração com sistemas de monitoramento e painéis, facilitando varreduras em larga escala e exploração de resultados, seguindo tendências de dashboards de avaliação.
- Exporta transcrições compatíveis com ferramentas de inspeção (Inspect) e visualização, integrando-se bem a fluxos que usam painéis e relatórios detalhados.
- Para testes de simulação e ambientes controlados de agentes, Bloom pode ser usado junto a motores de simulação como Snowglobe.
- Em cenários que exigem privacidade e ajuste fino, Bloom se encaixa em pipelines que adotam práticas de privacidade, como abordado por ferramentas e frameworks de privacidade na comunidade de pesquisa.
Validação e resultados principais
Anthropic usou Bloom para criar quatro suítes de avaliação focadas em alinhamento. Comportamentos avaliados:
- Sicofania delusional (sugestiva e bajuladora)
- Sabotagem instruída de longo prazo
- Autopreservação
- Viés de preferência própria
Detalhes dos testes:
- 100 rollouts por suíte, repetidos 3 vezes
- 16 modelos de ponta testados
- Claude Opus 4.1 usado como juiz automático nas estatísticas apresentadas
- Em modelos organismo intencionalmente desalinhados, Bloom diferenciou o organismo do modelo de produção em 9/10 comportamentos
- Validação com rótulos humanos (40 transcrições): Claude Opus 4.1 obteve correlação Spearman 0.86; Claude Sonnet 4.5 obteve Spearman 0.75 — maior concordância em casos com pontuações extremas
Além disso, resultados como esses costumam ser comparados a outras metodologias de avaliação de raciocínio e benchmark, por exemplo metodologias descritas em discussões sobre REST.
Resumo numérico:
| Item | Valor |
|---|---|
| Rollouts por suíte | 100 |
| Repetições | 3 |
| Modelos testados | 16 |
| Correlação (Claude Opus 4.1) | Spearman 0.86 |
| Correlação (Claude Sonnet 4.5) | Spearman 0.75 |
| Casos distinguíveis em organismos | 9/10 |
Relação com Petri
- Petri faz auditorias de cobertura ampla, explorando muitas dimensões de segurança.
- Bloom é complementar: parte de um único comportamento e automatiza a engenharia para transformá-lo numa suíte direcionada com métricas quantitativas, como taxa de elicitação.
Para quem pesquisa ou avalia modelos
- Use Bloom para gerar testes focados e repetíveis sem montar manualmente cada cenário.
- Reduz trabalho manual e mantém métricas relevantes à medida que modelos evoluem.
- Projeto disponível no GitHub para uso e contribuições; combine-o com outras ferramentas de avaliação e auditoria para obter cobertura técnica e operacional mais ampla.
Se o objetivo for avaliar modelos em domínios específicos (por exemplo, saúde), vale checar metodologias de avaliação setorial e ferramentas correspondentes, como estudos sobre avaliação de modelos para saúde ou QA especializada em regiões como Afrimed QA.
Conclusão
Bloom é uma ferramenta open source da Anthropic que transforma uma descrição de comportamento numa bateria de testes prática e reproduzível. Com uma seed bem definida e um pipeline em quatro agentes (compreensão, ideação, rollout e julgamento), Bloom reduz trabalho manual, amplia a cobertura de cenários e entrega métricas mensuráveis. Em testes, mostrou forte correlação com rótulos humanos e capacidade de distinguir comportamentos em modelos desalinhados — oferecendo mais confiança para decisões de auditoria e desenvolvimento. Não substitui revisão humana, e a importância da supervisão humana fica alinhada aos alertas de especialistas sobre riscos, mas Bloom escala o que é repetitivo e padronizável.
Para mais ferramentas e casos práticos, leia no blog: https://blog.aidirectory.com.br.
Perguntas frequentes
- O que é o Bloom?
Bloom é um framework agentic de código aberto que gera e mede comportamentos de modelos de IA em cenários reais. É em Python, com licença MIT, e integra LiteLLM, Anthropic e OpenAI.
- Como funciona a seed (seed.yaml) e a configuração?
A seed define o comportamento, exemplos e parâmetros globais, aponta para behaviors.json e controla quantos cenários gerar. Cada execução cria cenários novos; a seed garante reprodutibilidade.
- Quais são as quatro etapas do pipeline agentic?
1) Understanding: entende o comportamento; 2) Ideation: cria cenários e personas; 3) Rollout: roda conversas multi-turn e registra; 4) Judgment: avalia e pontua a presença do comportamento.
- Como o Bloom foi validado em modelos de ponta?
Anthropic rodou suítes para quatro comportamentos com 100 rollouts, testou 16 modelos e modelos organismo desalinhados. O avaliador Claude Opus 4.1 teve correlação alta com rótulos humanos (Spearman ~0,86).
- Qual a relação entre Bloom e Petri?
Bloom foca em avaliação profunda por comportamento; Petri cobre muitos cenários. Use Bloom para métricas precisas e Petri para perfil amplo.
Se você quiser conhecer outros artigos semelhantes a Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta, você pode visitar a categoria Notícias e Tendências.
