Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta

4 meses ago · Updated 4 meses ago

anthropic-lanca-bloom-plataforma-de-codigo-aberto-para-avaliacoes-automaticas-do-comportamento-de-mo

Table

Ouça este artigo
Anthropic lança Bloom, ferramenta aberta para avaliar comportamentos de IA
O que é Bloom e por que importa
Como Bloom funciona
Integrações e infraestrutura
Validação e resultados principais
Relação com Petri
Para quem pesquisa ou avalia modelos
Conclusão
Perguntas frequentes

Ouça este artigo

Bloom é open source e automatiza avaliações comportamentais de modelos grandes de IA

Uma seed define o comportamento alvo e gera cenários reproduzíveis

Pipeline em quatro agentes que entende, cria, simula e julga conversas

Validado em modelos de ponta e consistente com julgamentos humanos

Roda em Python, disponível no GitHub e integra Anthropic, OpenAI e LiteLLM

Anthropic lança Bloom, ferramenta aberta para avaliar comportamentos de IA

Agora é possível acessar Bloom, um framework open source da Anthropic que automatiza avaliações comportamentais de modelos de IA avançados. O sistema transforma uma descrição do comportamento em cenários realistas e mede com que frequência e intensidade o comportamento alvo aparece.

O que é Bloom e por que importa

Bloom automatiza a criação de testes focados num comportamento específico, reduzindo o trabalho manual de escrever cenários e ler transcrições.

Resolve um problema de escala: gera avaliações novas e reproduzíveis sem depender de um conjunto fixo de prompts.

Código em Python, licenciado em MIT, disponível no GitHub.

Como Bloom funciona

Você começa com uma seed que define o comportamento a ser estudado e parâmetros básicos.

Arquivos centrais:

seed.yaml — entrada principal que controla a execução.

behaviors/behaviors.json — lista de comportamentos referenciados pela seed.

A seed pode incluir exemplos de conversas e parâmetros globais; o registro da seed permite reproduzir uma execução.

Pipeline agentic em quatro etapas sequenciais:

Agente de Compreensão — interpreta a descrição do comportamento e exemplos.

Agente de Ideação — gera cenários e perfis de usuário.

Agente de Execução (Rollout) — realiza conversas multi-turno com o modelo e grava transcrições.

Agente de Julgamento — avalia e pontua presença e severidade do comportamento.

Integrações e infraestrutura

Pode usar LiteLLM para chamadas locais e conecta-se a modelos da Anthropic e da OpenAI por uma interface única; para cenários que envolvem agentes e simulações, Bloom se complementa com ferramentas de teste de agentes como a Rogue.

Suporta integração com sistemas de monitoramento e painéis, facilitando varreduras em larga escala e exploração de resultados, seguindo tendências de dashboards de avaliação.

Exporta transcrições compatíveis com ferramentas de inspeção (Inspect) e visualização, integrando-se bem a fluxos que usam painéis e relatórios detalhados.

Para testes de simulação e ambientes controlados de agentes, Bloom pode ser usado junto a motores de simulação como Snowglobe.

Em cenários que exigem privacidade e ajuste fino, Bloom se encaixa em pipelines que adotam práticas de privacidade, como abordado por ferramentas e frameworks de privacidade na comunidade de pesquisa.

Validação e resultados principais

Anthropic usou Bloom para criar quatro suítes de avaliação focadas em alinhamento. Comportamentos avaliados:

Sicofania delusional (sugestiva e bajuladora)

Sabotagem instruída de longo prazo

Autopreservação

Viés de preferência própria

Detalhes dos testes:

100 rollouts por suíte, repetidos 3 vezes

16 modelos de ponta testados

Claude Opus 4.1 usado como juiz automático nas estatísticas apresentadas

Em modelos organismo intencionalmente desalinhados, Bloom diferenciou o organismo do modelo de produção em 9/10 comportamentos

Validação com rótulos humanos (40 transcrições): Claude Opus 4.1 obteve correlação Spearman 0.86; Claude Sonnet 4.5 obteve Spearman 0.75 — maior concordância em casos com pontuações extremas

Além disso, resultados como esses costumam ser comparados a outras metodologias de avaliação de raciocínio e benchmark, por exemplo metodologias descritas em discussões sobre REST.

Resumo numérico:

Item	Valor
Rollouts por suíte	100
Repetições	3
Modelos testados	16
Correlação (Claude Opus 4.1)	Spearman 0.86
Correlação (Claude Sonnet 4.5)	Spearman 0.75
Casos distinguíveis em organismos	9/10

Relação com Petri

Petri faz auditorias de cobertura ampla, explorando muitas dimensões de segurança.

Bloom é complementar: parte de um único comportamento e automatiza a engenharia para transformá-lo numa suíte direcionada com métricas quantitativas, como taxa de elicitação.

Para quem pesquisa ou avalia modelos

Use Bloom para gerar testes focados e repetíveis sem montar manualmente cada cenário.

Reduz trabalho manual e mantém métricas relevantes à medida que modelos evoluem.

Projeto disponível no GitHub para uso e contribuições; combine-o com outras ferramentas de avaliação e auditoria para obter cobertura técnica e operacional mais ampla.

Se o objetivo for avaliar modelos em domínios específicos (por exemplo, saúde), vale checar metodologias de avaliação setorial e ferramentas correspondentes, como estudos sobre avaliação de modelos para saúde ou QA especializada em regiões como Afrimed QA.

Conclusão

Bloom é uma ferramenta open source da Anthropic que transforma uma descrição de comportamento numa bateria de testes prática e reproduzível. Com uma seed bem definida e um pipeline em quatro agentes (compreensão, ideação, rollout e julgamento), Bloom reduz trabalho manual, amplia a cobertura de cenários e entrega métricas mensuráveis. Em testes, mostrou forte correlação com rótulos humanos e capacidade de distinguir comportamentos em modelos desalinhados — oferecendo mais confiança para decisões de auditoria e desenvolvimento. Não substitui revisão humana, e a importância da supervisão humana fica alinhada aos alertas de especialistas sobre riscos, mas Bloom escala o que é repetitivo e padronizável.

Para mais ferramentas e casos práticos, leia no blog: https://blog.aidirectory.com.br.

Perguntas frequentes

O que é o Bloom?
Bloom é um framework agentic de código aberto que gera e mede comportamentos de modelos de IA em cenários reais. É em Python, com licença MIT, e integra LiteLLM, Anthropic e OpenAI.

Como funciona a seed (seed.yaml) e a configuração?
A seed define o comportamento, exemplos e parâmetros globais, aponta para behaviors.json e controla quantos cenários gerar. Cada execução cria cenários novos; a seed garante reprodutibilidade.

Quais são as quatro etapas do pipeline agentic?
1) Understanding: entende o comportamento; 2) Ideation: cria cenários e personas; 3) Rollout: roda conversas multi-turn e registra; 4) Judgment: avalia e pontua a presença do comportamento.

Como o Bloom foi validado em modelos de ponta?
Anthropic rodou suítes para quatro comportamentos com 100 rollouts, testou 16 modelos e modelos organismo desalinhados. O avaliador Claude Opus 4.1 teve correlação alta com rótulos humanos (Spearman ~0,86).

Qual a relação entre Bloom e Petri?
Bloom foca em avaliação profunda por comportamento; Petri cobre muitos cenários. Use Bloom para métricas precisas e Petri para perfil amplo.

Se você quiser conhecer outros artigos semelhantes a Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta, você pode visitar a categoria Notícias e Tendências.