Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta

4 meses ago · Updated 4 meses ago

anthropic-lanca-bloom-plataforma-de-codigo-aberto-para-avaliacoes-automaticas-do-comportamento-de-mo
Table
  1. Ouça este artigo
  2. Anthropic lança Bloom, ferramenta aberta para avaliar comportamentos de IA
  3. O que é Bloom e por que importa
  4. Como Bloom funciona
  5. Integrações e infraestrutura
  6. Validação e resultados principais
  7. Relação com Petri
  8. Para quem pesquisa ou avalia modelos
  9. Conclusão
  10. Perguntas frequentes

Ouça este artigo


  • Bloom é open source e automatiza avaliações comportamentais de modelos grandes de IA
  • Uma seed define o comportamento alvo e gera cenários reproduzíveis
  • Pipeline em quatro agentes que entende, cria, simula e julga conversas
  • Validado em modelos de ponta e consistente com julgamentos humanos
  • Roda em Python, disponível no GitHub e integra Anthropic, OpenAI e LiteLLM

Anthropic lança Bloom, ferramenta aberta para avaliar comportamentos de IA

Agora é possível acessar Bloom, um framework open source da Anthropic que automatiza avaliações comportamentais de modelos de IA avançados. O sistema transforma uma descrição do comportamento em cenários realistas e mede com que frequência e intensidade o comportamento alvo aparece.

O que é Bloom e por que importa

  • Bloom automatiza a criação de testes focados num comportamento específico, reduzindo o trabalho manual de escrever cenários e ler transcrições.
  • Resolve um problema de escala: gera avaliações novas e reproduzíveis sem depender de um conjunto fixo de prompts.
  • Código em Python, licenciado em MIT, disponível no GitHub.

Como Bloom funciona

Você começa com uma seed que define o comportamento a ser estudado e parâmetros básicos.

Arquivos centrais:

  • seed.yaml — entrada principal que controla a execução.
  • behaviors/behaviors.json — lista de comportamentos referenciados pela seed.

A seed pode incluir exemplos de conversas e parâmetros globais; o registro da seed permite reproduzir uma execução.

Pipeline agentic em quatro etapas sequenciais:

  • Agente de Compreensão — interpreta a descrição do comportamento e exemplos.
  • Agente de Ideação — gera cenários e perfis de usuário.
  • Agente de Execução (Rollout) — realiza conversas multi-turno com o modelo e grava transcrições.
  • Agente de Julgamento — avalia e pontua presença e severidade do comportamento.

Integrações e infraestrutura

  • Pode usar LiteLLM para chamadas locais e conecta-se a modelos da Anthropic e da OpenAI por uma interface única; para cenários que envolvem agentes e simulações, Bloom se complementa com ferramentas de teste de agentes como a Rogue.
  • Suporta integração com sistemas de monitoramento e painéis, facilitando varreduras em larga escala e exploração de resultados, seguindo tendências de dashboards de avaliação.
  • Exporta transcrições compatíveis com ferramentas de inspeção (Inspect) e visualização, integrando-se bem a fluxos que usam painéis e relatórios detalhados.
  • Para testes de simulação e ambientes controlados de agentes, Bloom pode ser usado junto a motores de simulação como Snowglobe.
  • Em cenários que exigem privacidade e ajuste fino, Bloom se encaixa em pipelines que adotam práticas de privacidade, como abordado por ferramentas e frameworks de privacidade na comunidade de pesquisa.

Validação e resultados principais

Anthropic usou Bloom para criar quatro suítes de avaliação focadas em alinhamento. Comportamentos avaliados:

  • Sicofania delusional (sugestiva e bajuladora)
  • Sabotagem instruída de longo prazo
  • Autopreservação
  • Viés de preferência própria

Detalhes dos testes:

  • 100 rollouts por suíte, repetidos 3 vezes
  • 16 modelos de ponta testados
  • Claude Opus 4.1 usado como juiz automático nas estatísticas apresentadas
  • Em modelos organismo intencionalmente desalinhados, Bloom diferenciou o organismo do modelo de produção em 9/10 comportamentos
  • Validação com rótulos humanos (40 transcrições): Claude Opus 4.1 obteve correlação Spearman 0.86; Claude Sonnet 4.5 obteve Spearman 0.75 — maior concordância em casos com pontuações extremas

Além disso, resultados como esses costumam ser comparados a outras metodologias de avaliação de raciocínio e benchmark, por exemplo metodologias descritas em discussões sobre REST.

Resumo numérico:

Item Valor
Rollouts por suíte 100
Repetições 3
Modelos testados 16
Correlação (Claude Opus 4.1) Spearman 0.86
Correlação (Claude Sonnet 4.5) Spearman 0.75
Casos distinguíveis em organismos 9/10

Relação com Petri

  • Petri faz auditorias de cobertura ampla, explorando muitas dimensões de segurança.
  • Bloom é complementar: parte de um único comportamento e automatiza a engenharia para transformá-lo numa suíte direcionada com métricas quantitativas, como taxa de elicitação.

Para quem pesquisa ou avalia modelos

  • Use Bloom para gerar testes focados e repetíveis sem montar manualmente cada cenário.
  • Reduz trabalho manual e mantém métricas relevantes à medida que modelos evoluem.
  • Projeto disponível no GitHub para uso e contribuições; combine-o com outras ferramentas de avaliação e auditoria para obter cobertura técnica e operacional mais ampla.

Se o objetivo for avaliar modelos em domínios específicos (por exemplo, saúde), vale checar metodologias de avaliação setorial e ferramentas correspondentes, como estudos sobre avaliação de modelos para saúde ou QA especializada em regiões como Afrimed QA.

Conclusão

Bloom é uma ferramenta open source da Anthropic que transforma uma descrição de comportamento numa bateria de testes prática e reproduzível. Com uma seed bem definida e um pipeline em quatro agentes (compreensão, ideação, rollout e julgamento), Bloom reduz trabalho manual, amplia a cobertura de cenários e entrega métricas mensuráveis. Em testes, mostrou forte correlação com rótulos humanos e capacidade de distinguir comportamentos em modelos desalinhados — oferecendo mais confiança para decisões de auditoria e desenvolvimento. Não substitui revisão humana, e a importância da supervisão humana fica alinhada aos alertas de especialistas sobre riscos, mas Bloom escala o que é repetitivo e padronizável.

Para mais ferramentas e casos práticos, leia no blog: https://blog.aidirectory.com.br.

Perguntas frequentes

  • O que é o Bloom?
    Bloom é um framework agentic de código aberto que gera e mede comportamentos de modelos de IA em cenários reais. É em Python, com licença MIT, e integra LiteLLM, Anthropic e OpenAI.
  • Como funciona a seed (seed.yaml) e a configuração?
    A seed define o comportamento, exemplos e parâmetros globais, aponta para behaviors.json e controla quantos cenários gerar. Cada execução cria cenários novos; a seed garante reprodutibilidade.
  • Quais são as quatro etapas do pipeline agentic?
    1) Understanding: entende o comportamento; 2) Ideation: cria cenários e personas; 3) Rollout: roda conversas multi-turn e registra; 4) Judgment: avalia e pontua a presença do comportamento.
  • Como o Bloom foi validado em modelos de ponta?
    Anthropic rodou suítes para quatro comportamentos com 100 rollouts, testou 16 modelos e modelos organismo desalinhados. O avaliador Claude Opus 4.1 teve correlação alta com rótulos humanos (Spearman ~0,86).
  • Qual a relação entre Bloom e Petri?
    Bloom foca em avaliação profunda por comportamento; Petri cobre muitos cenários. Use Bloom para métricas precisas e Petri para perfil amplo.

Se você quiser conhecer outros artigos semelhantes a Anthropic lança Bloom, plataforma de código aberto para avaliações automáticas do comportamento de modelos de IA de ponta, você pode visitar a categoria Notícias e Tendências.

Go up