Com TUMIX do Google você terá respostas de IA mais precisas e baratas

1 dia ago · Updated 1 dia ago

com-tumix-do-google-voce-tera-respostas-de-ia-mais-precisas-e-baratas

Table

Ouça este artigo
Google apresenta TUMIX: mistura de agentes que usa ferramentas em tempo de teste
O que é novo?
Como funciona (passos)
Resultados principais
Por que isso importa para você
Contexto e implicações técnicas
Conclusão
Perguntas frequentes
Referências e leitura recomendada

Ouça este artigo

Você vai ler sobre TUMIX, a proposta do Google que troca reamostragem por uma mistura de agentes com ferramentas. Em vez de rodar tentativas idênticas, agentes variados — texto, código, busca e variantes guiadas — compartilham notas e refinam respostas juntos. Um juiz baseado em LLM pode parar cedo quando há consenso. O resultado é mais acerto e menos custo em tarefas difíceis como HLE. Vamos ver o que muda, como funciona, os resultados e o que isso significa para você.

TUMIX combina agentes com estilos diferentes: texto, código e busca.

Agentes trocam notas e refinam respostas em iterações curtas.

Um juiz LLM decide quando parar cedo para poupar custo.

O método aumenta a chance de achar respostas corretas em problemas difíceis.

Em vez de re-amostragem, TUMIX explora diversidade de ferramentas para melhorar resultados.

Google apresenta TUMIX: mistura de agentes que usa ferramentas em tempo de teste

Pesquisadores do Google Cloud AI Research, com apoio do MIT, Harvard e Google DeepMind, propuseram TUMIX. É um sistema de teste em tempo real que combina vários estilos de agente e faz com que eles compartilhem raciocínios para aumentar a precisão em tarefas difíceis gastando menos recursos. Em um dos testes, Gemini-2.5 Pro chegou a 34,1% no benchmark HLE ao combinar cerca de 12–15 agentes que usam ferramentas e param cedo com base em um juiz LLM. Para entender implicações práticas do uso de variantes do Gemini em produção, vale ver como usar o Gemini CLI em pipelines e CI/CD.

Para ler o trabalho original e detalhes técnicos, veja: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/. Mais contexto prático e análises podem ser encontrados em https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/ e outras postagens citadas na referência.

O que é novo?

TUMIX substitui a estratégia de re-amostragem por uma comissão heterogênea de agentes.

Em vez de gerar múltiplas respostas do mesmo agente, o sistema junta agentes com estilos diferentes: texto, código, busca e variantes guiadas. Esse conceito é relacionado a abordagens que ensinam agentes a coordenar e entender contexto, como explicado em como construir agentes que coordenam em equipe.

Eles trocam notas intermediárias e refinam respostas por algumas rodadas curtas.

Um juiz LLM avalia se houve consenso e pode encerrar o processo mais cedo para economizar custo.

O foco é aumentar a cobertura de candidatos corretos sem multiplicar o gasto por re-amostragem.

Como funciona (passos)

Recebe-se a pergunta original.

Um conjunto paralelo de agentes, com capacidades diversas, responde e escreve notas. Muitos fluxos práticos combinam execução de código, buscas e pipelines de conteúdo; veja exemplos de pipelines que integram busca e geração.

Em rodadas curtas, cada agente revisa a pergunta e as notas dos outros e gera uma nova versão do seu raciocínio. Para suportar chamadas a ferramentas e orquestração, usar interfaces e CLIs adequados facilita a coordenação entre agentes (exemplos de uso do Gemini CLI).

Um juiz LLM avalia se há consistência suficiente.

Se houver, o sistema para e agrega (por voto majoritário ou seletor). Caso contrário, faz mais uma rodada.

Esse processo permite parar cedo quando o consenso é forte. A diversidade dos agentes substitui a necessidade de muitas tentativas do mesmo modelo.

Resultados principais

Em benchmarks difíceis (HLE, GPQA-Diamond, AIME 2024/2025), TUMIX melhorou a acurácia média.

Comparado a outras abordagens que usam ferramentas em tempo de teste (Self-MoA, Symbolic-MoE, DEI), TUMIX alcançou o melhor resultado médio dentro do mesmo orçamento de inferência.

Números de destaque:

Gemini-2.5 Pro: 34,1% no HLE com TUMIX (uso de ~12–15 agentes).

Ganho médio: 3,55% sobre a melhor baseline de uso de ferramentas com custo similar.

Ganhos relativos vs. sem escalonamento: 7,8% (Pro) e 17,4% (Flash). O impacto de versões otimizadas para custo e latência, como variantes Flash, explora a mesma ideia de reduzir tokens gastos — confira comparações de performance e economia em prévias do Gemini Flash Lite.

Benefício atinge saturação por volta de 12–15 estilos de agente.

Tabela resumida (simplificada):

Benchmark	Destaque	Observação
HLE	34,1% (Gemini-2.5 Pro)	Uso de ~12–15 agentes
Vários (média)	3,55%	Sobre melhores baselines com custo similar
Pro vs sem-scaling	7,8%	Melhoria relativa para Pro
Flash vs sem-scaling	17,4%	Melhoria relativa para Flash

Por que isso importa para você

Se opera sistemas com limites de latência e custo, TUMIX oferece caminho para respostas mais corretas sem aumentar muito o gasto. Abordagens concorrentes que visam acelerar e baratear inferência, como as cascatas especulativas, compartilham objetivos semelhantes de eficiência.

Você ganha diversidade de raciocínio sem depender de muitas repetições do mesmo modelo.

O mecanismo de parada precoce ajuda a manter a eficiência.

Contexto e implicações técnicas

O problema é tratado como busca sobre políticas de ferramentas heterogêneas, não apenas amostragem ampla.

A arquitetura explora paralelismo entre agentes que usam diferentes ferramentas (execução de código, busca web etc.). Projetos e novidades em ferramentas experimentais e laboratórios trazem recursos complementares para teste de modelos e integração de ferramentas — veja algumas inovações recentes no Google Labs.

A nota compartilhada é estruturada para que cada agente condicione suas respostas nas rodadas seguintes.

Ganhos práticos convergem em cerca de uma dúzia de estilos, indicando que a seleção de estratégias é mais crítica que gerar mais variantes do mesmo tipo.

Conclusão

TUMIX é uma orquestra de agentes: cada instrumento (texto, código, busca, variantes guiadas) toca uma parte até formar uma resposta mais precisa. Em vez de repetir o mesmo modelo, o sistema aposta na diversidade de caminhos, entregando mais precisão com menos custo, graças ao juiz LLM que pode parar cedo quando há consenso. Para aplicar: priorize seleção de estilos de agente (veja guias sobre agentes coordenados), vise ~12–15 agentes como ponto de partida e foque em um juiz rápido e infraestrutura que suporte ferramentas (por exemplo, integrando o Gemini CLI para automação).

Quer se aprofundar? Leia o artigo original e detalhes técnicos em: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/.

Perguntas frequentes

Q: O que é TUMIX?
A: É um método do Google para melhorar respostas de IA reunindo vários agentes (com e sem ferramentas) que trocam notas e refinam respostas em poucas rodadas; um juiz LLM para cedo se houver consenso.

Q: Como TUMIX deixa as respostas mais precisas e mais baratas?
A: Usa diversidade em vez de re-amostragem — diferentes agentes exploram caminhos distintos e o juiz encerra cedo, economizando tokens e chamadas de ferramenta.

Q: Como TUMIX funciona na prática?
A: Roda agentes textuais, de código, busca e guiados em paralelo; cada um vê a pergunta e as notas dos outros; fazem 1–3 rodadas de refinamento; o juiz escolhe a resposta final por voto ou seletor.

Q: Quantos agentes devo usar?
A: Os autores encontraram ponto ótimo em ~12–15 estilos. Menos reduz cobertura; mais sobe custo sem ganho. Comece por 12 e ajuste conforme orçamento.

Q: Quais são as limitações e riscos?
A: Requer infraestrutura para executar ferramentas e agentes; latência pode aumentar sem um juiz rápido; nem sempre compensa em tarefas simples; a escolha dos agentes é crítica.

Referências e leitura recomendada

Artigo e resumo técnico: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/

Teste e comparação de modelos (ferramentas para avaliação): Google STAX para testar e comparar modelos.

Construção de pipelines com busca e geração: como integrar pesquisa e conteúdo.

Economia de tokens e variantes Flash: prévia do Gemini Flash Lite.

Abordagens para reduzir custo e latência: cascatas especulativas.

Como orquestrar agentes coordenados: guia de agentes MCP.

Integração e automação com Gemini: uso do Gemini CLI em pipelines.

Se você quiser conhecer outros artigos semelhantes a Com TUMIX do Google você terá respostas de IA mais precisas e baratas, você pode visitar a categoria Notícias e Tendências.