Com TUMIX do Google você terá respostas de IA mais precisas e baratas
1 dia ago · Updated 1 dia ago

Ouça este artigo
Você vai ler sobre TUMIX, a proposta do Google que troca reamostragem por uma mistura de agentes com ferramentas. Em vez de rodar tentativas idênticas, agentes variados — texto, código, busca e variantes guiadas — compartilham notas e refinam respostas juntos. Um juiz baseado em LLM pode parar cedo quando há consenso. O resultado é mais acerto e menos custo em tarefas difíceis como HLE. Vamos ver o que muda, como funciona, os resultados e o que isso significa para você.
- TUMIX combina agentes com estilos diferentes: texto, código e busca.
- Agentes trocam notas e refinam respostas em iterações curtas.
- Um juiz LLM decide quando parar cedo para poupar custo.
- O método aumenta a chance de achar respostas corretas em problemas difíceis.
- Em vez de re-amostragem, TUMIX explora diversidade de ferramentas para melhorar resultados.
Google apresenta TUMIX: mistura de agentes que usa ferramentas em tempo de teste
Pesquisadores do Google Cloud AI Research, com apoio do MIT, Harvard e Google DeepMind, propuseram TUMIX. É um sistema de teste em tempo real que combina vários estilos de agente e faz com que eles compartilhem raciocínios para aumentar a precisão em tarefas difíceis gastando menos recursos. Em um dos testes, Gemini-2.5 Pro chegou a 34,1% no benchmark HLE ao combinar cerca de 12–15 agentes que usam ferramentas e param cedo com base em um juiz LLM. Para entender implicações práticas do uso de variantes do Gemini em produção, vale ver como usar o Gemini CLI em pipelines e CI/CD.
Para ler o trabalho original e detalhes técnicos, veja: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/. Mais contexto prático e análises podem ser encontrados em https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/ e outras postagens citadas na referência.
O que é novo?
- TUMIX substitui a estratégia de re-amostragem por uma comissão heterogênea de agentes.
- Em vez de gerar múltiplas respostas do mesmo agente, o sistema junta agentes com estilos diferentes: texto, código, busca e variantes guiadas. Esse conceito é relacionado a abordagens que ensinam agentes a coordenar e entender contexto, como explicado em como construir agentes que coordenam em equipe.
- Eles trocam notas intermediárias e refinam respostas por algumas rodadas curtas.
- Um juiz LLM avalia se houve consenso e pode encerrar o processo mais cedo para economizar custo.
O foco é aumentar a cobertura de candidatos corretos sem multiplicar o gasto por re-amostragem.
Como funciona (passos)
- Recebe-se a pergunta original.
- Um conjunto paralelo de agentes, com capacidades diversas, responde e escreve notas. Muitos fluxos práticos combinam execução de código, buscas e pipelines de conteúdo; veja exemplos de pipelines que integram busca e geração.
- Em rodadas curtas, cada agente revisa a pergunta e as notas dos outros e gera uma nova versão do seu raciocínio. Para suportar chamadas a ferramentas e orquestração, usar interfaces e CLIs adequados facilita a coordenação entre agentes (exemplos de uso do Gemini CLI).
- Um juiz LLM avalia se há consistência suficiente.
- Se houver, o sistema para e agrega (por voto majoritário ou seletor). Caso contrário, faz mais uma rodada.
Esse processo permite parar cedo quando o consenso é forte. A diversidade dos agentes substitui a necessidade de muitas tentativas do mesmo modelo.
Resultados principais
- Em benchmarks difíceis (HLE, GPQA-Diamond, AIME 2024/2025), TUMIX melhorou a acurácia média.
- Comparado a outras abordagens que usam ferramentas em tempo de teste (Self-MoA, Symbolic-MoE, DEI), TUMIX alcançou o melhor resultado médio dentro do mesmo orçamento de inferência.
- Números de destaque:
- Gemini-2.5 Pro: 34,1% no HLE com TUMIX (uso de ~12–15 agentes).
- Ganho médio: 3,55% sobre a melhor baseline de uso de ferramentas com custo similar.
- Ganhos relativos vs. sem escalonamento: 7,8% (Pro) e 17,4% (Flash). O impacto de versões otimizadas para custo e latência, como variantes Flash, explora a mesma ideia de reduzir tokens gastos — confira comparações de performance e economia em prévias do Gemini Flash Lite.
- Benefício atinge saturação por volta de 12–15 estilos de agente.
Tabela resumida (simplificada):
Benchmark | Destaque | Observação |
---|---|---|
HLE | 34,1% (Gemini-2.5 Pro) | Uso de ~12–15 agentes |
Vários (média) | 3,55% | Sobre melhores baselines com custo similar |
Pro vs sem-scaling | 7,8% | Melhoria relativa para Pro |
Flash vs sem-scaling | 17,4% | Melhoria relativa para Flash |
Por que isso importa para você
- Se opera sistemas com limites de latência e custo, TUMIX oferece caminho para respostas mais corretas sem aumentar muito o gasto. Abordagens concorrentes que visam acelerar e baratear inferência, como as cascatas especulativas, compartilham objetivos semelhantes de eficiência.
- Você ganha diversidade de raciocínio sem depender de muitas repetições do mesmo modelo.
- O mecanismo de parada precoce ajuda a manter a eficiência.
Contexto e implicações técnicas
- O problema é tratado como busca sobre políticas de ferramentas heterogêneas, não apenas amostragem ampla.
- A arquitetura explora paralelismo entre agentes que usam diferentes ferramentas (execução de código, busca web etc.). Projetos e novidades em ferramentas experimentais e laboratórios trazem recursos complementares para teste de modelos e integração de ferramentas — veja algumas inovações recentes no Google Labs.
- A nota compartilhada é estruturada para que cada agente condicione suas respostas nas rodadas seguintes.
- Ganhos práticos convergem em cerca de uma dúzia de estilos, indicando que a seleção de estratégias é mais crítica que gerar mais variantes do mesmo tipo.
Conclusão
TUMIX é uma orquestra de agentes: cada instrumento (texto, código, busca, variantes guiadas) toca uma parte até formar uma resposta mais precisa. Em vez de repetir o mesmo modelo, o sistema aposta na diversidade de caminhos, entregando mais precisão com menos custo, graças ao juiz LLM que pode parar cedo quando há consenso. Para aplicar: priorize seleção de estilos de agente (veja guias sobre agentes coordenados), vise ~12–15 agentes como ponto de partida e foque em um juiz rápido e infraestrutura que suporte ferramentas (por exemplo, integrando o Gemini CLI para automação).
Quer se aprofundar? Leia o artigo original e detalhes técnicos em: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/.
Perguntas frequentes
Q: O que é TUMIX?
A: É um método do Google para melhorar respostas de IA reunindo vários agentes (com e sem ferramentas) que trocam notas e refinam respostas em poucas rodadas; um juiz LLM para cedo se houver consenso.
Q: Como TUMIX deixa as respostas mais precisas e mais baratas?
A: Usa diversidade em vez de re-amostragem — diferentes agentes exploram caminhos distintos e o juiz encerra cedo, economizando tokens e chamadas de ferramenta.
Q: Como TUMIX funciona na prática?
A: Roda agentes textuais, de código, busca e guiados em paralelo; cada um vê a pergunta e as notas dos outros; fazem 1–3 rodadas de refinamento; o juiz escolhe a resposta final por voto ou seletor.
Q: Quantos agentes devo usar?
A: Os autores encontraram ponto ótimo em ~12–15 estilos. Menos reduz cobertura; mais sobe custo sem ganho. Comece por 12 e ajuste conforme orçamento.
Q: Quais são as limitações e riscos?
A: Requer infraestrutura para executar ferramentas e agentes; latência pode aumentar sem um juiz rápido; nem sempre compensa em tarefas simples; a escolha dos agentes é crítica.
Referências e leitura recomendada
- Artigo e resumo técnico: https://www.marktechpost.com/2025/10/04/google-proposes-tumix-multi-agent-test-time-scaling-with-tool-use-mixture/
- Teste e comparação de modelos (ferramentas para avaliação): Google STAX para testar e comparar modelos.
- Construção de pipelines com busca e geração: como integrar pesquisa e conteúdo.
- Economia de tokens e variantes Flash: prévia do Gemini Flash Lite.
- Abordagens para reduzir custo e latência: cascatas especulativas.
- Como orquestrar agentes coordenados: guia de agentes MCP.
- Integração e automação com Gemini: uso do Gemini CLI em pipelines.
Se você quiser conhecer outros artigos semelhantes a Com TUMIX do Google você terá respostas de IA mais precisas e baratas, você pode visitar a categoria Notícias e Tendências.