xRouter da Salesforce decide por você qual IA usar e reduz seus custos
5 meses ago · Updated 5 meses ago

Ouça este artigo
Você vai conhecer o xRouter, um roteador inteligente que decide se responde sozinho ou envia sua pergunta para outros modelos da sua frota. Ele usa aprendizado por reforço com um objetivo que prioriza acerto e depois penaliza custo. O roteador chama, combina ou escolhe respostas de vários modelos e também gera seus próprios textos. A equipe mostra que isso preserva boa acurácia enquanto reduz muito o gasto com chamadas. Leia para entender o treino, o comportamento em inferência e o impacto para seus sistemas em produção. Para estratégias de integração e orquestração em ambientes com agentes e ferramentas em tempo real, veja também como integrar IA a recursos e ferramentas em tempo real. Para mais detalhes técnicos veja também: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/
Principais pontos
- xRouter escolhe o modelo certo para cada pedido
- Prioriza respostas corretas antes de cortar custos
- Aprende por reforço usando sinal de sucesso e custo
- Chama e junta respostas de vários modelos quando preciso
- Reduz gasto mantendo boa qualidade de resposta
Salesforce apresenta xRouter, roteador por reforço para reduzir custos com LLMs
Você agora tem uma opção para decidir automaticamente qual modelo deve responder a cada solicitação. A Salesforce AI Research lançou o xRouter, um roteador treinado por aprendizado por reforço que escolhe quando responder localmente ou encaminhar pedidos para outros modelos, enquanto monitora custos ao nível de token.
O que você precisa saber
- xRouter usa Qwen2.5-7B-Instruct como base e tem capacidade de chamar ferramentas (tool-calling).
- O sistema aprende políticas que equilibram correção e custo.
- Opera com mais de 20 modelos disponíveis e um subconjunto de 12 para offload.
- Pesquisadores relatam redução de custo de até 60–80% em cenários comparáveis, mantendo qualidade semelhante.
- Mais informações e cobertura técnica: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/
Como funciona o roteamento
Você verá três decisões centrais tomadas pelo roteador:
- Responder internamente com seu próprio modelo.
- Chamar um ou mais modelos externos e sintetizar uma resposta.
- Chamar modelos externos e selecionar uma das respostas como final.
O roteador controla qual modelo chamar, como formular o prompt e se deve combinar saídas. A execução usa uma API compatível com OpenAI e motores locais para rodar os modelos; para cenários que exigem baixo tempo até a primeira resposta, técnicas de aceleração e compartilhamento de recursos podem complementar o roteador, como explicado em recursos sobre compartilhamento de GPUs e aceleração da primeira resposta.
Objetivo de treinamento (resumo)
- A política é treinada como problema de reforço.
- A recompensa combina um sinal binário de sucesso (resposta correta) e uma penalidade de custo.
- Se a resposta estiver errada, a recompensa é zero, mesmo que barata — o que força priorizar acerto antes de cortar custos.
- A função alvo pode ser descrita como qualidade − λ × custo_normalizado, com diferentes valores de λ produzindo variantes do roteador.
Dados e estratégia de treinamento
- O conjunto principal é o Reasoning360, com problemas de matemática, código e raciocínio.
- Amostras são estratificadas por dificuldade (fácil, média, difícil).
- Casos simples (bate-papo, consultas factuais) são incluídos para ensinar quando não é preciso offload.
- O catálogo de modelos e preços é atualizado e perturbado durante o treino para evitar que o roteador memorize uma tabela de preços fixa.
Modos de execução e comportamento
- O roteador pode:
- Responder sozinho;
- Agregar saídas de vários modelos e gerar síntese;
- Usar uma função para escolher uma resposta já pronta.
- Observações práticas: grandes modelos fora da caixa tendem a responder diretamente; o roteador aprende a delegar apenas quando necessário, gerando economia sem perder precisão. Estratégias complementares, como cascatas especulativas, podem ser usadas em conjunto para reduzir latência e custo em sistemas que exigem decisões rápidas.
Resultados e utilidade de custo
- Em benchmarks de raciocínio e programação, variantes do xRouter-7B melhoraram a acurácia frente ao mesmo modelo sem treino de roteamento.
- Exemplo: uma variante alcançou acurácia próxima à de GPT-5 em um conjunto de provas com custo de avaliação cerca de 1/8 do custo do GPT-5.
- Em avaliações de sistema, outra variante obteve a maior acurácia média em um dos conjuntos testados, com custo moderado.
- Definição usada pela equipe: cost utility = acurácia / custo. Modelos open source muito baratos podem ter maior utilidade de custo, mas menor acurácia absoluta; o xRouter busca equilíbrio entre custo e desempenho. Para quem compara trade‑offs entre modelos pequenos e soluções econômicas, vale consultar análises sobre modelos compactos e econômicos como o modelo pequeno da Anthropic e opções comerciais com preço reduzido, como o GPT-4o Mini ou variantes de baixa utilização de tokens como a Gemini Flash Lite.
Principais conclusões e implicações
- Você ganha uma ferramenta prática para orquestrar uma frota heterogênea de LLMs com atenção explícita ao custo.
- Um roteador de tamanho médio, treinado com DAPO e com objetivo que garante sucesso antes de otimizar custo, pode se aproximar da qualidade de modelos topo de linha enquanto reduz gastos substanciais.
- O sistema está desenhado para uso em produção e expõe API compatível para integração. Para arquiteturas baseadas em agentes e padrões de deployment, há guias sobre servidores e runtimes que facilitam implantar agentes em produção, como o esforço de abertura do servidor MCP pela AWS e as práticas de coordenação entre agentes (servidor MCP de código aberto) e sobre como construir agentes MCP que coordenam em equipe.
Disponibilidade e referências
- A equipe disponibilizou o artigo técnico e os pesos do modelo para consulta.
- Código e instruções seguem padrões abertos de tool-calling e APIs compatíveis.
- Para quem pensa em combinar roteadores com agentes de pesquisa ou fluxos de trabalho autônomos, há leitura complementar sobre agentes de pesquisa profunda e padrões emergentes de trabalho com IA em 2025 (nove padrões de trabalho de IA).
- Leia a matéria técnica em: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/
Conclusão
O xRouter é mais do que um mero roteador: é uma ferramenta que orquestra sua frota de LLMs, escolhendo o instrumento certo no momento certo. Ele usa aprendizado por reforço para priorizar o acerto e só então penalizar o custo — primeiro garante respostas corretas, depois corta gastos. Na prática, pode responder sozinho, chamar outros modelos e até sintetizar ou selecionar respostas, tudo controlado por uma política (baseada em Qwen2.5-7B) que considera sucesso binário e custo por token. O resultado: redução de custos reportada de 60–80% em cenários testados, mantendo qualidade próxima a modelos topo de linha.
Se pensa em produção, leve em conta: há variantes prontas, API compatível e pesos publicados — uma alavanca prática para poupar recursos sem sacrificar a precisão. Para referências técnicas completas, confira também: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/
Perguntas frequentes
O que é o xRouter da Salesforce?
- É um roteador de IAs que decide qual modelo usar para cada pedido. Usa Qwen2.5-7B como base e chama outros LLMs quando preciso.
Como o xRouter escolhe entre modelos caros e baratos?
- Aprende por reforço. Recebe recompensa só se a resposta estiver certa; depois penaliza pelo custo (reward = qualidade − λ × custo). Primeiro busca acerto, depois corta gastos.
Dá para cortar custos sem perder muita qualidade?
- Sim. Em testes reduziu custo até 60–80% mantendo quase a mesma precisão, posicionando-se entre modelos baratos (alto utilitário) e GPT‑5 (alta precisão).
Quais modos de resposta ele tem?
- Três modos: responde sozinho; chama modelos e sintetiza; chama e escolhe uma resposta pronta. Usa chamadas tipo OpenAI e ferramentas internas para orquestrar.
Preciso treinar um xRouter do zero para usar?
- Não obrigatoriamente. Há variantes prontas (xRouter‑7B‑1/2/3) com diferentes penalidades de custo. Dá para integrar via API compatível e ajustar catálogo de modelos e preços.
Se você quiser conhecer outros artigos semelhantes a xRouter da Salesforce decide por você qual IA usar e reduz seus custos, você pode visitar a categoria Notícias e Tendências.
