xRouter da Salesforce decide por você qual IA usar e reduz seus custos

Ouça este artigo

Você vai conhecer o xRouter, um roteador inteligente que decide se responde sozinho ou envia sua pergunta para outros modelos da sua frota. Ele usa aprendizado por reforço com um objetivo que prioriza acerto e depois penaliza custo. O roteador chama, combina ou escolhe respostas de vários modelos e também gera seus próprios textos. A equipe mostra que isso preserva boa acurácia enquanto reduz muito o gasto com chamadas. Leia para entender o treino, o comportamento em inferência e o impacto para seus sistemas em produção. Para estratégias de integração e orquestração em ambientes com agentes e ferramentas em tempo real, veja também como integrar IA a recursos e ferramentas em tempo real. Para mais detalhes técnicos veja também: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/

Principais pontos

xRouter escolhe o modelo certo para cada pedido

Prioriza respostas corretas antes de cortar custos

Aprende por reforço usando sinal de sucesso e custo

Chama e junta respostas de vários modelos quando preciso

Reduz gasto mantendo boa qualidade de resposta

Salesforce apresenta xRouter, roteador por reforço para reduzir custos com LLMs
Você agora tem uma opção para decidir automaticamente qual modelo deve responder a cada solicitação. A Salesforce AI Research lançou o xRouter, um roteador treinado por aprendizado por reforço que escolhe quando responder localmente ou encaminhar pedidos para outros modelos, enquanto monitora custos ao nível de token.

O que você precisa saber

xRouter usa Qwen2.5-7B-Instruct como base e tem capacidade de chamar ferramentas (tool-calling).

O sistema aprende políticas que equilibram correção e custo.

Opera com mais de 20 modelos disponíveis e um subconjunto de 12 para offload.

Pesquisadores relatam redução de custo de até 60–80% em cenários comparáveis, mantendo qualidade semelhante.

Mais informações e cobertura técnica: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/

Como funciona o roteamento
Você verá três decisões centrais tomadas pelo roteador:

Responder internamente com seu próprio modelo.

Chamar um ou mais modelos externos e sintetizar uma resposta.

Chamar modelos externos e selecionar uma das respostas como final.

O roteador controla qual modelo chamar, como formular o prompt e se deve combinar saídas. A execução usa uma API compatível com OpenAI e motores locais para rodar os modelos; para cenários que exigem baixo tempo até a primeira resposta, técnicas de aceleração e compartilhamento de recursos podem complementar o roteador, como explicado em recursos sobre compartilhamento de GPUs e aceleração da primeira resposta.

Objetivo de treinamento (resumo)

A política é treinada como problema de reforço.

A recompensa combina um sinal binário de sucesso (resposta correta) e uma penalidade de custo.

Se a resposta estiver errada, a recompensa é zero, mesmo que barata — o que força priorizar acerto antes de cortar custos.

A função alvo pode ser descrita como qualidade − λ × custo_normalizado, com diferentes valores de λ produzindo variantes do roteador.

Dados e estratégia de treinamento

O conjunto principal é o Reasoning360, com problemas de matemática, código e raciocínio.

Amostras são estratificadas por dificuldade (fácil, média, difícil).

Casos simples (bate-papo, consultas factuais) são incluídos para ensinar quando não é preciso offload.

O catálogo de modelos e preços é atualizado e perturbado durante o treino para evitar que o roteador memorize uma tabela de preços fixa.

Modos de execução e comportamento

O roteador pode:

Responder sozinho;

Agregar saídas de vários modelos e gerar síntese;

Usar uma função para escolher uma resposta já pronta.

Observações práticas: grandes modelos fora da caixa tendem a responder diretamente; o roteador aprende a delegar apenas quando necessário, gerando economia sem perder precisão. Estratégias complementares, como cascatas especulativas, podem ser usadas em conjunto para reduzir latência e custo em sistemas que exigem decisões rápidas.

Resultados e utilidade de custo

Em benchmarks de raciocínio e programação, variantes do xRouter-7B melhoraram a acurácia frente ao mesmo modelo sem treino de roteamento.

Exemplo: uma variante alcançou acurácia próxima à de GPT-5 em um conjunto de provas com custo de avaliação cerca de 1/8 do custo do GPT-5.

Em avaliações de sistema, outra variante obteve a maior acurácia média em um dos conjuntos testados, com custo moderado.

Definição usada pela equipe: cost utility = acurácia / custo. Modelos open source muito baratos podem ter maior utilidade de custo, mas menor acurácia absoluta; o xRouter busca equilíbrio entre custo e desempenho. Para quem compara trade‑offs entre modelos pequenos e soluções econômicas, vale consultar análises sobre modelos compactos e econômicos como o modelo pequeno da Anthropic e opções comerciais com preço reduzido, como o GPT-4o Mini ou variantes de baixa utilização de tokens como a Gemini Flash Lite.

Principais conclusões e implicações

Você ganha uma ferramenta prática para orquestrar uma frota heterogênea de LLMs com atenção explícita ao custo.

Um roteador de tamanho médio, treinado com DAPO e com objetivo que garante sucesso antes de otimizar custo, pode se aproximar da qualidade de modelos topo de linha enquanto reduz gastos substanciais.

O sistema está desenhado para uso em produção e expõe API compatível para integração. Para arquiteturas baseadas em agentes e padrões de deployment, há guias sobre servidores e runtimes que facilitam implantar agentes em produção, como o esforço de abertura do servidor MCP pela AWS e as práticas de coordenação entre agentes (servidor MCP de código aberto) e sobre como construir agentes MCP que coordenam em equipe.

Disponibilidade e referências

A equipe disponibilizou o artigo técnico e os pesos do modelo para consulta.

Código e instruções seguem padrões abertos de tool-calling e APIs compatíveis.

Para quem pensa em combinar roteadores com agentes de pesquisa ou fluxos de trabalho autônomos, há leitura complementar sobre agentes de pesquisa profunda e padrões emergentes de trabalho com IA em 2025 (nove padrões de trabalho de IA).

Leia a matéria técnica em: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/

Conclusão
O xRouter é mais do que um mero roteador: é uma ferramenta que orquestra sua frota de LLMs, escolhendo o instrumento certo no momento certo. Ele usa aprendizado por reforço para priorizar o acerto e só então penalizar o custo — primeiro garante respostas corretas, depois corta gastos. Na prática, pode responder sozinho, chamar outros modelos e até sintetizar ou selecionar respostas, tudo controlado por uma política (baseada em Qwen2.5-7B) que considera sucesso binário e custo por token. O resultado: redução de custos reportada de 60–80% em cenários testados, mantendo qualidade próxima a modelos topo de linha.

Se pensa em produção, leve em conta: há variantes prontas, API compatível e pesos publicados — uma alavanca prática para poupar recursos sem sacrificar a precisão. Para referências técnicas completas, confira também: https://www.marktechpost.com/2025/11/25/salesforce-ai-research-introduces-xrouter-a-reinforcement-learning-router-for-cost-aware-llm-orchestration/

Perguntas frequentes

O que é o xRouter da Salesforce?

É um roteador de IAs que decide qual modelo usar para cada pedido. Usa Qwen2.5-7B como base e chama outros LLMs quando preciso.

Como o xRouter escolhe entre modelos caros e baratos?

Aprende por reforço. Recebe recompensa só se a resposta estiver certa; depois penaliza pelo custo (reward = qualidade − λ × custo). Primeiro busca acerto, depois corta gastos.

Dá para cortar custos sem perder muita qualidade?

Sim. Em testes reduziu custo até 60–80% mantendo quase a mesma precisão, posicionando-se entre modelos baratos (alto utilitário) e GPT‑5 (alta precisão).

Quais modos de resposta ele tem?

Três modos: responde sozinho; chama modelos e sintetiza; chama e escolhe uma resposta pronta. Usa chamadas tipo OpenAI e ferramentas internas para orquestrar.

Preciso treinar um xRouter do zero para usar?

Não obrigatoriamente. Há variantes prontas (xRouter‑7B‑1/2/3) com diferentes penalidades de custo. Dá para integrar via API compatível e ajustar catálogo de modelos e preços.

🤖 Encontre as Melhores Ferramentas de IA

Ouça este artigo

🤖 Encontre as Melhores Ferramentas de IA

🤖 Encontre as Melhores Ferramentas de IA

Você também pode gostar