Sua busca por voz agora entende o que você quer sem passar por texto

Neste artigo:

Ouça este artigo
Novo motor Speech-to-Retrieval do Google transforma buscas por voz — o que você precisa saber
Principais pontos
Como funciona o novo sistema
Por que isso muda as buscas por voz
Testes, métricas e resultados
O que isso significa para você
Disponibilização e colaboração
Conclusão
Perguntas frequentes

Ouça este artigo

Você vai descobrir como a Speech-to-Retrieval revoluciona a busca por voz. Em vez de transformar sua fala em texto, o sistema entende direto o que você quer, tornando a busca mais rápida e mais confiável. Neste artigo você verá como a tecnologia funciona, por que supera a transcrição e como já melhora resultados para quem usa a voz. Para detalhes técnicos e o anúncio oficial, veja o post do Google Research: https://research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/

Principais benefícios

Busca direto do áudio sem passar por transcrição

Menos erros que mudam o sentido da consulta

Modelo aprende a ligar áudio a páginas relevantes

Já melhora resultados reais e continua sendo aprimorado

Dataset aberto em várias línguas para avançar a pesquisa

Novo motor Speech-to-Retrieval do Google transforma buscas por voz — o que você precisa saber

O Google Research anunciou, em 7 de outubro de 2025, o sistema Speech-to-Retrieval (S2R). Ele recupera respostas diretamente da fala, sem converter em texto, o que pode tornar a pesquisa por voz mais rápida e confiável. Para ler o anúncio original e obter dados técnicos, acesse: https://research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/

Principais pontos

S2R recupera informação direto do áudio, sem converter sua fala em texto.

Testes mostram que S2R supera sistemas tradicionais que dependem de transcrição (modelo em cascata).

O Google liberou o conjunto de dados SVQ como parte do Massive Sound Embedding Benchmark (MSEB).

O sistema já está em uso em vários idiomas, segundo a equipe.

Como funciona o novo sistema

Quando você fala, o S2R não tenta primeiro escrever o que você disse. Em vez disso:

Um codificador de áudio transforma sua fala em um vetor que captura significado e intenção.

Um codificador de documentos gera vetores similares para páginas e documentos.

O sistema procura documentos cujo vetor seja parecido com o vetor do áudio.

O ranqueador combina esses resultados com outros sinais para apresentar as melhores respostas.

Você obtém resultados sem depender da precisão literal de cada palavra — o foco é a intenção por trás da fala.

Por que isso muda as buscas por voz

O modelo tradicional faz dois passos: reconhece palavras (ASR) e então busca com o texto. Isso pode falhar de formas simples:

Um erro pequeno na transcrição pode alterar totalmente o sentido.

Informações de contexto podem se perder na transcrição.

O erro se propaga para a busca e normalmente não é corrigido pelo motor.

Se você nomeia uma obra ou usa termos semelhantes por som, um pequeno erro pode levar a respostas erradas. O S2R reduz esse problema ao focar no intento, não só nas palavras.

Testes, métricas e resultados

Pesquisadores criaram um experimento com o conjunto SVQ, contendo perguntas de voz curtas em 17 idiomas e 26 localidades. Compararam três abordagens:

Cascata com ASR real (sistema do dia a dia).

Cascata com transcrições humanas perfeitas (simulando ASR ideal).

S2R direto do áudio.

Métricas usadas:

WER (Word Error Rate) — mede erros de transcrição.

MRR (Mean Reciprocal Rank) — mede qualidade da lista de respostas.

Observações principais:

Menor WER nem sempre leva a melhor MRR: o tipo de erro importa mais que a quantidade em algumas línguas.

Há diferença clara entre o sistema real em cascata e o cenário com transcrições perfeitas, indicando espaço para melhoria.

S2R apresentou desempenho melhor que o sistema em cascata, mas ainda não alcançou o cenário teórico com transcrições perfeitas.

Tabela resumo de desempenho (MRR relativo)

Método	Desempenho relativo (MRR)
Transcrição perfeita (simulada)	Maior
S2R	Médio (melhor que cascata)
Cascata com ASR real	Menor

O que isso significa para você

Quando usar a voz para pesquisar, é provável que obtenha respostas mais relevantes com S2R.

Erros de pronúncia ou reconhecimento terão menos impacto no resultado final.

Sistemas de voz podem melhorar em línguas com maior ambiguidade sonora.

Disponibilização e colaboração

O Google liberou o conjunto SVQ dentro do MSEB para pesquisadores, com a intenção de acelerar a pesquisa e permitir comparações públicas. O S2R já está em implantação em vários idiomas em produção, conforme relatado pela equipe. Para mais detalhes técnicos e links para datasets e código, consulte o post oficial: https://research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/

Conclusão

O Speech-to-Retrieval (S2R) muda a busca por voz ao buscar direto do áudio em vez de passar pela transcrição. Isso torna a experiência mais rápida e mais robusta a erros de reconhecimento, valorizando a intenção da sua fala. A combinação de codificador de áudio, codificador de documentos e ranqueador transforma sua fala em vetores que se conectam a páginas relevantes. Nos testes com o conjunto SVQ do MSEB, S2R superou sistemas em cascata com ASR real, embora ainda haja espaço para alcançar o cenário ideal de transcrições perfeitas.

Quanto à privacidade: o áudio é convertido em representações (vetores) usadas para busca, o que pode reduzir a necessidade de salvar transcrições textuais — verifique sempre as políticas de privacidade do serviço. Para o anúncio oficial e recursos adicionais, visite: https://research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/

Perguntas frequentes

O que é Speech-to-Retrieval (S2R)? S2R pega sua fala e busca respostas sem transformar em texto, gerando vetores do áudio e encontrando documentos parecidos.

Por que isso é melhor que transformar voz em texto primeiro? Evita erros de transcrição que mudam o sentido; a busca entende a intenção, não só as palavras.

Quais dados e idiomas foram usados para testar isso? Usaram o conjunto SVQ: 17 idiomas e 26 localidades. Faz parte do Massive Sound Embedding Benchmark (MSEB).

Isso afeta minha privacidade ou armazenamento de áudio? O áudio vira representações (vetores) para busca. Pode reduzir a necessidade de salvar transcrições; verifique as políticas de privacidade do serviço.

Quando terei isso no meu aparelho? Já está em uso para alguns idiomas. A implementação deverá crescer ao longo do tempo.

🤖 Encontre as Melhores Ferramentas de IA

Ouça este artigo

🤖 Encontre as Melhores Ferramentas de IA

Novo motor Speech-to-Retrieval do Google transforma buscas por voz — o que você precisa saber

Principais pontos

Como funciona o novo sistema

Por que isso muda as buscas por voz

Testes, métricas e resultados

O que isso significa para você

Disponibilização e colaboração

Conclusão

Perguntas frequentes

🤖 Encontre as Melhores Ferramentas de IA

Você também pode gostar