O Google permite que você ouça tradução em tempo real na sua própria voz

Neste artigo:

Ouça este artigo
Novo sistema de tradução de voz em tempo real promete resposta em 2 segundos
O que foi anunciado
Como funciona — visão geral do processo
Elementos técnicos principais
Dados de treino e filtragem
Desempenho e cobertura atual
Contexto e comparação com abordagens anteriores
Limitações e próximos passos
Conclusão
Perguntas frequentes

Ouça este artigo

Você quer falar com alguém em outra língua e ainda manter sua própria voz? Esta matéria apresenta um novo modelo de tradução fala a fala em tempo real que reduz o atraso a um nível curtíssimo e preserva a personalidade da fala. É um modelo end‑to‑end, treinado com dados sincronizados e otimizações de inferência, que torna conversas remotas mais naturais. Já está disponível no Google Meet e em dispositivos Pixel mais recentes. Para detalhes técnicos e origem do trabalho, veja o post do Google Research: https://research.google/blog/real-time-speech-to-speech-translation/

Tradução de voz em tempo real com atraso muito curto

Preserva a voz e o tom do orador

Modelo fim a fim treinado com dados sincronizados no tempo

Disponível no Google Meet e em dispositivos Pixel (ex.: Pixel 10)

Plano para cobrir mais idiomas e melhorar a fluidez

Novo sistema de tradução de voz em tempo real promete resposta em 2 segundos

Pesquisadores do Google DeepMind e do Google Core ML anunciaram um modelo end‑to‑end de tradução fala‑a‑fala que gera áudio traduzido na voz do falante com atraso de apenas 2 segundos. A tecnologia já foi integrada ao Google Meet (execução em servidor) e como recurso local em aparelhos Pixel 10. Mais informações técnicas e exemplos estão no post do Google Research: https://research.google/blog/real-time-speech-to-speech-translation/

O que foi anunciado

Tradução de áudio direto, sem depender apenas de legendas.

Atraso entre fala original e áudio traduzido em torno de 2 segundos — adequado para conversas ao vivo.

Lançamento inicial cobre pares latinos frequentes; expansão para outras línguas está em andamento.

Implementações servidor e on‑device partilham base de treino e arquitetura.

Como funciona — visão geral do processo

A preparação dos dados e o treino do modelo seguem etapas rígidas para garantir sincronização e baixa latência:

Captura de áudio bruto de várias fontes, inclusive síntese TTS.

Transcrição automática (ASR) do áudio fonte.

Alinhamento forçado áudio → texto; segmentos com falha são descartados.

Tradução automática do texto para a língua‑alvo.

Validação automática e alinhamento texto→texto traduzido.

Geração do áudio traduzido mantendo características da voz via TTS customizado.

Alinhamento final áudio gerado ↔ texto traduzido para criar máscaras usadas no treino.

Elementos técnicos principais

Operação em modo streaming, permitindo saída contínua e controle do atraso.

Áudio representado como tokens 2D chamados RVQ audio tokens (eixo X = tempo; eixo Y = tokens descritivos).

Conjunto de tokens reconstituído vira áudio por meio de um codec de ML; mais tokens = maior fidelidade (ex.: 16 tokens ≈ 100 ms com boa qualidade).

O sistema também prediz um token de texto por segmento para melhorar geração e permitir métricas diretas.

Lookahead ajustável; padrão em tempo real é 2 segundos.

Otimizações de inferência (quantização híbrida int8/int4, pré‑cálculo de componentes) reduzem a latência.

Dados de treino e filtragem

Pipeline escalável com limpeza, filtros de ruído e rejeição de trechos com alinhamento ruim.

Treino em blocos de até 60 segundos.

Aumentos de áudio: alteração de taxa de amostragem, reverberação, saturação e denoising.

Máscaras resultantes dos três alinhamentos (áudio→texto, texto→texto traduzido, texto traduzido→áudio) guiam a função de perda no treino.

Desempenho e cobertura atual

A versão inicial foca em pares com origem latina. Suporte no lançamento:

Par de línguas	Disponibilidade
Inglês ⇄ Espanhol	Disponível (Google Meet; Pixel 10 usa abordagem mista)
Inglês ⇄ Alemão	Disponível
Inglês ⇄ Francês	Disponível
Inglês ⇄ Italiano	Disponível
Inglês ⇄ Português	Disponível
Hindi e outras línguas	Em desenvolvimento

Melhor qualidade ocorre quando a ordem das palavras é similar entre línguas; estruturas bem diferentes exigem mais contexto.

Contexto e comparação com abordagens anteriores

Abordagens em cascata (ASR → tradução → TTS) somavam atrasos de ~4–5 segundos e perdiam personalização.

O modelo integrado aprende correspondências áudio→áudio sincronizadas, reduzindo latência e preservando a voz original.

Segundo os engenheiros, o fluxo integrado melhora a fluidez em conversas reais.

Limitações e próximos passos

Mais lookahead melhora qualidade, mas aumenta atraso — há um trade‑off entre qualidade e fluidez.

Cobertura de línguas ainda limitada; trabalho em ampliar pares e em idiomas com ordem de palavras muito distinta.

Medidas antiuso incluem aviso prévio ao usuário de que a tradução é sintética.

Conclusão

Conversar além das fronteiras ficou mais natural: um modelo end‑to‑end em streaming entrega áudio traduzido na sua voz com atraso de cerca de 2 segundos. A mágica está no treino sincronizado, nos tokens RVQ e nas otimizações de inferência que controlam a latência — ideal para reuniões e bate‑papos ao vivo. Já é possível usar no Google Meet e em aparelhos Pixel 10, com suporte inicial para pares como inglês↔português, espanhol, francês, alemão e italiano. Para referência direta ao material técnico e demonstrações, consulte: https://research.google/blog/real-time-speech-to-speech-translation/

Quer ficar por dentro? Leia mais artigos relacionados no https://blog.aidirectory.com.br.

Perguntas frequentes

O que é a tradução em tempo real na própria voz?
É um modelo de fala‑para‑fala (S2ST) que traduz o que você diz e gera áudio na sua voz. Atraso típico: ~2 segundos.

Quais idiomas já funcionam bem?
Hoje funciona bem em pares latinos: inglês↔espanhol, alemão, francês, italiano e português. Outras línguas (ex.: hindi) estão em desenvolvimento.

Onde posso usar essa função?
Já está disponível no Google Meet (execução em servidor) e como recurso local em dispositivos Pixel 10.

A voz fica idêntica à minha?
Mantém traços da sua voz, mas é áudio sintético. É natural, porém gerada por máquina; o usuário é avisado antes de cada sessão.

Como o sistema consegue ser tão rápido?
Uso de modelo end‑to‑end em streaming, tokens de áudio RVQ, treino com dados alinhados no tempo e otimizações (quantização int8/int4) que reduzem a latência.

🤖 Encontre as Melhores Ferramentas de IA

Ouça este artigo

🤖 Encontre as Melhores Ferramentas de IA

Novo sistema de tradução de voz em tempo real promete resposta em 2 segundos

O que foi anunciado

Como funciona — visão geral do processo

Elementos técnicos principais

Dados de treino e filtragem

Desempenho e cobertura atual

Contexto e comparação com abordagens anteriores

Limitações e próximos passos

Conclusão

Perguntas frequentes

🤖 Encontre as Melhores Ferramentas de IA

Você também pode gostar