- Ouça este artigo
- Novo sistema de tradução de voz em tempo real promete resposta em 2 segundos
- O que foi anunciado
- Como funciona — visão geral do processo
- Elementos técnicos principais
- Dados de treino e filtragem
- Desempenho e cobertura atual
- Contexto e comparação com abordagens anteriores
- Limitações e próximos passos
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você quer falar com alguém em outra língua e ainda manter sua própria voz? Esta matéria apresenta um novo modelo de tradução fala a fala em tempo real que reduz o atraso a um nível curtíssimo e preserva a personalidade da fala. É um modelo end‑to‑end, treinado com dados sincronizados e otimizações de inferência, que torna conversas remotas mais naturais. Já está disponível no Google Meet e em dispositivos Pixel mais recentes. Para detalhes técnicos e origem do trabalho, veja o post do Google Research: https://research.google/blog/real-time-speech-to-speech-translation/
- Tradução de voz em tempo real com atraso muito curto
- Preserva a voz e o tom do orador
- Modelo fim a fim treinado com dados sincronizados no tempo
- Disponível no Google Meet e em dispositivos Pixel (ex.: Pixel 10)
- Plano para cobrir mais idiomas e melhorar a fluidez
Novo sistema de tradução de voz em tempo real promete resposta em 2 segundos
Pesquisadores do Google DeepMind e do Google Core ML anunciaram um modelo end‑to‑end de tradução fala‑a‑fala que gera áudio traduzido na voz do falante com atraso de apenas 2 segundos. A tecnologia já foi integrada ao Google Meet (execução em servidor) e como recurso local em aparelhos Pixel 10. Mais informações técnicas e exemplos estão no post do Google Research: https://research.google/blog/real-time-speech-to-speech-translation/
O que foi anunciado
- Tradução de áudio direto, sem depender apenas de legendas.
- Atraso entre fala original e áudio traduzido em torno de 2 segundos — adequado para conversas ao vivo.
- Lançamento inicial cobre pares latinos frequentes; expansão para outras línguas está em andamento.
- Implementações servidor e on‑device partilham base de treino e arquitetura.
Como funciona — visão geral do processo
A preparação dos dados e o treino do modelo seguem etapas rígidas para garantir sincronização e baixa latência:
- Captura de áudio bruto de várias fontes, inclusive síntese TTS.
- Transcrição automática (ASR) do áudio fonte.
- Alinhamento forçado áudio → texto; segmentos com falha são descartados.
- Tradução automática do texto para a língua‑alvo.
- Validação automática e alinhamento texto→texto traduzido.
- Geração do áudio traduzido mantendo características da voz via TTS customizado.
- Alinhamento final áudio gerado ↔ texto traduzido para criar máscaras usadas no treino.
Elementos técnicos principais
- Operação em modo streaming, permitindo saída contínua e controle do atraso.
- Áudio representado como tokens 2D chamados RVQ audio tokens (eixo X = tempo; eixo Y = tokens descritivos).
- Conjunto de tokens reconstituído vira áudio por meio de um codec de ML; mais tokens = maior fidelidade (ex.: 16 tokens ≈ 100 ms com boa qualidade).
- O sistema também prediz um token de texto por segmento para melhorar geração e permitir métricas diretas.
- Lookahead ajustável; padrão em tempo real é 2 segundos.
- Otimizações de inferência (quantização híbrida int8/int4, pré‑cálculo de componentes) reduzem a latência.
Dados de treino e filtragem
- Pipeline escalável com limpeza, filtros de ruído e rejeição de trechos com alinhamento ruim.
- Treino em blocos de até 60 segundos.
- Aumentos de áudio: alteração de taxa de amostragem, reverberação, saturação e denoising.
- Máscaras resultantes dos três alinhamentos (áudio→texto, texto→texto traduzido, texto traduzido→áudio) guiam a função de perda no treino.
Desempenho e cobertura atual
A versão inicial foca em pares com origem latina. Suporte no lançamento:
| Par de línguas | Disponibilidade |
|---|---|
| Inglês ⇄ Espanhol | Disponível (Google Meet; Pixel 10 usa abordagem mista) |
| Inglês ⇄ Alemão | Disponível |
| Inglês ⇄ Francês | Disponível |
| Inglês ⇄ Italiano | Disponível |
| Inglês ⇄ Português | Disponível |
| Hindi e outras línguas | Em desenvolvimento |
Melhor qualidade ocorre quando a ordem das palavras é similar entre línguas; estruturas bem diferentes exigem mais contexto.
Contexto e comparação com abordagens anteriores
- Abordagens em cascata (ASR → tradução → TTS) somavam atrasos de ~4–5 segundos e perdiam personalização.
- O modelo integrado aprende correspondências áudio→áudio sincronizadas, reduzindo latência e preservando a voz original.
- Segundo os engenheiros, o fluxo integrado melhora a fluidez em conversas reais.
Limitações e próximos passos
- Mais lookahead melhora qualidade, mas aumenta atraso — há um trade‑off entre qualidade e fluidez.
- Cobertura de línguas ainda limitada; trabalho em ampliar pares e em idiomas com ordem de palavras muito distinta.
- Medidas antiuso incluem aviso prévio ao usuário de que a tradução é sintética.
Conclusão
Conversar além das fronteiras ficou mais natural: um modelo end‑to‑end em streaming entrega áudio traduzido na sua voz com atraso de cerca de 2 segundos. A mágica está no treino sincronizado, nos tokens RVQ e nas otimizações de inferência que controlam a latência — ideal para reuniões e bate‑papos ao vivo. Já é possível usar no Google Meet e em aparelhos Pixel 10, com suporte inicial para pares como inglês↔português, espanhol, francês, alemão e italiano. Para referência direta ao material técnico e demonstrações, consulte: https://research.google/blog/real-time-speech-to-speech-translation/
Quer ficar por dentro? Leia mais artigos relacionados no https://blog.aidirectory.com.br.
Perguntas frequentes
- O que é a tradução em tempo real na própria voz?
É um modelo de fala‑para‑fala (S2ST) que traduz o que você diz e gera áudio na sua voz. Atraso típico: ~2 segundos.
- Quais idiomas já funcionam bem?
Hoje funciona bem em pares latinos: inglês↔espanhol, alemão, francês, italiano e português. Outras línguas (ex.: hindi) estão em desenvolvimento.
- Onde posso usar essa função?
Já está disponível no Google Meet (execução em servidor) e como recurso local em dispositivos Pixel 10.
- A voz fica idêntica à minha?
Mantém traços da sua voz, mas é áudio sintético. É natural, porém gerada por máquina; o usuário é avisado antes de cada sessão.
- Como o sistema consegue ser tão rápido?
Uso de modelo end‑to‑end em streaming, tokens de áudio RVQ, treino com dados alinhados no tempo e otimizações (quantização int8/int4) que reduzem a latência.



