Novo modelo de áudio fim a fim da Liquid AI responde em menos de cem milissegundos e facilita criar assistentes de voz para você
7 meses ago · Updated 7 meses ago

Ouça este artigo
Neste artigo você vai conhecer o novo LFM Audio da Liquid AI e entender o que muda para os seus assistentes de voz. O modelo é um sistema de ponta a ponta que entende e gera áudio e texto, promete latência quase instantânea e tem bons resultados em testes como VoiceBench e em métricas de ASR. Você verá por que isso pode simplificar seu pipeline e tornar interações de voz mais rápidas. Fonte adicional de anúncio: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/
Principais pontos
- Modelo compacto que entende e gera voz e texto num único sistema
- Entradas de áudio contínuas e saídas em códigos discretos para reduzir artefatos
- Modo de geração pensado para agentes em tempo real com latência muito baixa
- Desempenho sólido em benchmarks de voz e ASR, competitivo com modelos maiores
- Pacote e demos prontos que simplificam pipelines e aceleram a integração
LFM2-Audio-1.5B chega com promessa de resposta em menos de 100 ms — o que você precisa saber
Você recebeu uma novidade no mundo da voz: a Liquid AI lançou o LFM2-Audio-1.5B, um modelo de áudio e texto em uma única pilha que foca em assistentes em tempo real com baixa latência e pegada reduzida. Para leitura complementar e detalhes do anúncio, veja também: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/
Resumo — pontos principais
- O que é: um modelo multimodal de 1,5 bilhões de parâmetros que trata áudio e texto como sequências no mesmo backbone.
- Velocidade: a empresa reporta menos de 100 ms até o primeiro áudio a partir de um comando de ~4 segundos, em suas medições.
- Formato de I/O: entradas em embeddings contínuos (trechos de waveform ~80 ms) e saídas em códigos de áudio discretos.
- Ferramentas: pacote Python (liquid-audio), demo em Gradio e modelo disponível no Hugging Face.
Como funciona — arquitetura e modos de geração
- O modelo amplia um backbone de linguagem para incluir áudio como token.
- A entrada permanece contínua (não discretizada) para evitar artefatos.
- A saída usa códigos discretos, permitindo geração autoregressiva.
- Há modos de geração voltados para agentes em tempo real, incluindo decodificação intercalada para emitir áudio cedo durante a resposta — uma abordagem que dialoga com iniciativas que permitem integrar agentes de IA em tempo real diretamente na interface.
- Isso reduz a necessidade de encadear ASR → LLM → TTS, simplificando o pipeline e abrindo espaço para técnicas como cascatas especulativas que visam acelerar e baratear respostas em produção.
Desempenho e benchmarks
Você deve considerar duas avaliações principais reportadas:
VoiceBench
- Conjunto de nove avaliações para assistentes de voz. A Liquid AI aponta uma nota geral de 56.78 para o LFM2-Audio-1.5B (varia por tarefa).
Resultados selecionados (avaliativos)
- AlpacaEval: 3.71
- CommonEval: 3.49
- WildVoice: 3.17
ASR (taxa de erro de palavra, WER)
- AMI: 15.36 (LFM2-Audio) vs 16.13 (Whisper-large-v3-turbo)
- LibriSpeech (clean): 2.03 vs 2.10
Relatos da equipe indicam que, em seu ambiente de teste, o LFM2-Audio-1.5B alcança menor tempo até o primeiro áudio do que alguns modelos menores.
Por que isso importa para você e para a indústria de voz
- Menos "cola" entre sistemas: ao operar ASR, entendimento e síntese em um backbone, o modelo reduz pontos frágeis entre módulos — um objetivo alinhado com discussões sobre agentes de voz e plataformas integradas.
- Menor latência percebida: decodificação intercalada permite ouvir a resposta enquanto o restante do output ainda é gerado.
- Implantação em dispositivos limitados: o tamanho de 1,5B visa uso em cenários com menos recursos — semelhante ao interesse por modelos e runtimes otimizados para edge, como os anúncios de hardware e plataformas para deploy em dispositivos (por exemplo, soluções para Jetson Thor e runtimes de publicação cruzada).
- Versatilidade: suporta transcrição, síntese, classificação e diálogo sem trocar de modelo — o que facilita integrações onde você também pode querer recursos como diarização e identificação de falantes (veja o guia sobre diarização de fala) ou transcrições com identificação de falantes (EAR-3 da TwinMind).
O que você pode testar e como começar
- Instale o pacote liquid-audio em Python.
- Rode a demo em Gradio para avaliar latência e qualidade no seu fluxo — se precisa de UIs prontas para integrar agentes em tempo real, vale comparar com soluções de interface disponíveis no mercado.
- Baixe o modelo via Hugging Face e siga exemplos e notebooks disponíveis.
- Recursos: código e tutoriais no repositório GitHub da Liquid AI e model card com detalhes no Hugging Face. Para referência do anúncio e cobertura técnica, consulte também https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/
Comparativo técnico (seleção de WER)
| Conjunto | LFM2-Audio-1.5B (WER) | Whisper-large-v3-turbo (WER) |
|---|---|---|
| AMI | 15.36 | 16.13 |
| LibriSpeech (clean) | 2.03 | 2.10 |
Contexto competitivo e alternativas
- Para síntese de voz de alta duração veja comparações com iniciativas como o VibeVoice 1.5B da Microsoft.
- Em reconhecimento híbrido e soluções que combinam fala e linguagem, acompanhe lançamentos como Canary Qwen 2.5B e os modelos Otimizados para empresas mencionados em Nemotron Nano 2.
Conclusão
O LFM2-Audio-1.5B é mais que um experimento: é um atalho para respostas de voz mais rápidas e pipelines menos fraturados. Com 1,5B de parâmetros, entradas em embeddings contínuos e saídas em códigos discretos, ele reduz a tradicional cola entre ASR → LLM → TTS. Resultado: menor latência (a promessa de menos de 100 ms até o primeiro áudio) e menos artefatos — uma orquestra afinada em vez de músicos batendo cabeça.
Para desenvolvedores e responsáveis por produto, isso significa integração mais simples com um único backbone, respostas que soam mais naturais e potencial para rodar em dispositivos com recursos limitados. Os benchmarks de ASR e o score no VoiceBench mostram que a qualidade é competitiva — não é só velocidade por velocidade.
Quer testar na prática? Use o pacote liquid-audio, a demo em Gradio e o modelo no Hugging Face. Para ler a cobertura original do lançamento e análise técnica, veja: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/
Perguntas frequentes
O que é o LFM2-Audio-1.5B?
- É um modelo de áudio e linguagem de ponta a ponta que entende e gera fala e texto com um só backbone. Tem ~1,5B de parâmetros e usa código de áudio discreto para saída.
Como ele responde em menos de 100 ms?
- Combina embeddings contínuos de pedaços de áudio (~80 ms) com decodificação intercalada, reduzindo a necessidade de encadear ASR, LLM e TTS, o que permite emitir áudio cedo.
Por que isso muda o jogo para assistentes de voz?
- Resposta mais rápida = sensação de naturalidade. Pipeline mais simples = menos falhas. Pode rodar melhor em dispositivos com poucos recursos e cobre ASR, TTS e diálogo num só modelo.
Como ele se sai em benchmarks e ASR?
- No VoiceBench teve score geral 56.78 (varia por tarefa). Em ASR iguala ou supera Whisper-large-v3-turbo em alguns testes (ex.: LibriSpeech-clean 2.03 vs 2.10; AMI 15.36 vs 16.13).
Como começo a usar como desenvolvedor?
- Use o pacote Python liquid-audio, teste a demo em Gradio e baixe o modelo no Hugging Face. Há tutoriais e exemplos no GitHub para integração rápida.
Leituras e recursos adicionais
- Anúncio e cobertura técnica: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/
- Repositório e tutoriais: GitHub da Liquid AI
- Model card e downloads: Hugging Face
- Para explorar mais sobre onde encontrar recursos e comunidades sobre IA de voz, veja o guia de melhores blogs e sites sobre IA de voz.
Se você quiser conhecer outros artigos semelhantes a Novo modelo de áudio fim a fim da Liquid AI responde em menos de cem milissegundos e facilita criar assistentes de voz para você, você pode visitar a categoria Notícias e Tendências.
