Novo modelo de áudio fim a fim da Liquid AI responde em menos de cem milissegundos e facilita criar assistentes de voz para você

7 meses ago · Updated 7 meses ago

novo-modelo-de-audio-fim-a-fim-da-liquid-ai-responde-em-menos-de-cem-milissegundos-e-facilita-criar

Ouça este artigo

Neste artigo você vai conhecer o novo LFM Audio da Liquid AI e entender o que muda para os seus assistentes de voz. O modelo é um sistema de ponta a ponta que entende e gera áudio e texto, promete latência quase instantânea e tem bons resultados em testes como VoiceBench e em métricas de ASR. Você verá por que isso pode simplificar seu pipeline e tornar interações de voz mais rápidas. Fonte adicional de anúncio: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/

Principais pontos

Modelo compacto que entende e gera voz e texto num único sistema

Entradas de áudio contínuas e saídas em códigos discretos para reduzir artefatos

Modo de geração pensado para agentes em tempo real com latência muito baixa

Desempenho sólido em benchmarks de voz e ASR, competitivo com modelos maiores

Pacote e demos prontos que simplificam pipelines e aceleram a integração

LFM2-Audio-1.5B chega com promessa de resposta em menos de 100 ms — o que você precisa saber
Você recebeu uma novidade no mundo da voz: a Liquid AI lançou o LFM2-Audio-1.5B, um modelo de áudio e texto em uma única pilha que foca em assistentes em tempo real com baixa latência e pegada reduzida. Para leitura complementar e detalhes do anúncio, veja também: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/

Resumo — pontos principais

O que é: um modelo multimodal de 1,5 bilhões de parâmetros que trata áudio e texto como sequências no mesmo backbone.

Velocidade: a empresa reporta menos de 100 ms até o primeiro áudio a partir de um comando de ~4 segundos, em suas medições.

Formato de I/O: entradas em embeddings contínuos (trechos de waveform ~80 ms) e saídas em códigos de áudio discretos.

Ferramentas: pacote Python (liquid-audio), demo em Gradio e modelo disponível no Hugging Face.

Como funciona — arquitetura e modos de geração

O modelo amplia um backbone de linguagem para incluir áudio como token.

A entrada permanece contínua (não discretizada) para evitar artefatos.

A saída usa códigos discretos, permitindo geração autoregressiva.

Há modos de geração voltados para agentes em tempo real, incluindo decodificação intercalada para emitir áudio cedo durante a resposta — uma abordagem que dialoga com iniciativas que permitem integrar agentes de IA em tempo real diretamente na interface.

Isso reduz a necessidade de encadear ASR → LLM → TTS, simplificando o pipeline e abrindo espaço para técnicas como cascatas especulativas que visam acelerar e baratear respostas em produção.

Desempenho e benchmarks
Você deve considerar duas avaliações principais reportadas:

VoiceBench

Conjunto de nove avaliações para assistentes de voz. A Liquid AI aponta uma nota geral de 56.78 para o LFM2-Audio-1.5B (varia por tarefa).

Resultados selecionados (avaliativos)

AlpacaEval: 3.71

CommonEval: 3.49

WildVoice: 3.17

ASR (taxa de erro de palavra, WER)

AMI: 15.36 (LFM2-Audio) vs 16.13 (Whisper-large-v3-turbo)

LibriSpeech (clean): 2.03 vs 2.10

Relatos da equipe indicam que, em seu ambiente de teste, o LFM2-Audio-1.5B alcança menor tempo até o primeiro áudio do que alguns modelos menores.

Por que isso importa para você e para a indústria de voz

Menos "cola" entre sistemas: ao operar ASR, entendimento e síntese em um backbone, o modelo reduz pontos frágeis entre módulos — um objetivo alinhado com discussões sobre agentes de voz e plataformas integradas.

Menor latência percebida: decodificação intercalada permite ouvir a resposta enquanto o restante do output ainda é gerado.

Implantação em dispositivos limitados: o tamanho de 1,5B visa uso em cenários com menos recursos — semelhante ao interesse por modelos e runtimes otimizados para edge, como os anúncios de hardware e plataformas para deploy em dispositivos (por exemplo, soluções para Jetson Thor e runtimes de publicação cruzada).

Versatilidade: suporta transcrição, síntese, classificação e diálogo sem trocar de modelo — o que facilita integrações onde você também pode querer recursos como diarização e identificação de falantes (veja o guia sobre diarização de fala) ou transcrições com identificação de falantes (EAR-3 da TwinMind).

O que você pode testar e como começar

Instale o pacote liquid-audio em Python.

Rode a demo em Gradio para avaliar latência e qualidade no seu fluxo — se precisa de UIs prontas para integrar agentes em tempo real, vale comparar com soluções de interface disponíveis no mercado.

Baixe o modelo via Hugging Face e siga exemplos e notebooks disponíveis.

Recursos: código e tutoriais no repositório GitHub da Liquid AI e model card com detalhes no Hugging Face. Para referência do anúncio e cobertura técnica, consulte também https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/

Comparativo técnico (seleção de WER)

Conjunto	LFM2-Audio-1.5B (WER)	Whisper-large-v3-turbo (WER)
AMI	15.36	16.13
LibriSpeech (clean)	2.03	2.10

Contexto competitivo e alternativas

Para síntese de voz de alta duração veja comparações com iniciativas como o VibeVoice 1.5B da Microsoft.

Em reconhecimento híbrido e soluções que combinam fala e linguagem, acompanhe lançamentos como Canary Qwen 2.5B e os modelos Otimizados para empresas mencionados em Nemotron Nano 2.

Conclusão
O LFM2-Audio-1.5B é mais que um experimento: é um atalho para respostas de voz mais rápidas e pipelines menos fraturados. Com 1,5B de parâmetros, entradas em embeddings contínuos e saídas em códigos discretos, ele reduz a tradicional cola entre ASR → LLM → TTS. Resultado: menor latência (a promessa de menos de 100 ms até o primeiro áudio) e menos artefatos — uma orquestra afinada em vez de músicos batendo cabeça.

Para desenvolvedores e responsáveis por produto, isso significa integração mais simples com um único backbone, respostas que soam mais naturais e potencial para rodar em dispositivos com recursos limitados. Os benchmarks de ASR e o score no VoiceBench mostram que a qualidade é competitiva — não é só velocidade por velocidade.

Quer testar na prática? Use o pacote liquid-audio, a demo em Gradio e o modelo no Hugging Face. Para ler a cobertura original do lançamento e análise técnica, veja: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/

Perguntas frequentes

O que é o LFM2-Audio-1.5B?

É um modelo de áudio e linguagem de ponta a ponta que entende e gera fala e texto com um só backbone. Tem ~1,5B de parâmetros e usa código de áudio discreto para saída.

Como ele responde em menos de 100 ms?

Combina embeddings contínuos de pedaços de áudio (~80 ms) com decodificação intercalada, reduzindo a necessidade de encadear ASR, LLM e TTS, o que permite emitir áudio cedo.

Por que isso muda o jogo para assistentes de voz?

Resposta mais rápida = sensação de naturalidade. Pipeline mais simples = menos falhas. Pode rodar melhor em dispositivos com poucos recursos e cobre ASR, TTS e diálogo num só modelo.

Como ele se sai em benchmarks e ASR?

No VoiceBench teve score geral 56.78 (varia por tarefa). Em ASR iguala ou supera Whisper-large-v3-turbo em alguns testes (ex.: LibriSpeech-clean 2.03 vs 2.10; AMI 15.36 vs 16.13).

Como começo a usar como desenvolvedor?

Use o pacote Python liquid-audio, teste a demo em Gradio e baixe o modelo no Hugging Face. Há tutoriais e exemplos no GitHub para integração rápida.

Leituras e recursos adicionais

Anúncio e cobertura técnica: https://www.marktechpost.com/2025/10/01/liquid-ai-released-lfm2-audio-1-5b-an-end-to-end-audio-foundation-model-with-sub-100-ms-response-latency/

Repositório e tutoriais: GitHub da Liquid AI

Model card e downloads: Hugging Face

Para explorar mais sobre onde encontrar recursos e comunidades sobre IA de voz, veja o guia de melhores blogs e sites sobre IA de voz.

Se você quiser conhecer outros artigos semelhantes a Novo modelo de áudio fim a fim da Liquid AI responde em menos de cem milissegundos e facilita criar assistentes de voz para você, você pode visitar a categoria Notícias e Tendências.