Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto

6 meses ago · Updated 6 meses ago

voce-pode-interagir-por-audio-e-video-em-tempo-real-com-o-longcat-flash-omni-de-codigo-aberto

Table

Ouça este artigo
LongCat Flash Omni: um modelo ómnico-modal aberto de 560B parâmetros para interação multimodal em tempo real
Principais novidades
Como o sistema está montado
Treinamento e currículo
Design de sistemas e paralelismo
Resultados de benchmark
Conclusão
Perguntas Frequentes

Ouça este artigo

Você vai descobrir o LongCat Flash Omni, projeto de código aberto que junta texto, imagem, vídeo e áudio num só modelo. Mantém o núcleo de linguagem e adiciona módulos de percepção para ouvir, ver e falar em tempo real, intercalando feições de áudio e vídeo em blocos curtos para garantir baixa latência. A equipe usa paralelismo desacoplado por modalidade para preservar eficiência durante treino e uso. Resultados mostram desempenho competitivo em benchmarks e o repositório traz paper e pesos para explorar. Veja mais no artigo original: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/

Modelo ómnico-modal que ouve, vê, lê e responde em tempo real sem perder eficiência

Mantém o backbone de linguagem e adiciona módulos de percepção para visão e áudio

Interleaving de áudio e vídeo em blocos para baixa latência e bom contexto espacial

Treino em fases do texto ao multimodal com extensão de contexto longo

Paralelismo desacoplado por modalidade mantém alta eficiência no ajuste fino multimodal

LongCat Flash Omni: um modelo ómnico-modal aberto de 560B parâmetros para interação multimodal em tempo real

A equipe LongCat (Meituan) lançou o LongCat Flash Omni, um modelo ómnico-modal de código aberto com 560 bilhões de parâmetros e cerca de 27 bilhões ativados por token. O projeto permite ver, ouvir, ler e responder em texto, imagem, vídeo e áudio em tempo real, mantendo eficiência e latência baixa — um cenário que tem ecos em iniciativas que integram agentes e recursos multimodais em interfaces e aplicações em tempo real, como as discussões sobre integração de agentes em tempo real e como integrar IA a ferramentas e recursos com baixa latência (MCP para integração em tempo real).

Principais novidades

Aberto: código e pesos públicos

Tamanho: 560B parâmetros totais; ~27B ativados por token

Contexto longo: suporte nativo a 128K de contexto

Percepção integrada: mesma pilha para imagem e vídeo; áudio convertido em tokens discretos

Streaming: interleaving de recursos áudio-visuais em blocos de 1 segundo

Amostragem condicionada por duração: vídeo padrão em 2 fps, ajustável

Eficiência: treino multimodal mantém >90% da vazão do treino só-texto (segundo a equipe)

Como o sistema está montado

Arquitetura que preserva o backbone de linguagem e conecta módulos de percepção:

Backbone de linguagem mantido inalterado

Encoder ViT processa imagens e frames de vídeo (sem torre de vídeo separada), uma abordagem que se relaciona com avanços na transformação de vídeos e imagens em conteúdos diferentes (veja também iniciativas para transformação de vídeo em mundos 3D e efeitos em tempo real, como ViPe da NVIDIA e as novidades de efeitos mágicos em tempo real no YouTube).

Encoder de áudio LongCat Audio Codec transformam fala em tokens discretos; essa linha de trabalho dialoga com avanços em modelos de áudio fim-a-fim e soluções de texto-para-fala, como modelos de áudio de baixa latência e novos TTS de grande capacidade (VibeVoice).

Decodificador gera fala a partir do mesmo fluxo do LLM, habilitando interação áudio-visual em tempo real

Design usa Mixture of Experts com conexões shortcut, preservando compatibilidade com versões anteriores

Treinamento e currículo

Treino dividido em etapas para estabilidade entre modalidades:

Treino inicial do backbone de texto (ativação por token entre 18.6B–31.3B; média ~27B)

Continuação com pretreino texto→fala

Continuação multimodal com imagens e vídeo

Extensão de contexto para 128K

Alinhamento do encoder de áudio

Esse caminho gradual busca estabilidade e compatibilidade entre modalidades. Para aplicações que exigem transcrições acuradas e identificação de falantes, há trabalhos complementares sobre transcrição e diarização que ajudam a orientar pipelines práticos, como soluções de transcrição com identificação de falantes e textos explicativos sobre diarização de fala.

Design de sistemas e paralelismo

Para lidar com padrões de cálculo distintos entre encoders e LLM, adotaram modality decoupled parallelism:

Encoders (visão e áudio): hybrid sharding e recomputação de ativação

LLM: paralelismo por pipeline, context e expert

ModalityBridge sincroniza embeddings e gradientes

Segundo os desenvolvedores, essa combinação permite que o treino multimodal retenha mais de 90% da performance do treino somente-texto. Em cenários de deployment, opções de hardware e aceleração na borda também são relevantes: desde placas e plataformas como a série Jetson da NVIDIA para aplicações robóticas e embarcadas (Jetson e IA física) até NPUs mais eficientes para privacidade e baixo consumo (Coral NPU aberto) e técnicas para embeddings on-device (EmbeddingGemma no celular).

Resultados de benchmark

Modelo	OmniBench	VideoMME	VoiceBench
LongCat Flash Omni	61.4	78.2	88.7
Qwen 3 Omni Instruct	58.5	—	—
Qwen 2.5 Omni	55.0	—	—
Gemini 2.5 Pro	66.8	—	—
GPT-4o (referência)	—	~78	~88

No OmniBench, LongCat Flash Omni supera Qwen 3 e Qwen 2.5, ficando abaixo do Gemini 2.5 Pro.

Em VideoMME, desempenho próximo a sistemas como GPT-4o.

Em VoiceBench, o valor reportado supera ligeiramente referências de áudio.

Em termos práticos de custo e velocidade por token, é útil comparar técnicas de economia de tokens e modelos otimizados, como as propostas que reduzem tokens mantêm desempenho com menor custo (estratégias de economia de tokens).

Conclusão

LongCat Flash Omni é um projeto de código aberto que reúne texto, imagem, vídeo e áudio num único modelo ómnico-modal de 560B, projetado para operar em tempo real com baixa latência. O diferencial prático: mantém o backbone de linguagem, aplica interleaving de áudio/vídeo em blocos de 1s, suporte a 128K de contexto e usa paralelismo desacoplado por modalidade (ModalityBridge) para preservar eficiência. Benchmarks mostram números sólidos (OmniBench 61.4; VoiceBench 88.7), mas a escala exige infraestrutura pesada em produção. Para quem quer experimentar, há base aberta e pesos disponíveis — e é interessante combinações com ferramentas e guias sobre integração de agentes e recursos multimodais, além de referências sobre agentes de voz e plataformas para 2025 (agentes de voz e plataformas).

O que isso significa para você: uma base aberta para protótipos, pesquisa ou integração multimodal em tempo real — potente, porém exigente em recursos. Mais detalhes e código estão no repositório e no artigo referenciado acima: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/ — e em guias e posts práticos do blog, como os sobre integração em tempo real e modelos de áudio de baixa latência (MCP, modelos de áudio fim-a-fim).

Perguntas Frequentes

Posso interagir por áudio e vídeo em tempo real com o LongCat Flash Omni?
Sim. Ele transforma áudio em tokens e gera fala a partir do mesmo fluxo do LLM. Vídeo e áudio são enviados em blocos de 1s para reduzir latência. Para arquiteturas de agentes que recebem e respondem em tempo real, veja referências sobre integração de agentes em interfaces.

Como o sistema mantém baixa latência sem perder contexto?
Usa amostragem condicionada por duração (2 fps por padrão) e interleaving de features por chunks de 1s, equilibrando detalhe espacial e velocidade. Abordagens de TTS e codecs de baixa latência também contribuem para experiências interativas (VibeVoice, modelos fim-a-fim de baixa latência).

O vídeo precisa de uma torre separada ou de outro modelo?
Não. Um único LongCat ViT processa imagens e frames de vídeo — não há torre de vídeo separada. Isso simplifica pipelines e tem paralelos em trabalhos que transformam vídeos para usos criativos e tridimensionais (ViPe).

Isso requer uma máquina monstruosa para rodar?
Depende do uso. O modelo tem 560B params e ativa ~27B por token, portanto exige GPU e sharding para produção. O código e pesos são open source, o que facilita experimentação, mas deployment em escala pede infra distribuída — considere opções de aceleração na borda ou NPUs para casos de baixa latência e privacidade (Jetson, Coral NPU).

Qual o ganho prático em benchmarks e throughput?
Bons números: 61.4 no OmniBench e 88.7 no VoiceBench. Em fine-tuning multimodal mantém >90% do throughput do treino só-texto. Para reduzir custos operacionais e tokens, vale observar estratégias e versões de modelos que priorizam eficiência por token (economia de tokens).

Se você quiser conhecer outros artigos semelhantes a Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto, você pode visitar a categoria Notícias e Tendências.