Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto
6 meses ago · Updated 6 meses ago

Ouça este artigo
Você vai descobrir o LongCat Flash Omni, projeto de código aberto que junta texto, imagem, vídeo e áudio num só modelo. Mantém o núcleo de linguagem e adiciona módulos de percepção para ouvir, ver e falar em tempo real, intercalando feições de áudio e vídeo em blocos curtos para garantir baixa latência. A equipe usa paralelismo desacoplado por modalidade para preservar eficiência durante treino e uso. Resultados mostram desempenho competitivo em benchmarks e o repositório traz paper e pesos para explorar. Veja mais no artigo original: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/
- Modelo ómnico-modal que ouve, vê, lê e responde em tempo real sem perder eficiência
- Mantém o backbone de linguagem e adiciona módulos de percepção para visão e áudio
- Interleaving de áudio e vídeo em blocos para baixa latência e bom contexto espacial
- Treino em fases do texto ao multimodal com extensão de contexto longo
- Paralelismo desacoplado por modalidade mantém alta eficiência no ajuste fino multimodal
LongCat Flash Omni: um modelo ómnico-modal aberto de 560B parâmetros para interação multimodal em tempo real
A equipe LongCat (Meituan) lançou o LongCat Flash Omni, um modelo ómnico-modal de código aberto com 560 bilhões de parâmetros e cerca de 27 bilhões ativados por token. O projeto permite ver, ouvir, ler e responder em texto, imagem, vídeo e áudio em tempo real, mantendo eficiência e latência baixa — um cenário que tem ecos em iniciativas que integram agentes e recursos multimodais em interfaces e aplicações em tempo real, como as discussões sobre integração de agentes em tempo real e como integrar IA a ferramentas e recursos com baixa latência (MCP para integração em tempo real).
Principais novidades
- Aberto: código e pesos públicos
- Tamanho: 560B parâmetros totais; ~27B ativados por token
- Contexto longo: suporte nativo a 128K de contexto
- Percepção integrada: mesma pilha para imagem e vídeo; áudio convertido em tokens discretos
- Streaming: interleaving de recursos áudio-visuais em blocos de 1 segundo
- Amostragem condicionada por duração: vídeo padrão em 2 fps, ajustável
- Eficiência: treino multimodal mantém >90% da vazão do treino só-texto (segundo a equipe)
Como o sistema está montado
Arquitetura que preserva o backbone de linguagem e conecta módulos de percepção:
- Backbone de linguagem mantido inalterado
- Encoder ViT processa imagens e frames de vídeo (sem torre de vídeo separada), uma abordagem que se relaciona com avanços na transformação de vídeos e imagens em conteúdos diferentes (veja também iniciativas para transformação de vídeo em mundos 3D e efeitos em tempo real, como ViPe da NVIDIA e as novidades de efeitos mágicos em tempo real no YouTube).
- Encoder de áudio LongCat Audio Codec transformam fala em tokens discretos; essa linha de trabalho dialoga com avanços em modelos de áudio fim-a-fim e soluções de texto-para-fala, como modelos de áudio de baixa latência e novos TTS de grande capacidade (VibeVoice).
- Decodificador gera fala a partir do mesmo fluxo do LLM, habilitando interação áudio-visual em tempo real
- Design usa Mixture of Experts com conexões shortcut, preservando compatibilidade com versões anteriores
Treinamento e currículo
Treino dividido em etapas para estabilidade entre modalidades:
- Treino inicial do backbone de texto (ativação por token entre 18.6B–31.3B; média ~27B)
- Continuação com pretreino texto→fala
- Continuação multimodal com imagens e vídeo
- Extensão de contexto para 128K
- Alinhamento do encoder de áudio
Esse caminho gradual busca estabilidade e compatibilidade entre modalidades. Para aplicações que exigem transcrições acuradas e identificação de falantes, há trabalhos complementares sobre transcrição e diarização que ajudam a orientar pipelines práticos, como soluções de transcrição com identificação de falantes e textos explicativos sobre diarização de fala.
Design de sistemas e paralelismo
Para lidar com padrões de cálculo distintos entre encoders e LLM, adotaram modality decoupled parallelism:
- Encoders (visão e áudio): hybrid sharding e recomputação de ativação
- LLM: paralelismo por pipeline, context e expert
- ModalityBridge sincroniza embeddings e gradientes
Segundo os desenvolvedores, essa combinação permite que o treino multimodal retenha mais de 90% da performance do treino somente-texto. Em cenários de deployment, opções de hardware e aceleração na borda também são relevantes: desde placas e plataformas como a série Jetson da NVIDIA para aplicações robóticas e embarcadas (Jetson e IA física) até NPUs mais eficientes para privacidade e baixo consumo (Coral NPU aberto) e técnicas para embeddings on-device (EmbeddingGemma no celular).
Resultados de benchmark
| Modelo | OmniBench | VideoMME | VoiceBench |
|---|---|---|---|
| LongCat Flash Omni | 61.4 | 78.2 | 88.7 |
| Qwen 3 Omni Instruct | 58.5 | — | — |
| Qwen 2.5 Omni | 55.0 | — | — |
| Gemini 2.5 Pro | 66.8 | — | — |
| GPT-4o (referência) | — | ~78 | ~88 |
- No OmniBench, LongCat Flash Omni supera Qwen 3 e Qwen 2.5, ficando abaixo do Gemini 2.5 Pro.
- Em VideoMME, desempenho próximo a sistemas como GPT-4o.
- Em VoiceBench, o valor reportado supera ligeiramente referências de áudio.
- Em termos práticos de custo e velocidade por token, é útil comparar técnicas de economia de tokens e modelos otimizados, como as propostas que reduzem tokens mantêm desempenho com menor custo (estratégias de economia de tokens).
Conclusão
LongCat Flash Omni é um projeto de código aberto que reúne texto, imagem, vídeo e áudio num único modelo ómnico-modal de 560B, projetado para operar em tempo real com baixa latência. O diferencial prático: mantém o backbone de linguagem, aplica interleaving de áudio/vídeo em blocos de 1s, suporte a 128K de contexto e usa paralelismo desacoplado por modalidade (ModalityBridge) para preservar eficiência. Benchmarks mostram números sólidos (OmniBench 61.4; VoiceBench 88.7), mas a escala exige infraestrutura pesada em produção. Para quem quer experimentar, há base aberta e pesos disponíveis — e é interessante combinações com ferramentas e guias sobre integração de agentes e recursos multimodais, além de referências sobre agentes de voz e plataformas para 2025 (agentes de voz e plataformas).
O que isso significa para você: uma base aberta para protótipos, pesquisa ou integração multimodal em tempo real — potente, porém exigente em recursos. Mais detalhes e código estão no repositório e no artigo referenciado acima: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/ — e em guias e posts práticos do blog, como os sobre integração em tempo real e modelos de áudio de baixa latência (MCP, modelos de áudio fim-a-fim).
Perguntas Frequentes
- Posso interagir por áudio e vídeo em tempo real com o LongCat Flash Omni?
Sim. Ele transforma áudio em tokens e gera fala a partir do mesmo fluxo do LLM. Vídeo e áudio são enviados em blocos de 1s para reduzir latência. Para arquiteturas de agentes que recebem e respondem em tempo real, veja referências sobre integração de agentes em interfaces.
- Como o sistema mantém baixa latência sem perder contexto?
Usa amostragem condicionada por duração (2 fps por padrão) e interleaving de features por chunks de 1s, equilibrando detalhe espacial e velocidade. Abordagens de TTS e codecs de baixa latência também contribuem para experiências interativas (VibeVoice, modelos fim-a-fim de baixa latência).
- O vídeo precisa de uma torre separada ou de outro modelo?
Não. Um único LongCat ViT processa imagens e frames de vídeo — não há torre de vídeo separada. Isso simplifica pipelines e tem paralelos em trabalhos que transformam vídeos para usos criativos e tridimensionais (ViPe).
- Isso requer uma máquina monstruosa para rodar?
Depende do uso. O modelo tem 560B params e ativa ~27B por token, portanto exige GPU e sharding para produção. O código e pesos são open source, o que facilita experimentação, mas deployment em escala pede infra distribuída — considere opções de aceleração na borda ou NPUs para casos de baixa latência e privacidade (Jetson, Coral NPU).
- Qual o ganho prático em benchmarks e throughput?
Bons números: 61.4 no OmniBench e 88.7 no VoiceBench. Em fine-tuning multimodal mantém >90% do throughput do treino só-texto. Para reduzir custos operacionais e tokens, vale observar estratégias e versões de modelos que priorizam eficiência por token (economia de tokens).
Se você quiser conhecer outros artigos semelhantes a Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto, você pode visitar a categoria Notícias e Tendências.
