Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto

6 meses ago · Updated 6 meses ago

voce-pode-interagir-por-audio-e-video-em-tempo-real-com-o-longcat-flash-omni-de-codigo-aberto
Table
  1. Ouça este artigo
  2. LongCat Flash Omni: um modelo ómnico-modal aberto de 560B parâmetros para interação multimodal em tempo real
  3. Principais novidades
  4. Como o sistema está montado
  5. Treinamento e currículo
  6. Design de sistemas e paralelismo
  7. Resultados de benchmark
  8. Conclusão
  9. Perguntas Frequentes

Ouça este artigo


Você vai descobrir o LongCat Flash Omni, projeto de código aberto que junta texto, imagem, vídeo e áudio num só modelo. Mantém o núcleo de linguagem e adiciona módulos de percepção para ouvir, ver e falar em tempo real, intercalando feições de áudio e vídeo em blocos curtos para garantir baixa latência. A equipe usa paralelismo desacoplado por modalidade para preservar eficiência durante treino e uso. Resultados mostram desempenho competitivo em benchmarks e o repositório traz paper e pesos para explorar. Veja mais no artigo original: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/

  • Modelo ómnico-modal que ouve, vê, lê e responde em tempo real sem perder eficiência
  • Mantém o backbone de linguagem e adiciona módulos de percepção para visão e áudio
  • Interleaving de áudio e vídeo em blocos para baixa latência e bom contexto espacial
  • Treino em fases do texto ao multimodal com extensão de contexto longo
  • Paralelismo desacoplado por modalidade mantém alta eficiência no ajuste fino multimodal

LongCat Flash Omni: um modelo ómnico-modal aberto de 560B parâmetros para interação multimodal em tempo real

A equipe LongCat (Meituan) lançou o LongCat Flash Omni, um modelo ómnico-modal de código aberto com 560 bilhões de parâmetros e cerca de 27 bilhões ativados por token. O projeto permite ver, ouvir, ler e responder em texto, imagem, vídeo e áudio em tempo real, mantendo eficiência e latência baixa — um cenário que tem ecos em iniciativas que integram agentes e recursos multimodais em interfaces e aplicações em tempo real, como as discussões sobre integração de agentes em tempo real e como integrar IA a ferramentas e recursos com baixa latência (MCP para integração em tempo real).

Principais novidades

  • Aberto: código e pesos públicos
  • Tamanho: 560B parâmetros totais; ~27B ativados por token
  • Contexto longo: suporte nativo a 128K de contexto
  • Percepção integrada: mesma pilha para imagem e vídeo; áudio convertido em tokens discretos
  • Streaming: interleaving de recursos áudio-visuais em blocos de 1 segundo
  • Amostragem condicionada por duração: vídeo padrão em 2 fps, ajustável
  • Eficiência: treino multimodal mantém >90% da vazão do treino só-texto (segundo a equipe)

Como o sistema está montado

Arquitetura que preserva o backbone de linguagem e conecta módulos de percepção:

  • Backbone de linguagem mantido inalterado
  • Encoder ViT processa imagens e frames de vídeo (sem torre de vídeo separada), uma abordagem que se relaciona com avanços na transformação de vídeos e imagens em conteúdos diferentes (veja também iniciativas para transformação de vídeo em mundos 3D e efeitos em tempo real, como ViPe da NVIDIA e as novidades de efeitos mágicos em tempo real no YouTube).
  • Encoder de áudio LongCat Audio Codec transformam fala em tokens discretos; essa linha de trabalho dialoga com avanços em modelos de áudio fim-a-fim e soluções de texto-para-fala, como modelos de áudio de baixa latência e novos TTS de grande capacidade (VibeVoice).
  • Decodificador gera fala a partir do mesmo fluxo do LLM, habilitando interação áudio-visual em tempo real
  • Design usa Mixture of Experts com conexões shortcut, preservando compatibilidade com versões anteriores

Treinamento e currículo

Treino dividido em etapas para estabilidade entre modalidades:

  • Treino inicial do backbone de texto (ativação por token entre 18.6B–31.3B; média ~27B)
  • Continuação com pretreino texto→fala
  • Continuação multimodal com imagens e vídeo
  • Extensão de contexto para 128K
  • Alinhamento do encoder de áudio

Esse caminho gradual busca estabilidade e compatibilidade entre modalidades. Para aplicações que exigem transcrições acuradas e identificação de falantes, há trabalhos complementares sobre transcrição e diarização que ajudam a orientar pipelines práticos, como soluções de transcrição com identificação de falantes e textos explicativos sobre diarização de fala.

Design de sistemas e paralelismo

Para lidar com padrões de cálculo distintos entre encoders e LLM, adotaram modality decoupled parallelism:

  • Encoders (visão e áudio): hybrid sharding e recomputação de ativação
  • LLM: paralelismo por pipeline, context e expert
  • ModalityBridge sincroniza embeddings e gradientes

Segundo os desenvolvedores, essa combinação permite que o treino multimodal retenha mais de 90% da performance do treino somente-texto. Em cenários de deployment, opções de hardware e aceleração na borda também são relevantes: desde placas e plataformas como a série Jetson da NVIDIA para aplicações robóticas e embarcadas (Jetson e IA física) até NPUs mais eficientes para privacidade e baixo consumo (Coral NPU aberto) e técnicas para embeddings on-device (EmbeddingGemma no celular).

Resultados de benchmark

Modelo OmniBench VideoMME VoiceBench
LongCat Flash Omni 61.4 78.2 88.7
Qwen 3 Omni Instruct 58.5
Qwen 2.5 Omni 55.0
Gemini 2.5 Pro 66.8
GPT-4o (referência) ~78 ~88
  • No OmniBench, LongCat Flash Omni supera Qwen 3 e Qwen 2.5, ficando abaixo do Gemini 2.5 Pro.
  • Em VideoMME, desempenho próximo a sistemas como GPT-4o.
  • Em VoiceBench, o valor reportado supera ligeiramente referências de áudio.
  • Em termos práticos de custo e velocidade por token, é útil comparar técnicas de economia de tokens e modelos otimizados, como as propostas que reduzem tokens mantêm desempenho com menor custo (estratégias de economia de tokens).

Conclusão

LongCat Flash Omni é um projeto de código aberto que reúne texto, imagem, vídeo e áudio num único modelo ómnico-modal de 560B, projetado para operar em tempo real com baixa latência. O diferencial prático: mantém o backbone de linguagem, aplica interleaving de áudio/vídeo em blocos de 1s, suporte a 128K de contexto e usa paralelismo desacoplado por modalidade (ModalityBridge) para preservar eficiência. Benchmarks mostram números sólidos (OmniBench 61.4; VoiceBench 88.7), mas a escala exige infraestrutura pesada em produção. Para quem quer experimentar, há base aberta e pesos disponíveis — e é interessante combinações com ferramentas e guias sobre integração de agentes e recursos multimodais, além de referências sobre agentes de voz e plataformas para 2025 (agentes de voz e plataformas).

O que isso significa para você: uma base aberta para protótipos, pesquisa ou integração multimodal em tempo real — potente, porém exigente em recursos. Mais detalhes e código estão no repositório e no artigo referenciado acima: https://www.marktechpost.com/2025/11/02/longcat-flash-omni-a-sota-open-source-omni-modal-model-with-560b-parameters-with-27b-activated-excelling-at-real-time-audio-visual-interaction/ — e em guias e posts práticos do blog, como os sobre integração em tempo real e modelos de áudio de baixa latência (MCP, modelos de áudio fim-a-fim).

Perguntas Frequentes

  • Posso interagir por áudio e vídeo em tempo real com o LongCat Flash Omni?
    Sim. Ele transforma áudio em tokens e gera fala a partir do mesmo fluxo do LLM. Vídeo e áudio são enviados em blocos de 1s para reduzir latência. Para arquiteturas de agentes que recebem e respondem em tempo real, veja referências sobre integração de agentes em interfaces.
  • Como o sistema mantém baixa latência sem perder contexto?
    Usa amostragem condicionada por duração (2 fps por padrão) e interleaving de features por chunks de 1s, equilibrando detalhe espacial e velocidade. Abordagens de TTS e codecs de baixa latência também contribuem para experiências interativas (VibeVoice, modelos fim-a-fim de baixa latência).
  • O vídeo precisa de uma torre separada ou de outro modelo?
    Não. Um único LongCat ViT processa imagens e frames de vídeo — não há torre de vídeo separada. Isso simplifica pipelines e tem paralelos em trabalhos que transformam vídeos para usos criativos e tridimensionais (ViPe).
  • Isso requer uma máquina monstruosa para rodar?
    Depende do uso. O modelo tem 560B params e ativa ~27B por token, portanto exige GPU e sharding para produção. O código e pesos são open source, o que facilita experimentação, mas deployment em escala pede infra distribuída — considere opções de aceleração na borda ou NPUs para casos de baixa latência e privacidade (Jetson, Coral NPU).
  • Qual o ganho prático em benchmarks e throughput?
    Bons números: 61.4 no OmniBench e 88.7 no VoiceBench. Em fine-tuning multimodal mantém >90% do throughput do treino só-texto. Para reduzir custos operacionais e tokens, vale observar estratégias e versões de modelos que priorizam eficiência por token (economia de tokens).

Se você quiser conhecer outros artigos semelhantes a Você pode interagir por áudio e vídeo em tempo real com o LongCat Flash Omni de código aberto, você pode visitar a categoria Notícias e Tendências.

Go up