Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala
4 meses ago · Updated 4 meses ago

Ouça este artigo
Você vai conhecer a nova aposta da Meta, o Perception Encoder Audiovisual (PE‑AV), que une áudio, vídeo e texto num mesmo espaço de representações. Ele permite buscar vídeos por descrição, isolar sons com sinais visuais e gerar legendas alinhadas sem treinar modelos novos. O sistema já alimenta ferramentas como SAM Audio e promete acelerar trabalho com multimídia — abrindo portas para criadores, acessibilidade e pesquisa com código aberto.
- PE‑AV foi aberto pela Meta para unir áudio, vídeo e texto no mesmo espaço.
- Treinado com cerca de 100M pares áudio‑vídeo usando legendas sintéticas.
- Tem módulos para frame, vídeo, áudio, fusão e texto que permitem buscas multimodais.
- PEA‑Frame localiza exatamente quando o som acontece ao longo do tempo.
- Alimenta o SAM Audio para separar sons e permitir recuperação por vídeo ou texto.
- Licença: Apache 2.0.
Meta libera PE‑AV, encoder audiovisual que une áudio, vídeo e texto
A Meta tornou público o novo encoder multimodal PE‑AV, que projeta áudio, vídeo e texto num mesmo espaço de vetores. Treinado com aproximadamente 100 milhões de pares áudio‑vídeo e legendas sintéticas, o PE‑AV já é peça central do ecossistema de percepção da Meta, incluindo o SAM Audio, e foi publicado sob licença Apache 2.0.
Principais pontos
- Integra representações de áudio, vídeo e texto em uma única base.
- Treinamento em larga escala: ~100M pares áudio‑vídeo.
- Objetivo contrastivo com 10 pares de perda (8 no pré‑treinamento, 2 no ajuste fino).
- Inclui PEA‑Frame para localização temporal (embeddings a cada 40 ms).
- Componente do ecossistema Perception Models e do SAM Audio.
- Licença: Apache 2.0.
Arquitetura
A estrutura é modular e permite consultas cruzadas sem cabeças de tarefa separadas. Blocos principais:
- Frame Encoder: extrai características de quadros individuais.
- Video Encoder: captura dinâmica temporal e sequência visual.
- Audio Encoder: converte áudio em tokens/discretizações (taxa fina de frames), aplicando técnicas para fazer modelos "ouvir" melhor, como as discutidas em iniciativas sobre aprimoramento de percepção auditiva Step Audio R1.
- Audio‑Video Fusion Encoder: aprende representação compartilhada das duas modalidades.
- Text Encoder: projeta consultas textuais para espaços especializados.
Esse backbone permite recuperar vídeo por texto, áudio por texto, áudio por vídeo, ou gerar descrições condicionais entre modos sem retreinar.
Motor de dados e legendas sintéticas
A equipe descreve um processo em duas etapas para produzir legendas de alta qualidade a partir de clipes não rotulados:
- Etapa inicial
- Vários modelos fracos de legenda de áudio e vídeo geram rascunhos.
- Um LLM recebe essas saídas e confidências e cria três legendas por clipe: áudio, visual e audiovisual — processo que se beneficia de avanços em modelos de contexto longo e decodificação mais eficiente, como explorado por projetos que estendem o alcance das LLMs (Refrag).
- Usa ~92M clipes únicos para pré‑treinamento.
- Etapa de refinamento
- Um PE‑AV inicial é combinado com um decodificador de linguagem multimodal (Perception Language Model).
- Essa dupla melhora as legendas explorando correspondências áudio‑vídeo.
- Mais ~32M clipes únicos são usados no ajuste fino.
O corpus foi balanceado para cobrir fala, sons gerais, música e domínios de vídeo variados, não se limitando apenas à fala — algo que se relaciona com técnicas práticas para transcrição e identificação de falantes apresentadas em iniciativas como EAR‑3 e com a importância da diarização de fala.
Objetivo de treinamento
- Perda contrastiva (sigmoid) entre visões de áudio, vídeo, texto e fusão.
- Pré‑treinamento com 8 combinações de pares contrastivos; ajuste fino adiciona 2 pares, totalizando 10 pares.
- Esse alinhamento unificado permite tarefas como classificação, recuperação e detecção de correspondências usando similaridade por produto escalar.
PEA‑Frame: localização temporal
- PEA‑Frame produz um embedding de áudio a cada 40 ms e um embedding textual por consulta.
- Usa aprendizado contrastivo ao nível de frame para alinhar textos a segmentos de áudio.
- Permite identificar quando um evento descrito ocorre no tempo — por exemplo, falas específicas, instrumentos ou sons transitórios — uma capacidade que se conecta diretamente a problemas práticos de diarização e localização temporal de eventos (entenda mais sobre diarização).
Desempenho e aplicações
- Relatórios indicam que PE‑AV alcança desempenho de ponta em buscas e classificações zero‑shot em diversos benchmarks de áudio e vídeo.
- Concorrentes citados: CLAP, Audio Flamingo, ImageBind, LanguageBind.
- Casos de uso práticos:
- Selecionar um objeto visual e extrair seu som com SAM Audio.
- Usar prompts textuais para isolar ou remover sons (por exemplo, latido de cachorro).
- Ferramentas como SAM Audio Judge avaliam qualidade de separação sem sinal de referência.
- Escalar índices e escolher entre precisão, latência e tamanho do índice em buscas multimodais torna‑se crítico para produção; abordagens práticas para isso são discutidas em guias sobre dimensionamento de buscas multimodais (MetaEmbed e opções de escala).
- Em suma: busca multimodal, separação de som orientada por imagem ou texto e legendas alinhadas sem precisar treinar modelos do zero.
Conclusão
O PE‑AV é uma ponte potente entre áudio, vídeo e texto, trazendo ferramentas práticas — como PEA‑Frame para localizar sons no tempo e SAM Audio para isolar fontes sonoras — que podem acelerar fluxos de trabalho multimídia. Para criadores, pesquisadores e iniciativas de acessibilidade, representa uma caixa de ferramentas aberta e versátil. É solução técnica e promessa: menos quebra‑cabeça, mais resultado. Para quem pensa em integrar embeddings em produção ou até no dispositivo, há caminhos práticos para embeddings móveis e privacidade (EmbeddingGemma no celular), além de estratégias para reduzir custo e latência em aplicações RAG (cache semântico e otimização de RAG).
Quer se aprofundar e acompanhar novidades como esta? Leia mais em https://blog.aidirectory.com.br.
Perguntas Frequentes
- O que é o PE‑AV e por que ele importa?
PE‑AV é um codificador que une áudio, vídeo e texto num só espaço de vetores. Foi treinado com ~100 milhões de pares áudio‑vídeo para busca e compreensão multimodal e alimenta aplicações como o SAM Audio.
- Como é a arquitetura do PE‑AV?
Consiste em torres separadas (frame, vídeo, áudio, fusão áudio‑vídeo e texto). As saídas passam por um encoder de fusão para criar representações conjuntas, permitindo buscas cruzadas sem cabeças específicas.
- Como foram criadas as legendas sintéticas para treinamento?
Primeiro, modelos fracos geram legendas áudio e vídeo; um LLM junta e refina três tipos de legenda por clipe (áudio, visual, audiovisual). Depois, um PE‑AV inicial e um Perception LM melhoram as legendas num segundo estágio — um fluxo que se beneficia de avanços em modelos de contexto e decodificação (Refrag).
- O que é o PEA‑Frame e como o SAM Audio usa o PE‑AV?
PEA‑Frame gera embeddings por frame (~40 ms) para localizar sons no tempo. SAM Audio usa embeddings do PE‑AV para isolar sons, guiar separação por clique ou texto e avaliar qualidade com o Judge.
- Posso usar o PE‑AV no meu projeto? Qual a licença?
Sim. O PE‑AV foi liberado em Apache 2.0. É livre para pesquisa e produtos, respeitando a licença. Requer dados e GPU para treinar ou rodar em larga escala.
Se você quiser conhecer outros artigos semelhantes a Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala, você pode visitar a categoria Notícias e Tendências.
