Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala

4 meses ago · Updated 4 meses ago

meta-libera-peav-encoder-audiovisual-que-alimenta-sam-audio-e-buscas-multimodais-em-grande-escala

Table

Ouça este artigo
Meta libera PE‑AV, encoder audiovisual que une áudio, vídeo e texto
Principais pontos
Arquitetura
Motor de dados e legendas sintéticas
Objetivo de treinamento
PEA‑Frame: localização temporal
Desempenho e aplicações
Conclusão
Perguntas Frequentes

Ouça este artigo

Você vai conhecer a nova aposta da Meta, o Perception Encoder Audiovisual (PE‑AV), que une áudio, vídeo e texto num mesmo espaço de representações. Ele permite buscar vídeos por descrição, isolar sons com sinais visuais e gerar legendas alinhadas sem treinar modelos novos. O sistema já alimenta ferramentas como SAM Audio e promete acelerar trabalho com multimídia — abrindo portas para criadores, acessibilidade e pesquisa com código aberto.

PE‑AV foi aberto pela Meta para unir áudio, vídeo e texto no mesmo espaço.

Treinado com cerca de 100M pares áudio‑vídeo usando legendas sintéticas.

Tem módulos para frame, vídeo, áudio, fusão e texto que permitem buscas multimodais.

PEA‑Frame localiza exatamente quando o som acontece ao longo do tempo.

Alimenta o SAM Audio para separar sons e permitir recuperação por vídeo ou texto.

Licença: Apache 2.0.

Meta libera PE‑AV, encoder audiovisual que une áudio, vídeo e texto

A Meta tornou público o novo encoder multimodal PE‑AV, que projeta áudio, vídeo e texto num mesmo espaço de vetores. Treinado com aproximadamente 100 milhões de pares áudio‑vídeo e legendas sintéticas, o PE‑AV já é peça central do ecossistema de percepção da Meta, incluindo o SAM Audio, e foi publicado sob licença Apache 2.0.

Principais pontos

Integra representações de áudio, vídeo e texto em uma única base.

Treinamento em larga escala: ~100M pares áudio‑vídeo.

Objetivo contrastivo com 10 pares de perda (8 no pré‑treinamento, 2 no ajuste fino).

Inclui PEA‑Frame para localização temporal (embeddings a cada 40 ms).

Componente do ecossistema Perception Models e do SAM Audio.

Licença: Apache 2.0.

Arquitetura

A estrutura é modular e permite consultas cruzadas sem cabeças de tarefa separadas. Blocos principais:

Frame Encoder: extrai características de quadros individuais.

Video Encoder: captura dinâmica temporal e sequência visual.

Audio Encoder: converte áudio em tokens/discretizações (taxa fina de frames), aplicando técnicas para fazer modelos "ouvir" melhor, como as discutidas em iniciativas sobre aprimoramento de percepção auditiva Step Audio R1.

Audio‑Video Fusion Encoder: aprende representação compartilhada das duas modalidades.

Text Encoder: projeta consultas textuais para espaços especializados.

Esse backbone permite recuperar vídeo por texto, áudio por texto, áudio por vídeo, ou gerar descrições condicionais entre modos sem retreinar.

Motor de dados e legendas sintéticas

A equipe descreve um processo em duas etapas para produzir legendas de alta qualidade a partir de clipes não rotulados:

Etapa inicial

Vários modelos fracos de legenda de áudio e vídeo geram rascunhos.

Um LLM recebe essas saídas e confidências e cria três legendas por clipe: áudio, visual e audiovisual — processo que se beneficia de avanços em modelos de contexto longo e decodificação mais eficiente, como explorado por projetos que estendem o alcance das LLMs (Refrag).

Usa ~92M clipes únicos para pré‑treinamento.

Etapa de refinamento

Um PE‑AV inicial é combinado com um decodificador de linguagem multimodal (Perception Language Model).

Essa dupla melhora as legendas explorando correspondências áudio‑vídeo.

Mais ~32M clipes únicos são usados no ajuste fino.

O corpus foi balanceado para cobrir fala, sons gerais, música e domínios de vídeo variados, não se limitando apenas à fala — algo que se relaciona com técnicas práticas para transcrição e identificação de falantes apresentadas em iniciativas como EAR‑3 e com a importância da diarização de fala.

Objetivo de treinamento

Perda contrastiva (sigmoid) entre visões de áudio, vídeo, texto e fusão.

Pré‑treinamento com 8 combinações de pares contrastivos; ajuste fino adiciona 2 pares, totalizando 10 pares.

Esse alinhamento unificado permite tarefas como classificação, recuperação e detecção de correspondências usando similaridade por produto escalar.

PEA‑Frame: localização temporal

PEA‑Frame produz um embedding de áudio a cada 40 ms e um embedding textual por consulta.

Usa aprendizado contrastivo ao nível de frame para alinhar textos a segmentos de áudio.

Permite identificar quando um evento descrito ocorre no tempo — por exemplo, falas específicas, instrumentos ou sons transitórios — uma capacidade que se conecta diretamente a problemas práticos de diarização e localização temporal de eventos (entenda mais sobre diarização).

Desempenho e aplicações

Relatórios indicam que PE‑AV alcança desempenho de ponta em buscas e classificações zero‑shot em diversos benchmarks de áudio e vídeo.

Concorrentes citados: CLAP, Audio Flamingo, ImageBind, LanguageBind.

Casos de uso práticos:

Selecionar um objeto visual e extrair seu som com SAM Audio.

Usar prompts textuais para isolar ou remover sons (por exemplo, latido de cachorro).

Ferramentas como SAM Audio Judge avaliam qualidade de separação sem sinal de referência.

Escalar índices e escolher entre precisão, latência e tamanho do índice em buscas multimodais torna‑se crítico para produção; abordagens práticas para isso são discutidas em guias sobre dimensionamento de buscas multimodais (MetaEmbed e opções de escala).

Em suma: busca multimodal, separação de som orientada por imagem ou texto e legendas alinhadas sem precisar treinar modelos do zero.

Conclusão

O PE‑AV é uma ponte potente entre áudio, vídeo e texto, trazendo ferramentas práticas — como PEA‑Frame para localizar sons no tempo e SAM Audio para isolar fontes sonoras — que podem acelerar fluxos de trabalho multimídia. Para criadores, pesquisadores e iniciativas de acessibilidade, representa uma caixa de ferramentas aberta e versátil. É solução técnica e promessa: menos quebra‑cabeça, mais resultado. Para quem pensa em integrar embeddings em produção ou até no dispositivo, há caminhos práticos para embeddings móveis e privacidade (EmbeddingGemma no celular), além de estratégias para reduzir custo e latência em aplicações RAG (cache semântico e otimização de RAG).

Quer se aprofundar e acompanhar novidades como esta? Leia mais em https://blog.aidirectory.com.br.

Perguntas Frequentes

O que é o PE‑AV e por que ele importa?
PE‑AV é um codificador que une áudio, vídeo e texto num só espaço de vetores. Foi treinado com ~100 milhões de pares áudio‑vídeo para busca e compreensão multimodal e alimenta aplicações como o SAM Audio.

Como é a arquitetura do PE‑AV?
Consiste em torres separadas (frame, vídeo, áudio, fusão áudio‑vídeo e texto). As saídas passam por um encoder de fusão para criar representações conjuntas, permitindo buscas cruzadas sem cabeças específicas.

Como foram criadas as legendas sintéticas para treinamento?
Primeiro, modelos fracos geram legendas áudio e vídeo; um LLM junta e refina três tipos de legenda por clipe (áudio, visual, audiovisual). Depois, um PE‑AV inicial e um Perception LM melhoram as legendas num segundo estágio — um fluxo que se beneficia de avanços em modelos de contexto e decodificação (Refrag).

O que é o PEA‑Frame e como o SAM Audio usa o PE‑AV?
PEA‑Frame gera embeddings por frame (~40 ms) para localizar sons no tempo. SAM Audio usa embeddings do PE‑AV para isolar sons, guiar separação por clique ou texto e avaliar qualidade com o Judge.

Posso usar o PE‑AV no meu projeto? Qual a licença?
Sim. O PE‑AV foi liberado em Apache 2.0. É livre para pesquisa e produtos, respeitando a licença. Requer dados e GPU para treinar ou rodar em larga escala.

Se você quiser conhecer outros artigos semelhantes a Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala, você pode visitar a categoria Notícias e Tendências.