Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala

4 meses ago · Updated 4 meses ago

meta-libera-peav-encoder-audiovisual-que-alimenta-sam-audio-e-buscas-multimodais-em-grande-escala
Table
  1. Ouça este artigo
  2. Meta libera PE‑AV, encoder audiovisual que une áudio, vídeo e texto
  3. Principais pontos
  4. Arquitetura
  5. Motor de dados e legendas sintéticas
  6. Objetivo de treinamento
  7. PEA‑Frame: localização temporal
  8. Desempenho e aplicações
  9. Conclusão
  10. Perguntas Frequentes

Ouça este artigo


Você vai conhecer a nova aposta da Meta, o Perception Encoder Audiovisual (PE‑AV), que une áudio, vídeo e texto num mesmo espaço de representações. Ele permite buscar vídeos por descrição, isolar sons com sinais visuais e gerar legendas alinhadas sem treinar modelos novos. O sistema já alimenta ferramentas como SAM Audio e promete acelerar trabalho com multimídia — abrindo portas para criadores, acessibilidade e pesquisa com código aberto.

  • PE‑AV foi aberto pela Meta para unir áudio, vídeo e texto no mesmo espaço.
  • Treinado com cerca de 100M pares áudio‑vídeo usando legendas sintéticas.
  • Tem módulos para frame, vídeo, áudio, fusão e texto que permitem buscas multimodais.
  • PEA‑Frame localiza exatamente quando o som acontece ao longo do tempo.
  • Alimenta o SAM Audio para separar sons e permitir recuperação por vídeo ou texto.
  • Licença: Apache 2.0.

Meta libera PE‑AV, encoder audiovisual que une áudio, vídeo e texto

A Meta tornou público o novo encoder multimodal PE‑AV, que projeta áudio, vídeo e texto num mesmo espaço de vetores. Treinado com aproximadamente 100 milhões de pares áudio‑vídeo e legendas sintéticas, o PE‑AV já é peça central do ecossistema de percepção da Meta, incluindo o SAM Audio, e foi publicado sob licença Apache 2.0.

Principais pontos

  • Integra representações de áudio, vídeo e texto em uma única base.
  • Treinamento em larga escala: ~100M pares áudio‑vídeo.
  • Objetivo contrastivo com 10 pares de perda (8 no pré‑treinamento, 2 no ajuste fino).
  • Inclui PEA‑Frame para localização temporal (embeddings a cada 40 ms).
  • Componente do ecossistema Perception Models e do SAM Audio.
  • Licença: Apache 2.0.

Arquitetura

A estrutura é modular e permite consultas cruzadas sem cabeças de tarefa separadas. Blocos principais:

  • Frame Encoder: extrai características de quadros individuais.
  • Video Encoder: captura dinâmica temporal e sequência visual.
  • Audio Encoder: converte áudio em tokens/discretizações (taxa fina de frames), aplicando técnicas para fazer modelos "ouvir" melhor, como as discutidas em iniciativas sobre aprimoramento de percepção auditiva Step Audio R1.
  • Audio‑Video Fusion Encoder: aprende representação compartilhada das duas modalidades.
  • Text Encoder: projeta consultas textuais para espaços especializados.

Esse backbone permite recuperar vídeo por texto, áudio por texto, áudio por vídeo, ou gerar descrições condicionais entre modos sem retreinar.

Motor de dados e legendas sintéticas

A equipe descreve um processo em duas etapas para produzir legendas de alta qualidade a partir de clipes não rotulados:

  • Etapa inicial
  • Vários modelos fracos de legenda de áudio e vídeo geram rascunhos.
  • Um LLM recebe essas saídas e confidências e cria três legendas por clipe: áudio, visual e audiovisual — processo que se beneficia de avanços em modelos de contexto longo e decodificação mais eficiente, como explorado por projetos que estendem o alcance das LLMs (Refrag).
  • Usa ~92M clipes únicos para pré‑treinamento.
  • Etapa de refinamento
  • Um PE‑AV inicial é combinado com um decodificador de linguagem multimodal (Perception Language Model).
  • Essa dupla melhora as legendas explorando correspondências áudio‑vídeo.
  • Mais ~32M clipes únicos são usados no ajuste fino.

O corpus foi balanceado para cobrir fala, sons gerais, música e domínios de vídeo variados, não se limitando apenas à fala — algo que se relaciona com técnicas práticas para transcrição e identificação de falantes apresentadas em iniciativas como EAR‑3 e com a importância da diarização de fala.

Objetivo de treinamento

  • Perda contrastiva (sigmoid) entre visões de áudio, vídeo, texto e fusão.
  • Pré‑treinamento com 8 combinações de pares contrastivos; ajuste fino adiciona 2 pares, totalizando 10 pares.
  • Esse alinhamento unificado permite tarefas como classificação, recuperação e detecção de correspondências usando similaridade por produto escalar.

PEA‑Frame: localização temporal

  • PEA‑Frame produz um embedding de áudio a cada 40 ms e um embedding textual por consulta.
  • Usa aprendizado contrastivo ao nível de frame para alinhar textos a segmentos de áudio.
  • Permite identificar quando um evento descrito ocorre no tempo — por exemplo, falas específicas, instrumentos ou sons transitórios — uma capacidade que se conecta diretamente a problemas práticos de diarização e localização temporal de eventos (entenda mais sobre diarização).

Desempenho e aplicações

  • Relatórios indicam que PE‑AV alcança desempenho de ponta em buscas e classificações zero‑shot em diversos benchmarks de áudio e vídeo.
  • Concorrentes citados: CLAP, Audio Flamingo, ImageBind, LanguageBind.
  • Casos de uso práticos:
  • Selecionar um objeto visual e extrair seu som com SAM Audio.
  • Usar prompts textuais para isolar ou remover sons (por exemplo, latido de cachorro).
  • Ferramentas como SAM Audio Judge avaliam qualidade de separação sem sinal de referência.
  • Escalar índices e escolher entre precisão, latência e tamanho do índice em buscas multimodais torna‑se crítico para produção; abordagens práticas para isso são discutidas em guias sobre dimensionamento de buscas multimodais (MetaEmbed e opções de escala).
  • Em suma: busca multimodal, separação de som orientada por imagem ou texto e legendas alinhadas sem precisar treinar modelos do zero.

Conclusão

O PE‑AV é uma ponte potente entre áudio, vídeo e texto, trazendo ferramentas práticas — como PEA‑Frame para localizar sons no tempo e SAM Audio para isolar fontes sonoras — que podem acelerar fluxos de trabalho multimídia. Para criadores, pesquisadores e iniciativas de acessibilidade, representa uma caixa de ferramentas aberta e versátil. É solução técnica e promessa: menos quebra‑cabeça, mais resultado. Para quem pensa em integrar embeddings em produção ou até no dispositivo, há caminhos práticos para embeddings móveis e privacidade (EmbeddingGemma no celular), além de estratégias para reduzir custo e latência em aplicações RAG (cache semântico e otimização de RAG).

Quer se aprofundar e acompanhar novidades como esta? Leia mais em https://blog.aidirectory.com.br.

Perguntas Frequentes

  • O que é o PE‑AV e por que ele importa?
    PE‑AV é um codificador que une áudio, vídeo e texto num só espaço de vetores. Foi treinado com ~100 milhões de pares áudio‑vídeo para busca e compreensão multimodal e alimenta aplicações como o SAM Audio.
  • Como é a arquitetura do PE‑AV?
    Consiste em torres separadas (frame, vídeo, áudio, fusão áudio‑vídeo e texto). As saídas passam por um encoder de fusão para criar representações conjuntas, permitindo buscas cruzadas sem cabeças específicas.
  • Como foram criadas as legendas sintéticas para treinamento?
    Primeiro, modelos fracos geram legendas áudio e vídeo; um LLM junta e refina três tipos de legenda por clipe (áudio, visual, audiovisual). Depois, um PE‑AV inicial e um Perception LM melhoram as legendas num segundo estágio — um fluxo que se beneficia de avanços em modelos de contexto e decodificação (Refrag).
  • O que é o PEA‑Frame e como o SAM Audio usa o PE‑AV?
    PEA‑Frame gera embeddings por frame (~40 ms) para localizar sons no tempo. SAM Audio usa embeddings do PE‑AV para isolar sons, guiar separação por clique ou texto e avaliar qualidade com o Judge.
  • Posso usar o PE‑AV no meu projeto? Qual a licença?
    Sim. O PE‑AV foi liberado em Apache 2.0. É livre para pesquisa e produtos, respeitando a licença. Requer dados e GPU para treinar ou rodar em larga escala.

Se você quiser conhecer outros artigos semelhantes a Meta libera PEAV encoder audiovisual que alimenta SAM Audio e buscas multimodais em grande escala, você pode visitar a categoria Notícias e Tendências.

Go up