Meta lança SAM Audio para separar sons de forma fácil com prompts multimodais

4 meses ago · Updated 4 meses ago

meta-lanca-sam-audio-para-separar-sons-de-forma-facil-com-prompts-multimodais

Table

Ouça este artigo
Meta lança SAM Audio, modelo para separação de áudio por prompts
Como o modelo opera
Tipos de prompt disponíveis
Aplicações práticas
Como usar na prática
Resultados relatados
Conclusão
Perguntas Frequentes

Ouça este artigo

Você vai conhecer o novo SAM Audio da Meta. É um modelo guiado por prompts para separação de áudio que isola um som dentro de uma gravação com várias fontes sobrepostas sem precisar treinar um modelo novo para cada som. Aceita texto, sinais visuais e marcações de tempo (span) para indicar o alvo. O sistema retorna result.target (o som isolado) e result.residual (o restante), prontos para manter ou remover na edição. Dá para testar no Segment Anything Playground ou baixar o modelo. Este artigo explica como funciona e o que esperar dos resultados.

Meta lançou o SAM Audio, modelo unificado para separar sons em gravações

Aceita prompts de texto, visual e marcação de tempo para indicar o som alvo

Produz áudio isolado (target) e áudio com o restante do mix (residual) para edição

Permite extrair instrumentos ou remover ruídos diretamente em editores

Disponível para testar no playground e para download e integração

Meta lança SAM Audio, modelo para separação de áudio por prompts

A Meta publicou o SAM Audio, um modelo unificado que separa sons em gravações usando prompts multimodais. Você pode testar no Segment Anything Playground ou baixar o modelo. O sistema entrega duas saídas: result.target (o som isolado) e result.residual (o que sobra), permitindo remover ou extrair sons sem treinar modelos específicos por classe.

Como o modelo opera

Você fornece uma mixagem com várias fontes. O SAM Audio usa encoders separados para cada sinal de condicionamento:

Encoder de áudio para a mixagem;

Encoder de texto para descrições em linguagem natural;

Encoder de span para marcar intervalos de tempo;

Encoder visual para prompts derivados de vídeo e máscaras de objeto.

As saídas desses encoders são alinhadas no tempo e processadas por um transformer de difusão que aplica atenção própria e atenção cruzada ao texto. Um decodificador DACVAE reconstrói as formas de onda e produz os dois canais: target e residual. Segundo a Meta, essa arquitetura permite separar sons específicos em ambientes reais sem modelos por classe. Para entender melhor pesquisas relacionadas ao raciocínio e percepção em áudio, confira trabalhos sobre modelos que melhoram o raciocínio em áudio, que exploram arquiteturas e treinamentos complementares a soluções de separação.

Tipos de prompt disponíveis

Você pode usar um ou combinar vários prompts:

Texto — descreva o som, por exemplo latido de cachorro ou voz cantada.

Visual — clique no objeto ou pessoa no vídeo que gera o som para isolar o áudio correspondente; esse fluxo se aproxima de técnicas usadas para reconstrução e segmentação visual em cenas complexas.

Span (marcação temporal) — indique o intervalo de tempo onde o som alvo aparece.

Também vale notar que o uso de prompts visuais e áudio em tempo real tem sido explorado por projetos que permitem interação por áudio e vídeo em tempo real, o que abre possibilidades para fluxos de edição mais dinâmicos.

Aplicações práticas

Produção musical: isolar instrumentos ou vocais para remix.

Podcasting: remover ruídos de fundo; técnicas de separação e limpeza frequentemente se combinam com práticas de diarização de fala quando há múltiplos locutores.

Cinema e TV: ajustar efeitos sonoros em pós-produção.

Pesquisa científica: analisar componentes sonoros em gravações complexas.

Acessibilidade: melhorar elementos de áudio para pessoas com dificuldades auditivas.

Como usar na prática

Carregue a gravação no Playground ou execute o modelo localmente após o download.

Escolha o(s) prompt(s): texto, visual ou span.

Execute a separação. O sistema retorna result.target e result.residual.

Para remover um som, mantenha apenas residual. Para extrair, use target.

Para integrações de baixa latência ou assistentes de voz que processem áudio em tempo real, vale explorar modelos fim-a-fim que priorizam velocidade e resposta rápida em aplicações interativas, como em pesquisas sobre inference de áudio em centésimos de segundo.

Resultados relatados

A Meta publicou avaliações subjetivas em várias categorias; nem todas as pontuações foram detalhadas publicamente. As avaliações divulgadas incluem:

Categoria	sam-audio-small	sam-audio-base	sam-audio-large
General	3.62	3.28	3.50
Instr (pro)	—	—	4.49

Outras categorias (SFX, Speech, Speaker, Music, Instr (wild)) não tiveram valores públicos divulgados. Relatórios da equipe indicam desempenho de ponta em cenários reais e a vantagem de usar um único modelo multimodal em vez de várias ferramentas específicas. Para comparações e métodos de avaliação de capacidade sonora, consulte o teste aberto que avalia inteligência do som.

Conclusão

O SAM Audio da Meta oferece uma forma prática de isolar e remover sons sem treinar modelos por classe. Com prompts multimodais — texto, visual e span — você recebe dois resultados claros: result.target (som isolado) e result.residual (restante). Rápido, direto e pronto para edição. Para música, podcast, vídeo ou pesquisa, significa menos remendos e mais foco na faixa certa. Teste no Segment Anything Playground ou baixe o modelo para integrar ao seu fluxo: o large traz melhor qualidade para peças complexas; o small é útil para protótipos.

Não é mágica — há limites em cenas muito emboladas — mas é uma ferramenta versátil que reduz trabalho manual. Use como um filtro para destacar o que interessa.

Quer se aprofundar? Experimente, brinque com os prompts e confira mais artigos em https://blog.aidirectory.com.br. Para mais recursos e leituras recomendadas sobre áudio e voz, veja também onde encontrar os principais blogs e sites sobre IA de voz e áudio. Recursos recomendados sobre IA de voz

Perguntas Frequentes

O que é o SAM Audio?
É um modelo da Meta para separar sons em gravações usando prompts multimodais (texto, visual e span). Vem em três tamanhos: small, base e large.

Quais são os três tipos de prompt e como usá-los?
Texto: descreva o som (ex.: guitarra, latido).
Visual: selecione o objeto/pessoa no vídeo.
Span: marque o trecho temporal onde o som aparece. Pode combinar todos.

O que significa "segment" nesse contexto?
Segment é a parte do áudio que você quer isolar — um som específico ou um trecho temporal marcado.

O que são result.target e result.residual?
result.target: o som isolado.
result.residual: todo o resto da mixagem. Use residual para remover o som ou target para extrair.

Onde posso testar ou baixar o SAM Audio?
Teste no Segment Anything Playground da Meta ou baixe os modelos no repositório público. Use small para rapidez e large para melhor qualidade em instrumentos complexos.

Se você quiser conhecer outros artigos semelhantes a Meta lança SAM Audio para separar sons de forma fácil com prompts multimodais, você pode visitar a categoria Notícias e Tendências.