Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda

6 meses ago · Updated 6 meses ago

liquid-ai-lanca-modelo-de-visao-e-linguagem-que-voce-pode-rodar-no-seu-dispositivo-de-borda
Table
  1. Ouça este artigo
  2. Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge
  3. O que você precisa saber primeiro
  4. Arquitetura e design técnico
  5. Como imagens são tratadas
  6. Parâmetros recomendados para inferência
  7. Treinamento e dados
  8. Desempenho nos testes
  9. Capacidade de linguagem e cobertura linguística
  10. Por que isso importa para quem usa edge
  11. Como você pode integrar
  12. Conclusão
  13. Perguntas frequentes

Ouça este artigo


Você vai ler sobre o novo VLM da Liquid AI pensado para dispositivos de borda. O LFM2‑VL‑3B combina uma torre de linguagem eficiente com um encoder de visão que preserva proporções, aceita entradas intercaladas de imagem e texto e gera respostas em texto. Há controles para limitar tokens de imagem e ajustar qualidade versus latência; os pesos abertos e um build GGUF permitem execução local. Mais detalhes técnicos e links oficiais podem ser encontrados no anúncio e no artigo referência: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.

  • Modelo multimodal pronto para rodar em dispositivos de borda
  • Aceita texto e imagens intercaladas com marcador de imagem automático
  • Arquitetura: torre de linguagem encoder que preserva proporção conector eficiente
  • Controles de tokens de imagem e tiling para latência previsível e ajuste de qualidade
  • Pesos abertos e build GGUF para execução local (privacidade e integração facilitadas)

Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge

O LFM2‑VL‑3B é um modelo multimodal de 3 bilhões de parâmetros para tarefas imagemtexto, disponível via LEAP e Hugging Face sob a LFM Open License v1.0. Foi projetado para melhorar precisão mantendo a latência típica da família LFM2.

O que você precisa saber primeiro

  • Processa entradas intercaladas de imagem e texto e gera texto.
  • Interface similar ao ChatML: um sentinel substituído por tokens de imagem codificados em tempo de execução.
  • Contexto de texto padrão: até 32.768 tokens, suportando conversas longas.

Arquitetura e design técnico

Pilha modular que permite controle e previsibilidade de custo computacional:

  • Torre de linguagem: baseada em LFM2‑2.6B com arquitetura híbrida (convolução atenção).
  • Torre de visão: SigLIP2 NaFlex (~400M parâmetros), preserva proporção e reduz distorções.
  • Conector: MLP de duas camadas com pixel unshuffle para comprimir tokens de imagem antes da fusão.

Esse desenho permite limitar o orçamento de tokens de visão sem retrain. Para quem desenvolve e treina modelos de visão, materiais sobre técnicas modernas de treino de CNN podem ajudar a adaptar pipelines e augmentations (guia sobre torchvision, mixup e CutMix).

Como imagens são tratadas

  • Processamento nativo por bloco até 512×512. Imagens maiores são divididas em blocos não sobrepostos.
  • Caminho de thumbnail fornece contexto global durante o tiling.
  • Exemplos de mapeamento de tokens:
  • 256×384 → 96 tokens
  • 1000×3000 → 1.020 tokens
  • Controles expostos: mínimo/máximo de tokens de imagem e switch de tiling para equilibrar qualidade e velocidade.

Para entender conceitos gerais sobre análise visual que ajudam a escolher estratégias de tiling e preproc, veja um texto introdutório sobre reconhecimento de imagens.

Parâmetros recomendados para inferência

  • Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05.
  • Visão: minimagetokens 64, maximagetokens 256, image_splitting ativado.
  • Integração típica: AutoModelForImageTextToText AutoProcessor com precisão bfloat16.

Se você pretende otimizar latência e uso de memória para deployment em edge, consulte práticas de otimização de modelos transformer, quantização e runtime (guia de otimização com Hugging Face/ONNX).

Treinamento e dados

  • Estratégia em etapas: treino conjunto inicial ajustando razão texto/imagem; em seguida fine‑tuning supervisionado focado em compreensão visual.
  • Dados: grandes datasets abertos complementados por dados sintéticos internos para tarefas específicas.

Para tarefas documentais e OCR que aparecem no fine‑tuning multimodal, vale conferir trabalhos e ferramentas de OCR recentes (sobre o Dots OCR e como criar um agente OCR multilingue).

Desempenho nos testes

Resultados reportados pela equipe (comparações usando ferramentas como VLMEvalKit):

Conjunto Pontuação
MM-IFEval 51,83
RealWorldQA 71,37
MMBench (dev en) 79,81
POPE 89,01

Observação: comparações e exclusões de rivais foram mencionadas no relatório.

Capacidade de linguagem e cobertura linguística

  • Capacidade próxima ao backbone LFM2‑2.6B.
  • Referências citadas: GPQA ~30%, MMLU ~63% — relevantes quando tarefas visuais exigem conhecimento.
  • Suporte multilingual: inglês, japonês, francês, espanhol, alemão, italiano, português, árabe, chinês e coreano.

Para contexto sobre disponibilidade de modelos on‑device e opções de modelos compactos, veja também materiais que tratam de modelos para execução local (modelos para computador e celular).

Por que isso importa para quem usa edge

  • Consumo de compute e memória projetado para dispositivos pequenos.
  • Tokens de imagem compressíveis e limitáveis garantem throughput previsível.
  • Encoder SigLIP2 NaFlex preserva proporções para percepção detalhada.
  • Build GGUF para execução local: mais privacidade e integração offline.
  • Casos de uso: robótica, celulares e ambientes industriais com regras rígidas de privacidade.

Para opções de hardware e runtimes que facilitam IA sempre ligada e com baixo consumo, confira discussões sobre NPUs e plataformas para edge (Coral NPU aberto), seus runtimes nativos (publicação e runtime MCP para Coral) e alternativas da NVIDIA para robótica e IA física (Jetson Thor).

Como você pode integrar

  • Modelo disponível para teste via LEAP e repositório no Hugging Face; model card e exemplos ajudam a reproduzir avaliações.
  • Recursos práticos: pesos abertos, build GGUF e diretrizes de configuração.
  • Para referência técnica e link direto ao anúncio, veja: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.

Para cenários de busca e recuperação multimodal e para usar embeddings localmente em dispositivos móveis, há materiais práticos sobre indexação e embeddings on‑device (como escalar buscas multimodais) e sobre embeddings móveis (uso de embeddings no celular). Combine essas práticas com otimizações de runtime para obter latência consistente.

Conclusão

O LFM2‑VL‑3B traz um VLM multimodal de 3B parâmetros pensado para edge, com pesos abertos e build GGUF para execução local. É uma opção leve e previsível para processamento próximo aos dados, oferecendo controles finos para tokens de imagem, tiling e trade‑offs entre qualidade e latência. Teste via LEAP/Hugging Face, ajuste min/max image tokens e siga as recomendações de inferência para equilibrar velocidade e precisão. Leia também o anúncio completo e detalhes técnicos em: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/ e acesse guias práticos em https://blog.aidirectory.com.br.

Para estratégias adicionais que aceleram modelos sem sacrificar muito a precisão, consulte discussões sobre técnicas de cascatas e aceleração de inferência (cascatas especulativas).

Perguntas frequentes

  • O que é o LFM2‑VL‑3B?
    Um modelo visão‑linguagem de 3 bilhões de parâmetros que aceita entradas intercaladas de imagem e texto. Código aberto no Hugging Face e LEAP sob LFM Open License v1.0.
  • Como eu rodo no meu dispositivo de borda?
    Use o build GGUF ou LEAP. Carregue com AutoModelForImageTextToText AutoProcessor em bfloat16. Ative tiling (512×512) e ajuste min/max image tokens conforme memória disponível. Para escolha de hardware e runtimes, veja opções de NPUs e plataformas para edge (Coral NPU, Jetson Thor).
  • Quais configurações de inferência são recomendadas?
    Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05. Visão: minimagetokens 64, maximagetokens 256, image_splitting ligado. O processor injeta automaticamente o sentinel . Para reduzir latência e memória, acompanhe práticas de quantização e runtime (guia de otimização).
  • Como foi treinado?
    Treino em etapas: treino conjunto (ajuste da razão texto/imagem) seguido de fine‑tuning supervisionado. Dados de grandes datasets abertos sintéticos internos.
  • Como ele se sai em benchmarks e por que vale para edge?
    Pontuações competitivas (MM-IFEval 51.83, RealWorldQA 71.37, MMBench 79.81, POPE 89.01). Projetado para latência previsível, tokens de imagem comprimíveis e encoder que preserva proporção — ideal para mobile, robótica e aplicações industriais.

Se você quiser conhecer outros artigos semelhantes a Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda, você pode visitar a categoria Notícias e Tendências.

Go up