Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda

6 meses ago · Updated 6 meses ago

liquid-ai-lanca-modelo-de-visao-e-linguagem-que-voce-pode-rodar-no-seu-dispositivo-de-borda

Table

Ouça este artigo
Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge
O que você precisa saber primeiro
Arquitetura e design técnico
Como imagens são tratadas
Parâmetros recomendados para inferência
Treinamento e dados
Desempenho nos testes
Capacidade de linguagem e cobertura linguística
Por que isso importa para quem usa edge
Como você pode integrar
Conclusão
Perguntas frequentes

Ouça este artigo

Você vai ler sobre o novo VLM da Liquid AI pensado para dispositivos de borda. O LFM2‑VL‑3B combina uma torre de linguagem eficiente com um encoder de visão que preserva proporções, aceita entradas intercaladas de imagem e texto e gera respostas em texto. Há controles para limitar tokens de imagem e ajustar qualidade versus latência; os pesos abertos e um build GGUF permitem execução local. Mais detalhes técnicos e links oficiais podem ser encontrados no anúncio e no artigo referência: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.

Modelo multimodal pronto para rodar em dispositivos de borda

Aceita texto e imagens intercaladas com marcador de imagem automático

Arquitetura: torre de linguagem encoder que preserva proporção conector eficiente

Controles de tokens de imagem e tiling para latência previsível e ajuste de qualidade

Pesos abertos e build GGUF para execução local (privacidade e integração facilitadas)

Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge

O LFM2‑VL‑3B é um modelo multimodal de 3 bilhões de parâmetros para tarefas imagemtexto, disponível via LEAP e Hugging Face sob a LFM Open License v1.0. Foi projetado para melhorar precisão mantendo a latência típica da família LFM2.

O que você precisa saber primeiro

Processa entradas intercaladas de imagem e texto e gera texto.

Interface similar ao ChatML: um sentinel substituído por tokens de imagem codificados em tempo de execução.

Contexto de texto padrão: até 32.768 tokens, suportando conversas longas.

Arquitetura e design técnico

Pilha modular que permite controle e previsibilidade de custo computacional:

Torre de linguagem: baseada em LFM2‑2.6B com arquitetura híbrida (convolução atenção).

Torre de visão: SigLIP2 NaFlex (~400M parâmetros), preserva proporção e reduz distorções.

Conector: MLP de duas camadas com pixel unshuffle para comprimir tokens de imagem antes da fusão.

Esse desenho permite limitar o orçamento de tokens de visão sem retrain. Para quem desenvolve e treina modelos de visão, materiais sobre técnicas modernas de treino de CNN podem ajudar a adaptar pipelines e augmentations (guia sobre torchvision, mixup e CutMix).

Como imagens são tratadas

Processamento nativo por bloco até 512×512. Imagens maiores são divididas em blocos não sobrepostos.

Caminho de thumbnail fornece contexto global durante o tiling.

Exemplos de mapeamento de tokens:

256×384 → 96 tokens

1000×3000 → 1.020 tokens

Controles expostos: mínimo/máximo de tokens de imagem e switch de tiling para equilibrar qualidade e velocidade.

Para entender conceitos gerais sobre análise visual que ajudam a escolher estratégias de tiling e preproc, veja um texto introdutório sobre reconhecimento de imagens.

Parâmetros recomendados para inferência

Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05.

Visão: minimagetokens 64, maximagetokens 256, image_splitting ativado.

Integração típica: AutoModelForImageTextToText AutoProcessor com precisão bfloat16.

Se você pretende otimizar latência e uso de memória para deployment em edge, consulte práticas de otimização de modelos transformer, quantização e runtime (guia de otimização com Hugging Face/ONNX).

Treinamento e dados

Estratégia em etapas: treino conjunto inicial ajustando razão texto/imagem; em seguida fine‑tuning supervisionado focado em compreensão visual.

Dados: grandes datasets abertos complementados por dados sintéticos internos para tarefas específicas.

Para tarefas documentais e OCR que aparecem no fine‑tuning multimodal, vale conferir trabalhos e ferramentas de OCR recentes (sobre o Dots OCR e como criar um agente OCR multilingue).

Desempenho nos testes

Resultados reportados pela equipe (comparações usando ferramentas como VLMEvalKit):

Conjunto	Pontuação
MM-IFEval	51,83
RealWorldQA	71,37
MMBench (dev en)	79,81
POPE	89,01

Observação: comparações e exclusões de rivais foram mencionadas no relatório.

Capacidade de linguagem e cobertura linguística

Capacidade próxima ao backbone LFM2‑2.6B.

Referências citadas: GPQA ~30%, MMLU ~63% — relevantes quando tarefas visuais exigem conhecimento.

Suporte multilingual: inglês, japonês, francês, espanhol, alemão, italiano, português, árabe, chinês e coreano.

Para contexto sobre disponibilidade de modelos on‑device e opções de modelos compactos, veja também materiais que tratam de modelos para execução local (modelos para computador e celular).

Por que isso importa para quem usa edge

Consumo de compute e memória projetado para dispositivos pequenos.

Tokens de imagem compressíveis e limitáveis garantem throughput previsível.

Encoder SigLIP2 NaFlex preserva proporções para percepção detalhada.

Build GGUF para execução local: mais privacidade e integração offline.

Casos de uso: robótica, celulares e ambientes industriais com regras rígidas de privacidade.

Para opções de hardware e runtimes que facilitam IA sempre ligada e com baixo consumo, confira discussões sobre NPUs e plataformas para edge (Coral NPU aberto), seus runtimes nativos (publicação e runtime MCP para Coral) e alternativas da NVIDIA para robótica e IA física (Jetson Thor).

Como você pode integrar

Modelo disponível para teste via LEAP e repositório no Hugging Face; model card e exemplos ajudam a reproduzir avaliações.

Recursos práticos: pesos abertos, build GGUF e diretrizes de configuração.

Para referência técnica e link direto ao anúncio, veja: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.

Para cenários de busca e recuperação multimodal e para usar embeddings localmente em dispositivos móveis, há materiais práticos sobre indexação e embeddings on‑device (como escalar buscas multimodais) e sobre embeddings móveis (uso de embeddings no celular). Combine essas práticas com otimizações de runtime para obter latência consistente.

Conclusão

O LFM2‑VL‑3B traz um VLM multimodal de 3B parâmetros pensado para edge, com pesos abertos e build GGUF para execução local. É uma opção leve e previsível para processamento próximo aos dados, oferecendo controles finos para tokens de imagem, tiling e trade‑offs entre qualidade e latência. Teste via LEAP/Hugging Face, ajuste min/max image tokens e siga as recomendações de inferência para equilibrar velocidade e precisão. Leia também o anúncio completo e detalhes técnicos em: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/ e acesse guias práticos em https://blog.aidirectory.com.br.

Para estratégias adicionais que aceleram modelos sem sacrificar muito a precisão, consulte discussões sobre técnicas de cascatas e aceleração de inferência (cascatas especulativas).

Perguntas frequentes

O que é o LFM2‑VL‑3B?
Um modelo visão‑linguagem de 3 bilhões de parâmetros que aceita entradas intercaladas de imagem e texto. Código aberto no Hugging Face e LEAP sob LFM Open License v1.0.

Como eu rodo no meu dispositivo de borda?
Use o build GGUF ou LEAP. Carregue com AutoModelForImageTextToText AutoProcessor em bfloat16. Ative tiling (512×512) e ajuste min/max image tokens conforme memória disponível. Para escolha de hardware e runtimes, veja opções de NPUs e plataformas para edge (Coral NPU, Jetson Thor).

Quais configurações de inferência são recomendadas?
Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05. Visão: minimagetokens 64, maximagetokens 256, image_splitting ligado. O processor injeta automaticamente o sentinel . Para reduzir latência e memória, acompanhe práticas de quantização e runtime (guia de otimização).

Como foi treinado?
Treino em etapas: treino conjunto (ajuste da razão texto/imagem) seguido de fine‑tuning supervisionado. Dados de grandes datasets abertos sintéticos internos.

Como ele se sai em benchmarks e por que vale para edge?
Pontuações competitivas (MM-IFEval 51.83, RealWorldQA 71.37, MMBench 79.81, POPE 89.01). Projetado para latência previsível, tokens de imagem comprimíveis e encoder que preserva proporção — ideal para mobile, robótica e aplicações industriais.

Se você quiser conhecer outros artigos semelhantes a Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda, você pode visitar a categoria Notícias e Tendências.