Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda
6 meses ago · Updated 6 meses ago

- Ouça este artigo
- Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge
- O que você precisa saber primeiro
- Arquitetura e design técnico
- Como imagens são tratadas
- Parâmetros recomendados para inferência
- Treinamento e dados
- Desempenho nos testes
- Capacidade de linguagem e cobertura linguística
- Por que isso importa para quem usa edge
- Como você pode integrar
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você vai ler sobre o novo VLM da Liquid AI pensado para dispositivos de borda. O LFM2‑VL‑3B combina uma torre de linguagem eficiente com um encoder de visão que preserva proporções, aceita entradas intercaladas de imagem e texto e gera respostas em texto. Há controles para limitar tokens de imagem e ajustar qualidade versus latência; os pesos abertos e um build GGUF permitem execução local. Mais detalhes técnicos e links oficiais podem ser encontrados no anúncio e no artigo referência: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.
- Modelo multimodal pronto para rodar em dispositivos de borda
- Aceita texto e imagens intercaladas com marcador de imagem automático
- Arquitetura: torre de linguagem encoder que preserva proporção conector eficiente
- Controles de tokens de imagem e tiling para latência previsível e ajuste de qualidade
- Pesos abertos e build GGUF para execução local (privacidade e integração facilitadas)
Liquid AI lança LFM2‑VL‑3B: um VLM de 3B parâmetros pensado para edge
O LFM2‑VL‑3B é um modelo multimodal de 3 bilhões de parâmetros para tarefas imagemtexto, disponível via LEAP e Hugging Face sob a LFM Open License v1.0. Foi projetado para melhorar precisão mantendo a latência típica da família LFM2.
O que você precisa saber primeiro
- Processa entradas intercaladas de imagem e texto e gera texto.
- Interface similar ao ChatML: um sentinel substituído por tokens de imagem codificados em tempo de execução.
- Contexto de texto padrão: até 32.768 tokens, suportando conversas longas.
Arquitetura e design técnico
Pilha modular que permite controle e previsibilidade de custo computacional:
- Torre de linguagem: baseada em LFM2‑2.6B com arquitetura híbrida (convolução atenção).
- Torre de visão: SigLIP2 NaFlex (~400M parâmetros), preserva proporção e reduz distorções.
- Conector: MLP de duas camadas com pixel unshuffle para comprimir tokens de imagem antes da fusão.
Esse desenho permite limitar o orçamento de tokens de visão sem retrain. Para quem desenvolve e treina modelos de visão, materiais sobre técnicas modernas de treino de CNN podem ajudar a adaptar pipelines e augmentations (guia sobre torchvision, mixup e CutMix).
Como imagens são tratadas
- Processamento nativo por bloco até 512×512. Imagens maiores são divididas em blocos não sobrepostos.
- Caminho de thumbnail fornece contexto global durante o tiling.
- Exemplos de mapeamento de tokens:
- 256×384 → 96 tokens
- 1000×3000 → 1.020 tokens
- Controles expostos: mínimo/máximo de tokens de imagem e switch de tiling para equilibrar qualidade e velocidade.
Para entender conceitos gerais sobre análise visual que ajudam a escolher estratégias de tiling e preproc, veja um texto introdutório sobre reconhecimento de imagens.
Parâmetros recomendados para inferência
- Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05.
- Visão: minimagetokens 64, maximagetokens 256, image_splitting ativado.
- Integração típica: AutoModelForImageTextToText AutoProcessor com precisão bfloat16.
Se você pretende otimizar latência e uso de memória para deployment em edge, consulte práticas de otimização de modelos transformer, quantização e runtime (guia de otimização com Hugging Face/ONNX).
Treinamento e dados
- Estratégia em etapas: treino conjunto inicial ajustando razão texto/imagem; em seguida fine‑tuning supervisionado focado em compreensão visual.
- Dados: grandes datasets abertos complementados por dados sintéticos internos para tarefas específicas.
Para tarefas documentais e OCR que aparecem no fine‑tuning multimodal, vale conferir trabalhos e ferramentas de OCR recentes (sobre o Dots OCR e como criar um agente OCR multilingue).
Desempenho nos testes
Resultados reportados pela equipe (comparações usando ferramentas como VLMEvalKit):
| Conjunto | Pontuação |
|---|---|
| MM-IFEval | 51,83 |
| RealWorldQA | 71,37 |
| MMBench (dev en) | 79,81 |
| POPE | 89,01 |
Observação: comparações e exclusões de rivais foram mencionadas no relatório.
Capacidade de linguagem e cobertura linguística
- Capacidade próxima ao backbone LFM2‑2.6B.
- Referências citadas: GPQA ~30%, MMLU ~63% — relevantes quando tarefas visuais exigem conhecimento.
- Suporte multilingual: inglês, japonês, francês, espanhol, alemão, italiano, português, árabe, chinês e coreano.
Para contexto sobre disponibilidade de modelos on‑device e opções de modelos compactos, veja também materiais que tratam de modelos para execução local (modelos para computador e celular).
Por que isso importa para quem usa edge
- Consumo de compute e memória projetado para dispositivos pequenos.
- Tokens de imagem compressíveis e limitáveis garantem throughput previsível.
- Encoder SigLIP2 NaFlex preserva proporções para percepção detalhada.
- Build GGUF para execução local: mais privacidade e integração offline.
- Casos de uso: robótica, celulares e ambientes industriais com regras rígidas de privacidade.
Para opções de hardware e runtimes que facilitam IA sempre ligada e com baixo consumo, confira discussões sobre NPUs e plataformas para edge (Coral NPU aberto), seus runtimes nativos (publicação e runtime MCP para Coral) e alternativas da NVIDIA para robótica e IA física (Jetson Thor).
Como você pode integrar
- Modelo disponível para teste via LEAP e repositório no Hugging Face; model card e exemplos ajudam a reproduzir avaliações.
- Recursos práticos: pesos abertos, build GGUF e diretrizes de configuração.
- Para referência técnica e link direto ao anúncio, veja: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/.
Para cenários de busca e recuperação multimodal e para usar embeddings localmente em dispositivos móveis, há materiais práticos sobre indexação e embeddings on‑device (como escalar buscas multimodais) e sobre embeddings móveis (uso de embeddings no celular). Combine essas práticas com otimizações de runtime para obter latência consistente.
Conclusão
O LFM2‑VL‑3B traz um VLM multimodal de 3B parâmetros pensado para edge, com pesos abertos e build GGUF para execução local. É uma opção leve e previsível para processamento próximo aos dados, oferecendo controles finos para tokens de imagem, tiling e trade‑offs entre qualidade e latência. Teste via LEAP/Hugging Face, ajuste min/max image tokens e siga as recomendações de inferência para equilibrar velocidade e precisão. Leia também o anúncio completo e detalhes técnicos em: https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/ e acesse guias práticos em https://blog.aidirectory.com.br.
Para estratégias adicionais que aceleram modelos sem sacrificar muito a precisão, consulte discussões sobre técnicas de cascatas e aceleração de inferência (cascatas especulativas).
Perguntas frequentes
- O que é o LFM2‑VL‑3B?
Um modelo visão‑linguagem de 3 bilhões de parâmetros que aceita entradas intercaladas de imagem e texto. Código aberto no Hugging Face e LEAP sob LFM Open License v1.0.
- Como eu rodo no meu dispositivo de borda?
Use o build GGUF ou LEAP. Carregue com AutoModelForImageTextToText AutoProcessor em bfloat16. Ative tiling (512×512) e ajuste min/max image tokens conforme memória disponível. Para escolha de hardware e runtimes, veja opções de NPUs e plataformas para edge (Coral NPU, Jetson Thor).
- Quais configurações de inferência são recomendadas?
Texto: temperatura 0.1, minp 0.15, repetitionpenalty 1.05. Visão: minimagetokens 64, maximagetokens 256, image_splitting ligado. O processor injeta automaticamente o sentinel . Para reduzir latência e memória, acompanhe práticas de quantização e runtime (guia de otimização).
- Como foi treinado?
Treino em etapas: treino conjunto (ajuste da razão texto/imagem) seguido de fine‑tuning supervisionado. Dados de grandes datasets abertos sintéticos internos.
- Como ele se sai em benchmarks e por que vale para edge?
Pontuações competitivas (MM-IFEval 51.83, RealWorldQA 71.37, MMBench 79.81, POPE 89.01). Projetado para latência previsível, tokens de imagem comprimíveis e encoder que preserva proporção — ideal para mobile, robótica e aplicações industriais.
Se você quiser conhecer outros artigos semelhantes a Liquid AI lança modelo de visão e linguagem que você pode rodar no seu dispositivo de borda, você pode visitar a categoria Notícias e Tendências.
