Notícias e Tendências

Você pode treinar um modelo de código aberto para operar interfaces gráficas com Smol2Operator do Hugging Face

Descubra como treinar um modelo de código aberto para controlar interfaces gráficas com Smol2Operator do Hugging Face e ver o que ele pode fazer.

voce-pode-treinar-um-modelo-de-codigo-aberto-para-operar-interfaces-graficas-com-smoloperator-do-hu

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Ouça este artigo


🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Aqui você vai descobrir o que a Hugging Face lançou com o Smol Operator: uma pipeline aberta que transforma um modelo compacto de visão e linguagem sem experiência com interfaces em um agente que opera GUIs e usa ferramentas. A postagem mostra a receita reproduzível, utilitários de dados, scripts de treino e o modelo final. A grande novidade é a unificação das ações e as coordenadas normalizadas, que tornam os dados de GUI compatíveis e o treino mais estável mesmo com imagens redimensionadas. O texto explica o fluxo de treino, os dados usados, limites e próximos passos. Se você quer montar seu próprio agente de interface com menos dor de cabeça, este artigo é para você. Leia também o post original em https://www.marktechpost.com/2025/09/26/hugging-face-releases-smol2operator-a-fully-open-source-pipeline-to-train-a-2-2b-vlm-into-an-agentic-gui-coder/.

  • Pipeline aberta que transforma um modelo de visão e linguagem sem experiência em agente que controla interfaces
  • Unifica esquemas de ação e normaliza coordenadas para combinar dados de GUI de fontes diferentes
  • Fornece scripts, utilitários, conjuntos de dados transformados e um checkpoint pronto para reprodução
  • Método funciona em modelos de baixa capacidade e mostra aprendizado estável em avaliações
  • Foco em transparência e portabilidade, com demo e integração em ambientes de avaliação

Hugging Face libera Smol2Operator: receita aberta para transformar um VLM de 2.2B em agente que opera GUIs

Você agora tem acesso a uma pipeline completa e reprodutível criada pela Hugging Face. Ela transforma um modelo visão-linguagem pequeno em um agente que controla interfaces gráficas e usa ferramentas. O pacote inclui código, dados processados e um checkpoint do modelo 2.2B. A equipe disponibilizou tudo para permitir que você recrie o processo, em vez de apenas ver um resultado de benchmark. Mais detalhes e guias práticos estão no post original: https://www.marktechpost.com/2025/09/26/hugging-face-releases-smol2operator-a-fully-open-source-pipeline-to-train-a-2-2b-vlm-into-an-agentic-gui-coder/.

O que você recebe com o lançamento

  • Código de pré-processamento e treinamento
  • Datasets GUI transformados e compatíveis (formato AGUVIS)
  • Checkpoint do modelo final (SmolVLM2-2.2B convertido)
  • Notebooks e scripts para reproduzir os passos
  • Um demo Space para testar o modelo
  • Integração com smolagents e ScreenEnv para avaliação e integração em interfaces via AG UI

Por que criar o Smol2Operator

Ao treinar agentes GUI você enfrenta duas dificuldades comuns:

  • esquemas de ação heterogêneos entre datasets;
  • coordenadas de tela que não são portáveis entre imagens de tamanhos distintos.

Smol2Operator resolve isso ao unificar as ações e normalizar as coordenadas, permitindo combinar dados de fontes diversas e reduzindo trabalho de engenharia. Assim, modelos menores treinam com mais estabilidade mesmo ao usar imagens redimensionadas — um ponto especialmente útil quando você quer experimentar rapidamente com pipelines sem código ou com ferramentas de baixo atrito, como as descritas em plataformas no-code e assistentes prontos.

Como funciona a solução

  • O pipeline usa um VLM sem experiência com GUIs (SmolVLM2-2.2B-Instruct).
  • Aplica duas fases de SFT (Supervised Fine-Tuning) para ensinar ações e interações.
  • Converte ações heterogêneas em uma API unificada.
  • Normaliza coordenadas da tela para torná-las independentes do tamanho da imagem (0–1).
  • Integra os dados processados ao ambiente de avaliação (ScreenEnv) para validar comportamentos, podendo ser acompanhado por sistemas de avaliação mais ricos e visualmente detalhados, como o novo sistema de avaliação de agentes.

Pilha de treinamento e fluxo de dados

Etapas reproduzíveis no repositório:

  • Extração e limpeza de logs de interação GUI.
  • Transformação para o formato AGUVIS unificado.
  • Normalização de coordenadas (0–1) para cada ação de toque/clique.
  • Scripts de treino SFT em duas fases.
  • Avaliação em ScreenSpot-v2 e integração com smolagents.

Componente | Função

    • — | —
      AGUVIS transformado | Dados GUI padronizados
      API unificada de ações | Torna datasets interoperáveis
      Normalização de coordenadas | Mantém comportamento ao redimensionar imagens
      Checkpoints & Notebooks | Reprodutibilidade do treino
      ScreenEnv / smolagents | Avaliação e runtime de agentes

Para escalar e otimizar treinamento e inferência em ambientes com orçamento limitado, considere técnicas e ferramentas para redução de memória e quantização, como as abordadas em guias sobre escalabilidade com DeepSpeed e otimizações ponta a ponta com Hugging Face Optimum e ONNX.

Resultados e portabilidade

  • Relatórios da equipe mostram melhoria clara no benchmark ScreenSpot-v2 conforme o modelo aprende a operar GUIs.
  • A mesma abordagem funcionou em versão menor (~460M), indicando que o método escala para diferentes capacidades — um efeito semelhante ao observado ao adaptar arquiteturas abertas como as famílias Llama, discutidas em Llama 2 e Llama 3.
  • O foco do projeto é transparência e portabilidade, facilitando uso prático mais do que apenas bater recordes.

Limites e pontos a considerar

  • O pipeline exige coleta e preparação de dados GUI relevantes para sua aplicação.
  • Modelos menores têm limitações em tarefas complexas.
  • A precisão em cenários reais depende da diversidade das GUIs nos seus dados.
  • Para testes e simulações de comportamento de agentes antes do deploy, vale considerar motores de simulação e testbeds, como o Snowglobe, que ajudam a validar interações e segurança.

Próximos passos sugeridos

  • Teste o pipeline com seus próprios dados GUI.
  • Verifique estabilidade ao redimensionar imagens e ao misturar fontes de dados.
  • Ajuste a segunda fase de SFT para tarefas específicas da sua interface.
  • Integre o agente em seu ambiente de teste via smolagents e ScreenEnv e, se precisar incorporar agentes em tempo real na sua aplicação, avalie a integração com soluções de interface como AG UI.
  • Se o objetivo for agentes que coordenam em equipe ou entendem contexto complexo, inspire-se em abordagens de agentes coordenados, por exemplo em agentes MCP.

Conclusão

Se você quer colocar um agente para operar GUIs sem reinventar a roda, o Smol2Operator é uma solução prática que reduz bastante a dor. Ele entrega uma pipeline aberta com código, datasets AGUVIS prontos, checkpoints e notebooks — tudo para você reproduzir e adaptar. A unificação das ações e a normalização de coordenadas tornam dados heterogêneos compatíveis e o treino mais estável, mesmo em modelos compactos. Em resumo: menos engenharia chata e mais resultados práticos.

Não é mágica: você ainda precisará de dados relevantes e de ajustar a segunda fase de SFT para casos complexos. Mas, na prática, é um atalho sólido para testar, iterar e levar agentes para a produção com transparência e portabilidade. Para detalhes completos do lançamento e instruções passo a passo veja: https://www.marktechpost.com/2025/09/26/hugging-face-releases-smol2operator-a-fully-open-source-pipeline-to-train-a-2-2b-vlm-into-an-agentic-gui-coder/.

Perguntas frequentes

  • O que é o Smol2Operator do Hugging Face?
    É uma receita aberta que converte um VLM pequeno em agente que controla GUIs, incluindo dados, scripts, checkpoints e demo.
  • Posso treinar um modelo aberto (2.2B ou ~460M) para operar interfaces gráficas?
    Sim. O processo é SFT em duas fases; Hugging Face mostra resultados com 2.2B e com ~460M, provando portabilidade.
  • Como o Smol2Operator lida com ações e coordenadas?
    Unifica esquemas de ação e usa coordenadas normalizadas (0–1) para tornar dados interoperáveis e estáveis ao redimensionar imagens.
  • Que dados e pilha de treinamento preciso usar?
    Há datasets transformados (AGUVIS) prontos e ferramentas de pré-processamento. Use o pipeline HF smolagents e avalie com ScreenEnv/ScreenSpot-v2. Para escalar treinamentos e reduzir consumo de memória, confira guias práticos como o de DeepSpeed e de otimização ponta a ponta.
  • Quais são os limites e próximos passos?
    Limites: diversidade de GUIs e robustez em cenários reais. Próximos passos: ampliar dados, polir ações, integrar e escalar.

Leitura recomendada e referência completa: https://www.marktechpost.com/2025/09/26/hugging-face-releases-smol2operator-a-fully-open-source-pipeline-to-train-a-2-2b-vlm-into-an-agentic-gui-coder/. Para explorar tópicos relacionados, veja também recursos sobre avaliação de agentes, integração em interfaces e ferramentas de simulação citadas acima.

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Compartilhe:

Fernando Vale

Fernando Vale é empreendedor digital e especialista em automação com inteligência artificial. Criador do AI Directory, dedica-se a organizar e divulgar as melhores ferramentas de IA, ajudando profissionais e empresas a ganharem produtividade, escala e vantagem competitiva no mercado digital.

Site do Autor