Lux da OpenAGI deixa você controlar o computador só com linguagem natural

5 meses ago · Updated 5 meses ago

lux-da-openagi-deixa-voce-controlar-o-computador-so-com-linguagem-natural
Table
  1. Ouça este artigo
  2. OpenAGI lança Lux, modelo que controla desktops reais e lidera Online Mind2Web
  3. O que é Lux e como ele opera
  4. Modos de execução
  5. Desempenho, latência e custo
  6. Treinamento: Agentic Active Pre‑training e OSGym
  7. Casos de uso e disponibilidade
  8. Conclusão
  9. Perguntas frequentes (resumo)

Ouça este artigo


Você vai ver como o Lux, do OpenAGI, transforma tarefas lentas de clicar em um sistema automático que usa um computador por você. Ele não é um modelo de chat com plugin: vê a tela e envia cliques, teclas e rolagem para controlar navegadores, editores e apps. O time liberou OSGym, um motor aberto que roda réplicas completas de sistemas operacionais, e treinou o Lux com pré‑treinamento ativo (Agentic Active Pre‑training). O resultado é um modelo de uso de computador com bom desempenho no benchmark Online Mind2Web, baixa latência e custo por passo, e modos diferentes para escolher entre autonomia, velocidade e controle. Para mais detalhes técnicos e cobertura completa, veja também a publicação original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

Principais pontos

  • Lux controla navegadores e programas lendo a tela e gerando cliques, teclas e scroll.
  • Três modos de execução (Actor, Thinker, Tasker) que equilibram rapidez, raciocínio e determinismo.
  • Desempenho superior no benchmark Online Mind2Web (83,6%).
  • Baixa latência (~1s por passo) e custo por token significativamente menor que concorrentes.
  • Treinado agindo em ambientes reais usando o motor aberto OSGym (licença MIT).

OpenAGI lança Lux, modelo que controla desktops reais e lidera Online Mind2Web

A OpenAGI Foundation publicou o modelo Lux, criado para controlar navegadores e aplicações de desktop a partir de instruções em linguagem natural. Segundo os relatórios, Lux alcança 83,6% no benchmark Online Mind2Web, à frente de concorrentes como Google Gemini CUA (69,0), OpenAI Operator (61,3) e Anthropic Claude Sonnet 4 (61,0). Mais informações técnicas e contexto estão disponíveis na cobertura original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

O que é Lux e como ele opera

  • Lux não é um chatbot com extensão de navegador.
  • Recebe um objetivo em texto, vê a interface renderizada e gera ações de baixo nível: cliques, teclas e rolagem.
  • Atua sobre a interface visual — assim funciona em navegadores, editores, planilhas, clientes de e‑mail e outros apps sem depender de APIs específicas. Veja exemplos práticos de como controlar interfaces gráficas e navegadores de forma local e segura em recursos sobre como controlar o navegador mantendo os dados no seu computador.

Modos de execução

A plataforma oferece três modos, cada um com trade‑offs entre velocidade, autonomia e controle:

  • Actor
  • Modo rápido (~1 segundo por passo).
  • Indicado para tarefas bem definidas: preencher formulários, extrair poucos campos ou puxar relatórios.
  • Thinker
  • Para metas vagas ou com múltiplas etapas.
  • Decompõe instruções em subtarefas e as executa, útil em pesquisas multi‑página, triagem de e‑mails ou navegação em painéis. Para arquiteturas que priorizam planejamento e uso de várias ferramentas, há guias sobre como criar agentes que planejam e usam várias ferramentas.
  • Tasker
  • Máxima determinismo.
  • Você fornece uma lista explícita de passos em Python; Lux executa e tenta novamente até concluir ou ocorrer falha irreversível.
  • Permite incorporar gráficos de tarefas e regras de segurança no código. Para exemplos de agentes offline que planejam, recuperam erros e orquestram múltiplas ferramentas, veja materiais sobre criação de agentes offline.

Desempenho, latência e custo

  • No benchmark Online Mind2Web, Lux marcou 83,6% de sucesso.
  • Concorrentes relatados: Gemini CUA 69,0; OpenAI Operator 61,3; Claude Sonnet 4 61,0.
  • Latência reportada: ~1 segundo por passo para Lux versus ~3 segundos por passo em avaliações com OpenAI Operator.
  • OpenAGI indica que Lux é aproximadamente 10 vezes mais barato por token que o Operator.
  • Para aplicações que executam centenas de passos por sessão, menor latência e custo aumentam a viabilidade operacional. Soluções que priorizam eficiência e custo, como certos modelos abertos, mostram caminhos semelhantes para reduzir latência e preço — por exemplo, projetos que entregam maior velocidade por fração do custo estão documentados em textos sobre o Minimax M2 e modelos otimistas para agentes.

Treinamento: Agentic Active Pre‑training e OSGym

  • Lux foi treinado com Agentic Active Pre‑training: em vez de aprender só com texto estático, o modelo aprende agindo em ambientes digitais.
  • A otimização privilegia exploração autônoma e refinamento por interação, não apenas previsão de tokens. Para comparações de métodos de treinamento e RL para agentes, consulte análises sobre Agent Lightning e treinamento por reforço.
  • Esse treinamento exigiu um motor capaz de rodar muitos ambientes do sistema operativo em paralelo; a OpenAGI liberou esse motor como OSGym (licença MIT).
  • OSGym executa réplicas completas de sistemas operacionais, suportando tarefas que atravessam vários aplicativos: planilhas, editores, navegadores e ferramentas de desenvolvimento. Para pipelines que combinam execução de UI com modelos locais, há tutoriais sobre como treinar modelos para operar interfaces gráficas.
  • A licença permite uso comercial e pesquisa.

Casos de uso e disponibilidade

Aplicações apontadas pela equipe:

  • QA de software (testes end‑to‑end e automação de fluxos). Veja também ferramentas abertas para testar agentes em cenários reais, como a Rogue, para testes de agentes.
  • Pesquisas profundas e extração de informações em múltiplas páginas. Artigos sobre agentes de pesquisa profunda mostram como estruturar tarefas extensas.
  • Gestão de redes sociais e operações de lojas online.
  • Entrada em massa de dados e automação de back‑office. Para pipelines de operações de dados que planejam, executam e verificam resultados, há guias práticos sobre agentes de operações de dados.

A integração é feita via SDK e API do OpenAGI, permitindo automatizar sequências longas de ações na UI com instruções em linguagem natural. Para leitura complementar e lançamento detalhado, consulte: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

Conclusão

Lux, da OpenAGI, é um modelo prático que transforma cliques e teclas repetitivos em automação confiável — ele vê a tela, age sobre a interface e entrega resultados com baixa latência e custo. O diferencial vem do treinamento agentic e do motor aberto OSGym; por isso o Lux lidera o Online Mind2Web e se destaca em cenários que exigem centenas de passos por sessão. Use Actor para velocidade, Thinker para raciocínio e Tasker quando precisar de determinismo total. Se seu objetivo é escalar automação de UIs com eficiência, o Lux é uma opção madura e integrável via SDK/API.

Para saber mais, leia a cobertura técnica original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/ ou visite Blog AI Directory para conteúdos relacionados sobre agentes, integração e ferramentas.

Perguntas frequentes (resumo)

  • O que é o Lux da OpenAGI?
    Lux é um modelo que controla o computador por linguagem natural, vendo a tela e executando cliques, teclas e rolagens em apps reais.
  • Quais são os modos de execução do Lux?
    Actor (~1s/step, rápido), Thinker (divide metas vagas em subtarefas) e Tasker (execução determinística a partir de passos em Python).
  • Como ele se saiu no Online Mind2Web?
    Alcançou 83,6% de sucesso em mais de 300 tarefas reais, superando Gemini CUA e Operator.
  • Qual a latência e o custo comparado a outros agentes?
    Cerca de 1 segundo por passo; reportado ~10x menor custo por token que o Operator.
  • Como integrar o Lux no meu fluxo de trabalho?
    Use o SDK e a API da OpenAGI; indicados para QA, pesquisa multi‑página, gestão de redes, lojas online e entrada em massa. Para padrões de integração e publicação de agentes entre frameworks, consulte práticas sobre publicação e descoberta de agentes com MCP e Coral.

Se você quiser conhecer outros artigos semelhantes a Lux da OpenAGI deixa você controlar o computador só com linguagem natural, você pode visitar a categoria Notícias e Tendências.

Go up