Lux da OpenAGI deixa você controlar o computador só com linguagem natural
5 meses ago · Updated 5 meses ago

Ouça este artigo
Você vai ver como o Lux, do OpenAGI, transforma tarefas lentas de clicar em um sistema automático que usa um computador por você. Ele não é um modelo de chat com plugin: vê a tela e envia cliques, teclas e rolagem para controlar navegadores, editores e apps. O time liberou OSGym, um motor aberto que roda réplicas completas de sistemas operacionais, e treinou o Lux com pré‑treinamento ativo (Agentic Active Pre‑training). O resultado é um modelo de uso de computador com bom desempenho no benchmark Online Mind2Web, baixa latência e custo por passo, e modos diferentes para escolher entre autonomia, velocidade e controle. Para mais detalhes técnicos e cobertura completa, veja também a publicação original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.
Principais pontos
- Lux controla navegadores e programas lendo a tela e gerando cliques, teclas e scroll.
- Três modos de execução (Actor, Thinker, Tasker) que equilibram rapidez, raciocínio e determinismo.
- Desempenho superior no benchmark Online Mind2Web (83,6%).
- Baixa latência (~1s por passo) e custo por token significativamente menor que concorrentes.
- Treinado agindo em ambientes reais usando o motor aberto OSGym (licença MIT).
OpenAGI lança Lux, modelo que controla desktops reais e lidera Online Mind2Web
A OpenAGI Foundation publicou o modelo Lux, criado para controlar navegadores e aplicações de desktop a partir de instruções em linguagem natural. Segundo os relatórios, Lux alcança 83,6% no benchmark Online Mind2Web, à frente de concorrentes como Google Gemini CUA (69,0), OpenAI Operator (61,3) e Anthropic Claude Sonnet 4 (61,0). Mais informações técnicas e contexto estão disponíveis na cobertura original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.
O que é Lux e como ele opera
- Lux não é um chatbot com extensão de navegador.
- Recebe um objetivo em texto, vê a interface renderizada e gera ações de baixo nível: cliques, teclas e rolagem.
- Atua sobre a interface visual — assim funciona em navegadores, editores, planilhas, clientes de e‑mail e outros apps sem depender de APIs específicas. Veja exemplos práticos de como controlar interfaces gráficas e navegadores de forma local e segura em recursos sobre como controlar o navegador mantendo os dados no seu computador.
- Disponível via OpenAGI SDK e console de API para integração em fluxos de trabalho; para padrões de integração em tempo real, considere abordagens apresentadas em posts sobre integração de agentes na interface e sobre como usar MCP para conectar IA a recursos em tempo real.
Modos de execução
A plataforma oferece três modos, cada um com trade‑offs entre velocidade, autonomia e controle:
- Actor
- Modo rápido (~1 segundo por passo).
- Indicado para tarefas bem definidas: preencher formulários, extrair poucos campos ou puxar relatórios.
- Thinker
- Para metas vagas ou com múltiplas etapas.
- Decompõe instruções em subtarefas e as executa, útil em pesquisas multi‑página, triagem de e‑mails ou navegação em painéis. Para arquiteturas que priorizam planejamento e uso de várias ferramentas, há guias sobre como criar agentes que planejam e usam várias ferramentas.
- Tasker
- Máxima determinismo.
- Você fornece uma lista explícita de passos em Python; Lux executa e tenta novamente até concluir ou ocorrer falha irreversível.
- Permite incorporar gráficos de tarefas e regras de segurança no código. Para exemplos de agentes offline que planejam, recuperam erros e orquestram múltiplas ferramentas, veja materiais sobre criação de agentes offline.
Desempenho, latência e custo
- No benchmark Online Mind2Web, Lux marcou 83,6% de sucesso.
- Concorrentes relatados: Gemini CUA 69,0; OpenAI Operator 61,3; Claude Sonnet 4 61,0.
- Latência reportada: ~1 segundo por passo para Lux versus ~3 segundos por passo em avaliações com OpenAI Operator.
- OpenAGI indica que Lux é aproximadamente 10 vezes mais barato por token que o Operator.
- Para aplicações que executam centenas de passos por sessão, menor latência e custo aumentam a viabilidade operacional. Soluções que priorizam eficiência e custo, como certos modelos abertos, mostram caminhos semelhantes para reduzir latência e preço — por exemplo, projetos que entregam maior velocidade por fração do custo estão documentados em textos sobre o Minimax M2 e modelos otimistas para agentes.
Treinamento: Agentic Active Pre‑training e OSGym
- Lux foi treinado com Agentic Active Pre‑training: em vez de aprender só com texto estático, o modelo aprende agindo em ambientes digitais.
- A otimização privilegia exploração autônoma e refinamento por interação, não apenas previsão de tokens. Para comparações de métodos de treinamento e RL para agentes, consulte análises sobre Agent Lightning e treinamento por reforço.
- Esse treinamento exigiu um motor capaz de rodar muitos ambientes do sistema operativo em paralelo; a OpenAGI liberou esse motor como OSGym (licença MIT).
- OSGym executa réplicas completas de sistemas operacionais, suportando tarefas que atravessam vários aplicativos: planilhas, editores, navegadores e ferramentas de desenvolvimento. Para pipelines que combinam execução de UI com modelos locais, há tutoriais sobre como treinar modelos para operar interfaces gráficas.
- A licença permite uso comercial e pesquisa.
Casos de uso e disponibilidade
Aplicações apontadas pela equipe:
- QA de software (testes end‑to‑end e automação de fluxos). Veja também ferramentas abertas para testar agentes em cenários reais, como a Rogue, para testes de agentes.
- Pesquisas profundas e extração de informações em múltiplas páginas. Artigos sobre agentes de pesquisa profunda mostram como estruturar tarefas extensas.
- Gestão de redes sociais e operações de lojas online.
- Entrada em massa de dados e automação de back‑office. Para pipelines de operações de dados que planejam, executam e verificam resultados, há guias práticos sobre agentes de operações de dados.
A integração é feita via SDK e API do OpenAGI, permitindo automatizar sequências longas de ações na UI com instruções em linguagem natural. Para leitura complementar e lançamento detalhado, consulte: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.
Conclusão
Lux, da OpenAGI, é um modelo prático que transforma cliques e teclas repetitivos em automação confiável — ele vê a tela, age sobre a interface e entrega resultados com baixa latência e custo. O diferencial vem do treinamento agentic e do motor aberto OSGym; por isso o Lux lidera o Online Mind2Web e se destaca em cenários que exigem centenas de passos por sessão. Use Actor para velocidade, Thinker para raciocínio e Tasker quando precisar de determinismo total. Se seu objetivo é escalar automação de UIs com eficiência, o Lux é uma opção madura e integrável via SDK/API.
Para saber mais, leia a cobertura técnica original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/ ou visite Blog AI Directory para conteúdos relacionados sobre agentes, integração e ferramentas.
Perguntas frequentes (resumo)
- O que é o Lux da OpenAGI?
Lux é um modelo que controla o computador por linguagem natural, vendo a tela e executando cliques, teclas e rolagens em apps reais.
- Quais são os modos de execução do Lux?
Actor (~1s/step, rápido), Thinker (divide metas vagas em subtarefas) e Tasker (execução determinística a partir de passos em Python).
- Como ele se saiu no Online Mind2Web?
Alcançou 83,6% de sucesso em mais de 300 tarefas reais, superando Gemini CUA e Operator.
- Qual a latência e o custo comparado a outros agentes?
Cerca de 1 segundo por passo; reportado ~10x menor custo por token que o Operator.
- Como integrar o Lux no meu fluxo de trabalho?
Use o SDK e a API da OpenAGI; indicados para QA, pesquisa multi‑página, gestão de redes, lojas online e entrada em massa. Para padrões de integração e publicação de agentes entre frameworks, consulte práticas sobre publicação e descoberta de agentes com MCP e Coral.
- E sobre segurança e controle de riscos?
É comum combinar agentes com camadas de orquestração e serviços para conter riscos e reduzir sobrecarga — leituras sobre uso de agentes ao lado de serviços para segurança exploram essas abordagens.
Se você quiser conhecer outros artigos semelhantes a Lux da OpenAGI deixa você controlar o computador só com linguagem natural, você pode visitar a categoria Notícias e Tendências.
