Lux da OpenAGI deixa você controlar o computador só com linguagem natural

5 meses ago · Updated 5 meses ago

lux-da-openagi-deixa-voce-controlar-o-computador-so-com-linguagem-natural

Table

Ouça este artigo
OpenAGI lança Lux, modelo que controla desktops reais e lidera Online Mind2Web
O que é Lux e como ele opera
Modos de execução
Desempenho, latência e custo
Treinamento: Agentic Active Pre‑training e OSGym
Casos de uso e disponibilidade
Conclusão
Perguntas frequentes (resumo)

Ouça este artigo

Você vai ver como o Lux, do OpenAGI, transforma tarefas lentas de clicar em um sistema automático que usa um computador por você. Ele não é um modelo de chat com plugin: vê a tela e envia cliques, teclas e rolagem para controlar navegadores, editores e apps. O time liberou OSGym, um motor aberto que roda réplicas completas de sistemas operacionais, e treinou o Lux com pré‑treinamento ativo (Agentic Active Pre‑training). O resultado é um modelo de uso de computador com bom desempenho no benchmark Online Mind2Web, baixa latência e custo por passo, e modos diferentes para escolher entre autonomia, velocidade e controle. Para mais detalhes técnicos e cobertura completa, veja também a publicação original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

Principais pontos

Lux controla navegadores e programas lendo a tela e gerando cliques, teclas e scroll.

Três modos de execução (Actor, Thinker, Tasker) que equilibram rapidez, raciocínio e determinismo.

Desempenho superior no benchmark Online Mind2Web (83,6%).

Baixa latência (~1s por passo) e custo por token significativamente menor que concorrentes.

Treinado agindo em ambientes reais usando o motor aberto OSGym (licença MIT).

OpenAGI lança Lux, modelo que controla desktops reais e lidera Online Mind2Web

A OpenAGI Foundation publicou o modelo Lux, criado para controlar navegadores e aplicações de desktop a partir de instruções em linguagem natural. Segundo os relatórios, Lux alcança 83,6% no benchmark Online Mind2Web, à frente de concorrentes como Google Gemini CUA (69,0), OpenAI Operator (61,3) e Anthropic Claude Sonnet 4 (61,0). Mais informações técnicas e contexto estão disponíveis na cobertura original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

O que é Lux e como ele opera

Lux não é um chatbot com extensão de navegador.

Recebe um objetivo em texto, vê a interface renderizada e gera ações de baixo nível: cliques, teclas e rolagem.

Atua sobre a interface visual — assim funciona em navegadores, editores, planilhas, clientes de e‑mail e outros apps sem depender de APIs específicas. Veja exemplos práticos de como controlar interfaces gráficas e navegadores de forma local e segura em recursos sobre como controlar o navegador mantendo os dados no seu computador.

Disponível via OpenAGI SDK e console de API para integração em fluxos de trabalho; para padrões de integração em tempo real, considere abordagens apresentadas em posts sobre integração de agentes na interface e sobre como usar MCP para conectar IA a recursos em tempo real.

Modos de execução

A plataforma oferece três modos, cada um com trade‑offs entre velocidade, autonomia e controle:

Actor

Modo rápido (~1 segundo por passo).

Indicado para tarefas bem definidas: preencher formulários, extrair poucos campos ou puxar relatórios.

Thinker

Para metas vagas ou com múltiplas etapas.

Decompõe instruções em subtarefas e as executa, útil em pesquisas multi‑página, triagem de e‑mails ou navegação em painéis. Para arquiteturas que priorizam planejamento e uso de várias ferramentas, há guias sobre como criar agentes que planejam e usam várias ferramentas.

Tasker

Máxima determinismo.

Você fornece uma lista explícita de passos em Python; Lux executa e tenta novamente até concluir ou ocorrer falha irreversível.

Permite incorporar gráficos de tarefas e regras de segurança no código. Para exemplos de agentes offline que planejam, recuperam erros e orquestram múltiplas ferramentas, veja materiais sobre criação de agentes offline.

Desempenho, latência e custo

No benchmark Online Mind2Web, Lux marcou 83,6% de sucesso.

Concorrentes relatados: Gemini CUA 69,0; OpenAI Operator 61,3; Claude Sonnet 4 61,0.

Latência reportada: ~1 segundo por passo para Lux versus ~3 segundos por passo em avaliações com OpenAI Operator.

OpenAGI indica que Lux é aproximadamente 10 vezes mais barato por token que o Operator.

Para aplicações que executam centenas de passos por sessão, menor latência e custo aumentam a viabilidade operacional. Soluções que priorizam eficiência e custo, como certos modelos abertos, mostram caminhos semelhantes para reduzir latência e preço — por exemplo, projetos que entregam maior velocidade por fração do custo estão documentados em textos sobre o Minimax M2 e modelos otimistas para agentes.

Treinamento: Agentic Active Pre‑training e OSGym

Lux foi treinado com Agentic Active Pre‑training: em vez de aprender só com texto estático, o modelo aprende agindo em ambientes digitais.

A otimização privilegia exploração autônoma e refinamento por interação, não apenas previsão de tokens. Para comparações de métodos de treinamento e RL para agentes, consulte análises sobre Agent Lightning e treinamento por reforço.

Esse treinamento exigiu um motor capaz de rodar muitos ambientes do sistema operativo em paralelo; a OpenAGI liberou esse motor como OSGym (licença MIT).

OSGym executa réplicas completas de sistemas operacionais, suportando tarefas que atravessam vários aplicativos: planilhas, editores, navegadores e ferramentas de desenvolvimento. Para pipelines que combinam execução de UI com modelos locais, há tutoriais sobre como treinar modelos para operar interfaces gráficas.

A licença permite uso comercial e pesquisa.

Casos de uso e disponibilidade

Aplicações apontadas pela equipe:

QA de software (testes end‑to‑end e automação de fluxos). Veja também ferramentas abertas para testar agentes em cenários reais, como a Rogue, para testes de agentes.

Pesquisas profundas e extração de informações em múltiplas páginas. Artigos sobre agentes de pesquisa profunda mostram como estruturar tarefas extensas.

Gestão de redes sociais e operações de lojas online.

Entrada em massa de dados e automação de back‑office. Para pipelines de operações de dados que planejam, executam e verificam resultados, há guias práticos sobre agentes de operações de dados.

A integração é feita via SDK e API do OpenAGI, permitindo automatizar sequências longas de ações na UI com instruções em linguagem natural. Para leitura complementar e lançamento detalhado, consulte: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/.

Conclusão

Lux, da OpenAGI, é um modelo prático que transforma cliques e teclas repetitivos em automação confiável — ele vê a tela, age sobre a interface e entrega resultados com baixa latência e custo. O diferencial vem do treinamento agentic e do motor aberto OSGym; por isso o Lux lidera o Online Mind2Web e se destaca em cenários que exigem centenas de passos por sessão. Use Actor para velocidade, Thinker para raciocínio e Tasker quando precisar de determinismo total. Se seu objetivo é escalar automação de UIs com eficiência, o Lux é uma opção madura e integrável via SDK/API.

Para saber mais, leia a cobertura técnica original: https://www.marktechpost.com/2025/12/05/openagi-foundation-launches-lux-a-foundation-computer-use-model-that-tops-online-mind2web-with-osgym-at-scale/ ou visite Blog AI Directory para conteúdos relacionados sobre agentes, integração e ferramentas.

Perguntas frequentes (resumo)

O que é o Lux da OpenAGI?
Lux é um modelo que controla o computador por linguagem natural, vendo a tela e executando cliques, teclas e rolagens em apps reais.

Quais são os modos de execução do Lux?
Actor (~1s/step, rápido), Thinker (divide metas vagas em subtarefas) e Tasker (execução determinística a partir de passos em Python).

Como ele se saiu no Online Mind2Web?
Alcançou 83,6% de sucesso em mais de 300 tarefas reais, superando Gemini CUA e Operator.

Qual a latência e o custo comparado a outros agentes?
Cerca de 1 segundo por passo; reportado ~10x menor custo por token que o Operator.

Como integrar o Lux no meu fluxo de trabalho?
Use o SDK e a API da OpenAGI; indicados para QA, pesquisa multi‑página, gestão de redes, lojas online e entrada em massa. Para padrões de integração e publicação de agentes entre frameworks, consulte práticas sobre publicação e descoberta de agentes com MCP e Coral.

E sobre segurança e controle de riscos?
É comum combinar agentes com camadas de orquestração e serviços para conter riscos e reduzir sobrecarga — leituras sobre uso de agentes ao lado de serviços para segurança exploram essas abordagens.

Se você quiser conhecer outros artigos semelhantes a Lux da OpenAGI deixa você controlar o computador só com linguagem natural, você pode visitar a categoria Notícias e Tendências.