NVIDIA apresenta NitroGen modelo aberto que aprende a jogar a partir de vídeos da internet e inclui simulador universal
4 meses ago · Updated 4 meses ago

- Ouça este artigo
- NVIDIA apresenta NitroGen, modelo de visão-ação para jogos
- Principais fatos — em poucas linhas
- Como os dados foram obtidos e filtrados
- Cobertura de títulos e gêneros
- Pipeline de extração de ações (resumido)
- Precisão das anotações automáticas
- Simulador universal e benchmark
- Arquitetura do modelo
- Treinamento e práticas
- Desempenho e transferências
- O que isso significa para você
- Conclusão
- Perguntas Frequentes
Ouça este artigo
Você vai conhecer o NitroGen, um modelo de visão-ação da NVIDIA que aprende a jogar direto dos pixels e dos controles mostrados nos vídeos de gameplay. O artigo explica como o time reuniu uma coleção enorme de vídeos da internet e extraiu ações das overlays de controle para treinar um agente geral para muitos jogos comerciais. Também descreve o pipeline de extração de ações, o simulador universal que permite testar jogos quadro a quadro e o modelo pré-treinado que facilita adaptação a títulos novos. Leia para entender as principais descobertas e o impacto disso para agentes que aprendem só olhando a tela.
- Modelo aberto que aprende a jogar direto dos pixels e das ações mostradas nos vídeos de gameplay
- Grande base de vídeos cobrindo muitos jogos e estilos de jogo
- Extração automática de ações da sobreposição do controle com alta precisão para botões e joystick
- Simulador universal que permite testar e transferir a mesma política para jogos comerciais sem modificar o código
- Pré-treino que melhora a adaptação a jogos inéditos e acelera o aprendizado em cenários com poucos dados
NVIDIA apresenta NitroGen, modelo de visão-ação para jogos
A equipe de pesquisa da NVIDIA lançou NitroGen, um modelo fundacional que aprende a jogar títulos comerciais diretamente a partir de imagens e ações de gamepad extraídas de vídeos públicos. O projeto inclui um conjunto de dados aberto, um simulador universal compatível com Gymnasium e uma política pré-treinada pronta para uso.
Principais fatos — em poucas linhas
- Dados: treinamento em 40.000 horas de gameplay cobrindo mais de 1.000 jogos.
- Extração: ações recuperadas de overlays de controle em vídeos.
- Simulador: wrapper para jogos Windows que permite controle quadro a quadro.
- Modelo: encoder visual e um transformador de difusão para ações; ≈493 milhões de parâmetros.
- Resultados: zero-shot com taxas de conclusão médias entre 45%–60%; ganhos de transferência entre 10%–25% e até 52% em cenários de poucos dados.
Como os dados foram obtidos e filtrados
- Coletadas 71.000 horas de vídeos públicos com overlays de controle. Para referência sobre como vídeos comuns podem ser transformados em dados estruturados, veja abordagens de processamento de vídeo em projetos que geram representações tridimensionais a partir de gravações 2D, como a solução da NVIDIA para transformar vídeos em mundos 3D (ViPe).
- Filtragem por densidade de ações manteve ~55% do material, resultando em ~40.000 horas.
- Conjunto final: 38.739 vídeos de 818 criadores.
Cobertura de títulos e gêneros
- 846 jogos com > 1 hora de dados.
- 91 jogos com > 100 horas.
- 15 jogos com > 1.000 horas.
- Gêneros principais: Action RPG (34,9% das horas), Plataformas (18,4%), Action-adventure (9,2%); também esportes, roguelike, corrida, etc.
Métricas principais:
| Métrica | Valor |
|---|---|
| Horas coletadas | 71.000 |
| Horas após filtro | 40.000 |
| Vídeos | 38.739 |
| Criadores | 818 |
| Parâmetros do modelo | ≈493M |
Pipeline de extração de ações (resumido)
- Localização do overlay do controle por template matching (~300 templates).
- Parsing com modelo híbrido baseado em SegFormer que recebe dois frames e retorna posições de joystick (grade 11×11) e estados binários de botões; treinado com 8 milhões de imagens sintéticas.
- Refinamento: normalização dos joysticks para [-1.0, 1.0] e remoção de trechos com baixa atividade (menos de 50% dos timesteps com ação).
A extração automática de ações a partir de overlays é uma técnica de anotação em escala que complementa outras linhas de trabalho sobre como modelos aprendem representações de mundos a partir de dados visuais (modelos de mundo).
Precisão das anotações automáticas
- Previsão de joystick: R² = 0,84 (média).
- Acurácia de botões por frame: 0,96.
Relatórios oficiais indicam que essa qualidade é suficiente para clonagem de comportamento em larga escala.
Simulador universal e benchmark
- O wrapper intercepta o relógio do motor do jogo para controlar o tempo sem alterar o código.
- Observações são frames RGB únicos.
- Espaço de ação unificado: 16 componentes binárias (botões) 4 componentes contínuas para joysticks (LX, LY, RX, RY).
- Conjunto de avaliação: 10 jogos comerciais e 30 tarefas (combate, navegação e objetivos específicos; misto de 2D e 3D).
A ideia de encapsular diferentes ambientes sob uma API comum facilita tanto avaliação quanto reuso de políticas, um tema que também aparece em ferramentas e frameworks para treinar agentes em contextos variados (simulação de mundos interativos).
Arquitetura do modelo
- Entrada: frame RGB redimensionado para 256×256.
- Encoder visual: SigLIP 2 transforma a imagem em 256 tokens.
- Head de ação: transformador de difusão (DiT) gera blocos de 16 timesteps de ações.
- Representação final: tensor 21×16 (17 dims binárias 4 dims para joysticks) por bloco.
- Treinamento usa conditional flow matching com 16 passos de denoising.
Treinamento e práticas
- Abordagem: behavior cloning em escala, sem reforço nem desenho de recompensas — diferente de pipelines que utilizam aprendizado por reforço para melhorar políticas em ambiente simulado (aprendizado por reforço profundo).
- Aumentos visuais: brilho, contraste, saturação, matiz, pequenas rotações e recortes aleatórios.
- Otimizador: AdamW com políticas de taxa de aprendizado e EMA de pesos.
- Checkpoint público contém o modelo de ≈493M parâmetros.
Para cenários onde é necessário ajustar modelos locais com eficiência, técnicas recentes de ajuste fino distribuído e aceleração em GPUs também são relevantes e complementares ao fluxo de trabalho de pré-treino e fine‑tuning (ajuste fino em modelos locais).
Desempenho e transferências
- Zero-shot: taxas médias de conclusão entre 45%–60% em tarefas variadas.
- Transferência (fine-tuning após pré-treino): ganhos típicos de 10% a 25% dependendo do gênero.
- Em regimes de poucos dados (ex.: 30 horas), alguns cenários mostraram ganhos relativos até 52%.
O uso de pré-treino com grandes coleções de vídeos lembra outras iniciativas que combinam pré-treinamento visual/temporal para acelerar adaptação a novas tarefas.
O que isso significa para você
- Para desenvolvedores de agentes e pesquisadores de jogos, NitroGen oferece uma base pronta para adaptar comportamentos a novos títulos com menos dados. Ferramentas para criar agentes locais e pipelines de teste podem ser integradas a esse tipo de modelo (agentes de IA locais).
- Vídeos públicos com overlays de controle são uma fonte viável para gerar anotações em escala.
- A combinação de simulador universal e espaço de ação unificado facilita testes e reuso de políticas entre vários jogos. Projetos que prometem agentes autônomos também exploram fluxos semelhantes de observação, planejamento e execução (agentes que planejam e agem).
Conclusão
NitroGen demonstra que é viável ensinar agentes a jogar observando apenas a tela. Com visão-ação, um dataset massivo extraído de vídeos e um simulador universal, a NVIDIA entregou um ponto de partida prático para desenvolver agentes ou pesquisar jogos. O destaque é a extração automática de ações e o pré-treino que acelera a adaptação; os números de zero-shot e transferência mostram ganhos concretos. Não é mágica — trata-se de clonagem de comportamento, sem reforço nem recompensa manual, com dependência de overlays e limites em tarefas muito complexas — mas é uma ferramenta poderosa para testes rápidos e prototipagem.
Se quiser explorar mais, leia outros artigos em https://blog.aidirectory.com.br.
Perguntas Frequentes
- O que é o NitroGen?
NitroGen é um modelo aberto da NVIDIA que aprende a jogar lendo pixels e ações de gamepad em vídeos públicos. Vem com dataset, simulador universal e política pré‑treinada.
- Como ele extrai ações dos vídeos?
Localiza a overlay do controle por template matching e usa um modelo SegFormer para ler joysticks e botões, com refinamento e remoção de trechos sem ação.
- O que tem no dataset?
Cerca de 40.000 horas de gameplay, mais de 1.000 jogos e 38.739 vídeos de 818 criadores; gêneros variados (RPG de ação, plataforma, corrida, esportes, etc.).
- O que faz o simulador universal?
Encapsula jogos Windows numa interface Gymnasium, controla o relógio do jogo para passo a passo e permite usar uma ação unificada em muitos títulos.
- Quais são os resultados e ganhos?
Zero-shot completa 45%–60% das tarefas; fine‑tuning após pré‑treino tipicamente adiciona 10%–25%; em poucos dados, ganhos podem chegar a 52%.
Se você quiser conhecer outros artigos semelhantes a NVIDIA apresenta NitroGen modelo aberto que aprende a jogar a partir de vídeos da internet e inclui simulador universal, você pode visitar a categoria Notícias e Tendências.
