Como a aprendizagem aninhada ajuda seu modelo a aprender sem esquecer

6 meses ago · Updated 6 meses ago

como-a-aprendizagem-aninhada-ajuda-seu-modelo-a-aprender-sem-esquecer

Ouça este artigo


Você quer entender como sua IA pode continuar aprendendo sem perder o que já sabe. Este texto apresenta Nested Learning, uma nova forma de ver redes como muitos problemas menores. A ideia é organizar parâmetros por frequência e criar uma memória contínua que guarda coisas em camadas que mudam devagar e rápido. Também mostramos HOPE, uma arquitetura que se modifica sozinha para memorizar eventos e ampliar o contexto. O objetivo é combater a catástrofe do esquecimento e permitir que seu sistema aprenda sempre.

Principais pontos

  • Modelos são divididos em módulos aninhados que aprendem em níveis.
  • Cada módulo atualiza em ritmos diferentes e guarda memórias temporais.
  • A hierarquia ajuda o modelo a aprender continuamente sem esquecer.
  • Otimizadores viram memórias treináveis que aprendem padrões de gradientes.
  • A arquitetura HOPE mostra ganhos em tarefas de linguagem e raciocínio.

Pesquisadores do Google propõem Nested Learning para evitar que modelos esqueçam o que já aprenderam
Pesquisadores do Google apresentaram a abordagem Nested Learning, que trata modelos de IA como conjuntos de problemas de otimização menores e encadeados, em vez de um único treino com um laço externo. A proposta foi comentada em uma análise disponível no AI Directory sobre Nested Learning, que resume os objetivos de reduzir o esquecimento catastrófico e permitir aprendizagem contínua sem re-treinos completos.

O que é Nested Learning

  • Nested Learning vê cada parte do modelo como um problema de otimização com seu próprio fluxo de contexto e frequência de atualização.
  • Parâmetros que mudam com frequência ficam em níveis internos; parâmetros estáveis ficam em níveis externos.
  • Cada nível forma um Neural Learning Module, compactando seu contexto nos próprios parâmetros — uma ideia que dialoga com estudos sobre como usar todas as camadas para melhorar precisão em LLMs (melhor uso de camadas).
  • Associative memory é formalizada como operadores treináveis que mapeiam chaves para valores.
  • Técnicas comuns — incluindo back-propagation e otimizadores tradicionais — aparecem como casos especiais dentro desse quadro.

Componentes principais que você deve conhecer

  • Hierarquia por frequência de atualização: níveis internos atualizam rápido; externos, devagar. Essa separação lembra discussões práticas sobre engenharia de contexto e como projetar janelas e fluxos de informação (engenharia de contexto).
  • Neural Learning Module: cada nível armazena informação no seu ritmo temporal.
  • Associative memory: operador treinável que liga entradas a sinais locais de erro. Para entender a diferença entre memória via atenção e memórias aninhadas, vale revisar como mecanismos de atenção transformam o fluxo de informação (mecanismos de atenção).
  • Deep Momentum Gradient Descent: momentum gerado por uma memória neural não linear.
  • Continuum Memory System (CMS): cadeia de blocos MLP, cada um com frequência e tamanho próprios — essa ideia tem implicações práticas sobre como tratar tokenização e chunking ao ampliar janelas de contexto (tokenização e chunking).
  • HOPE: arquitetura prática que aplica o paradigma a modelos recorrentes e estende a memória em múltiplas frequências.

Como a ideia funciona, em linhas simples

  • Em vez das duas memórias tradicionais (curto prazo via atenção e longo prazo via camadas fixas), Nested Learning propõe um espectro de memórias com várias escalas temporais. Para entender melhor as limitações e pontos fortes da atenção no manejo de contexto longo, consulte a discussão sobre atenção (como a atenção afeta IA).
  • O CMS é formado por blocos MLP f₁..fₖ, processando a entrada em série e atualizando parâmetros a cada C^(ℓ) passos.
  • Um Transformer padrão aparece como um caso especial do CMS com apenas um bloco feedforward.
  • Otimizadores tradicionais (como momentum) são reinterpretados como memórias associativas lineares; os autores substituem objetivos internos simples por perdas mais ricas para melhorar a memória de gradientes.

Aplicação prática: arquitetura HOPE

  • HOPE se inspira em Titans (arquitetura de memória de longo prazo) e implementa duas melhorias chave: auto-modificação da própria memória (auto-referência) e blocos do CMS para atualizações em múltiplas frequências.
  • O objetivo é suportar níveis ilimitados de aprendizado dentro do contexto, escalando para janelas de contexto maiores. Para quem implementa e escala modelos, há materiais práticos sobre como reduzir uso de memória e acelerar treinamentos, como guias sobre DeepSpeed e extensões relacionadas (uso do DeepSpeed e ZenFlow para evitar paradas durante treinamentos).

Testes e avaliação

  • A equipe testou HOPE em modelagem de linguagem e raciocínio, nas escalas de 340M, 760M e 1.3B parâmetros.
  • Conjuntos incluíram perplexidade em Wikipedia e LMB, e benchmarks de raciocínio: PIQA, HellaSwag, WinoGrande, ARC Easy/Challenge, Social IQa e BoolQ.
  • Comparações foram feitas com Transformer, RetNet, Gated DeltaNet, TTT, Samba e Titans. Para avaliação e comparação de modelos em diferentes configurações, há ferramentas e frameworks que ajudam a testar e comparar resultados (Stax para testar e comparar modelos).
  • Resultados indicam que mudanças nas memórias e objetivos internos ajudam a memorizar sequências de gradientes e gerir memória limitada de forma mais eficaz, segundo os autores.

Por que isso importa para você

  • A proposta traz continual learning para o centro do design de modelos.
  • Espera-se modelos que aprendam de forma mais parecida com cérebros biológicos, com múltiplas escalas temporais de consolidação.
  • Na prática, pode reduzir a necessidade de re-treino completo e melhorar adaptação contínua em produção — uma alternativa complementar às abordagens que tentam reduzir rotinas de anotação e re-treinamento, como estratégias de aprendizagem ativa (treinar sem muitos dados anotados).
  • Além disso, integrar CMS e HOPE com pipelines de recuperação ou RAG exige testes específicos do fluxo de dados para evitar respostas erradas quando a memória é limitada (testes de pipeline RAG).

Riscos e limites apontados

  • Ainda falta validação ampla em cenários de produção e em escalas maiores.
  • Complexidade de implementação e custo computacional podem aumentar, dependendo dos blocos e frequências escolhidos — razão pela qual práticas de otimização ponta a ponta são importantes, como orientar modelos com ferramentas de quantização e runtime (otimização ponta a ponta).
  • Também é preciso avaliar trade-offs entre memória interna (CMS/HOPE) e mecanismos externos de recuperação (RAG) para cada caso de uso.

Resumo técnico rápido

Componente Descrição
Nested Learning Modelo como conjunto de problemas de otimização encadeados.
Neural Learning Module Hierarquia de níveis que compacta fluxos de contexto.
Associative memory Operador treinável que mapeia chaves para valores.
Deep Momentum GD Momentum gerado por memória neural não linear.
Continuum Memory System (CMS) Cadeia de MLPs com diferentes frequências de atualização.
HOPE Arquitetura recorrente auto-modificável que aplica CMS.

Conclusão
Nested Learning oferece uma forma nova de montar memória em camadas — uma memória contínua em que cada peça se ajusta sem apagar as demais. Isso mitiga o esquecimento catastrófico ao separar parâmetros por ritmos de atualização: os rápidos em camadas internas, os estáveis em externas. Arquiteturas como HOPE e o CMS mostram que é possível expandir contexto e adaptar modelos sem re-treinos completos. Ainda há desafios (validação em larga escala e custo computacional), mas a direção é promissora.

Leitura recomendada

  • Uma boa matéria de referência sobre a proposta pode ser encontrada em: https://www.marktechpost.com/2025/11/08/nested-learning-a-new-machine-learning-approach-for-continual-learning-that-views-models-as-nested-optimization-problems-to-enhance-long-context-processing/ — útil para quem quer ver a cobertura externa da pesquisa.
  • Para se aprofundar na fonte e detalhes técnicos, consulte também o artigo citado acima: https://www.marktechpost.com/2025/11/08/nested-learning-a-new-machine-learning-approach-for-continual-learning-that-views-models-as-nested-optimization-problems-to-enhance-long-context-processing/.
  • Para referências e posts relacionados no AI Directory, veja a página principal do blog do site: Blog AI Directory.

Quer se aprofundar mais? Confira também a cobertura do AI Directory sobre Nested Learning.

Perguntas Frequentes

O que é aprendizagem aninhada?

  • É ver o modelo como módulos empilhados que aprendem em ritmos diferentes. Cada módulo guarda seu próprio fluxo de contexto e aprende sem depender de um único laço externo.

Como isso evita o esquecimento catastrófico?

  • Parâmetros que mudam rápido ficam em níveis internos; parâmetros lentos ficam em níveis externos. Assim, aprender algo novo tende a não apagar memórias antigas.

O que é o Sistema de Memória Contínua (CMS) e por que importa?

  • CMS é uma cadeia de blocos que atualizam em frequências diferentes, criando uma escala de memória do curto ao longo prazo. Amplia contexto sem re-treinar tudo.

O que é Deep Momentum Gradient Descent e como ajuda?

  • É um momentum que se torna memória neural, capaz de aprender padrões de gradiente e guardar sequências de updates, resultando em memória mais fiel e menor perda.

Como o HOPE demonstra a ideia na prática?

  • HOPE se autoajusta e atualiza memória em múltiplos tempos. Em testes de linguagem e raciocínio, ajudou a manter informação antiga e a usar contexto longo de forma mais eficaz.

Se você quiser conhecer outros artigos semelhantes a Como a aprendizagem aninhada ajuda seu modelo a aprender sem esquecer, você pode visitar a categoria Notícias e Tendências.

Go up