Como a aprendizagem aninhada ajuda seu modelo a aprender sem esquecer
6 meses ago · Updated 6 meses ago

Ouça este artigo
Você quer entender como sua IA pode continuar aprendendo sem perder o que já sabe. Este texto apresenta Nested Learning, uma nova forma de ver redes como muitos problemas menores. A ideia é organizar parâmetros por frequência e criar uma memória contínua que guarda coisas em camadas que mudam devagar e rápido. Também mostramos HOPE, uma arquitetura que se modifica sozinha para memorizar eventos e ampliar o contexto. O objetivo é combater a catástrofe do esquecimento e permitir que seu sistema aprenda sempre.
Principais pontos
- Modelos são divididos em módulos aninhados que aprendem em níveis.
- Cada módulo atualiza em ritmos diferentes e guarda memórias temporais.
- A hierarquia ajuda o modelo a aprender continuamente sem esquecer.
- Otimizadores viram memórias treináveis que aprendem padrões de gradientes.
- A arquitetura HOPE mostra ganhos em tarefas de linguagem e raciocínio.
Pesquisadores do Google propõem Nested Learning para evitar que modelos esqueçam o que já aprenderam
Pesquisadores do Google apresentaram a abordagem Nested Learning, que trata modelos de IA como conjuntos de problemas de otimização menores e encadeados, em vez de um único treino com um laço externo. A proposta foi comentada em uma análise disponível no AI Directory sobre Nested Learning, que resume os objetivos de reduzir o esquecimento catastrófico e permitir aprendizagem contínua sem re-treinos completos.
O que é Nested Learning
- Nested Learning vê cada parte do modelo como um problema de otimização com seu próprio fluxo de contexto e frequência de atualização.
- Parâmetros que mudam com frequência ficam em níveis internos; parâmetros estáveis ficam em níveis externos.
- Cada nível forma um Neural Learning Module, compactando seu contexto nos próprios parâmetros — uma ideia que dialoga com estudos sobre como usar todas as camadas para melhorar precisão em LLMs (melhor uso de camadas).
- Associative memory é formalizada como operadores treináveis que mapeiam chaves para valores.
- Técnicas comuns — incluindo back-propagation e otimizadores tradicionais — aparecem como casos especiais dentro desse quadro.
Componentes principais que você deve conhecer
- Hierarquia por frequência de atualização: níveis internos atualizam rápido; externos, devagar. Essa separação lembra discussões práticas sobre engenharia de contexto e como projetar janelas e fluxos de informação (engenharia de contexto).
- Neural Learning Module: cada nível armazena informação no seu ritmo temporal.
- Associative memory: operador treinável que liga entradas a sinais locais de erro. Para entender a diferença entre memória via atenção e memórias aninhadas, vale revisar como mecanismos de atenção transformam o fluxo de informação (mecanismos de atenção).
- Deep Momentum Gradient Descent: momentum gerado por uma memória neural não linear.
- Continuum Memory System (CMS): cadeia de blocos MLP, cada um com frequência e tamanho próprios — essa ideia tem implicações práticas sobre como tratar tokenização e chunking ao ampliar janelas de contexto (tokenização e chunking).
- HOPE: arquitetura prática que aplica o paradigma a modelos recorrentes e estende a memória em múltiplas frequências.
Como a ideia funciona, em linhas simples
- Em vez das duas memórias tradicionais (curto prazo via atenção e longo prazo via camadas fixas), Nested Learning propõe um espectro de memórias com várias escalas temporais. Para entender melhor as limitações e pontos fortes da atenção no manejo de contexto longo, consulte a discussão sobre atenção (como a atenção afeta IA).
- O CMS é formado por blocos MLP f₁..fₖ, processando a entrada em série e atualizando parâmetros a cada C^(ℓ) passos.
- Um Transformer padrão aparece como um caso especial do CMS com apenas um bloco feedforward.
- Otimizadores tradicionais (como momentum) são reinterpretados como memórias associativas lineares; os autores substituem objetivos internos simples por perdas mais ricas para melhorar a memória de gradientes.
Aplicação prática: arquitetura HOPE
- HOPE se inspira em Titans (arquitetura de memória de longo prazo) e implementa duas melhorias chave: auto-modificação da própria memória (auto-referência) e blocos do CMS para atualizações em múltiplas frequências.
- O objetivo é suportar níveis ilimitados de aprendizado dentro do contexto, escalando para janelas de contexto maiores. Para quem implementa e escala modelos, há materiais práticos sobre como reduzir uso de memória e acelerar treinamentos, como guias sobre DeepSpeed e extensões relacionadas (uso do DeepSpeed e ZenFlow para evitar paradas durante treinamentos).
Testes e avaliação
- A equipe testou HOPE em modelagem de linguagem e raciocínio, nas escalas de 340M, 760M e 1.3B parâmetros.
- Conjuntos incluíram perplexidade em Wikipedia e LMB, e benchmarks de raciocínio: PIQA, HellaSwag, WinoGrande, ARC Easy/Challenge, Social IQa e BoolQ.
- Comparações foram feitas com Transformer, RetNet, Gated DeltaNet, TTT, Samba e Titans. Para avaliação e comparação de modelos em diferentes configurações, há ferramentas e frameworks que ajudam a testar e comparar resultados (Stax para testar e comparar modelos).
- Resultados indicam que mudanças nas memórias e objetivos internos ajudam a memorizar sequências de gradientes e gerir memória limitada de forma mais eficaz, segundo os autores.
Por que isso importa para você
- A proposta traz continual learning para o centro do design de modelos.
- Espera-se modelos que aprendam de forma mais parecida com cérebros biológicos, com múltiplas escalas temporais de consolidação.
- Na prática, pode reduzir a necessidade de re-treino completo e melhorar adaptação contínua em produção — uma alternativa complementar às abordagens que tentam reduzir rotinas de anotação e re-treinamento, como estratégias de aprendizagem ativa (treinar sem muitos dados anotados).
- Além disso, integrar CMS e HOPE com pipelines de recuperação ou RAG exige testes específicos do fluxo de dados para evitar respostas erradas quando a memória é limitada (testes de pipeline RAG).
Riscos e limites apontados
- Ainda falta validação ampla em cenários de produção e em escalas maiores.
- Complexidade de implementação e custo computacional podem aumentar, dependendo dos blocos e frequências escolhidos — razão pela qual práticas de otimização ponta a ponta são importantes, como orientar modelos com ferramentas de quantização e runtime (otimização ponta a ponta).
- Também é preciso avaliar trade-offs entre memória interna (CMS/HOPE) e mecanismos externos de recuperação (RAG) para cada caso de uso.
Resumo técnico rápido
| Componente | Descrição |
|---|---|
| Nested Learning | Modelo como conjunto de problemas de otimização encadeados. |
| Neural Learning Module | Hierarquia de níveis que compacta fluxos de contexto. |
| Associative memory | Operador treinável que mapeia chaves para valores. |
| Deep Momentum GD | Momentum gerado por memória neural não linear. |
| Continuum Memory System (CMS) | Cadeia de MLPs com diferentes frequências de atualização. |
| HOPE | Arquitetura recorrente auto-modificável que aplica CMS. |
Conclusão
Nested Learning oferece uma forma nova de montar memória em camadas — uma memória contínua em que cada peça se ajusta sem apagar as demais. Isso mitiga o esquecimento catastrófico ao separar parâmetros por ritmos de atualização: os rápidos em camadas internas, os estáveis em externas. Arquiteturas como HOPE e o CMS mostram que é possível expandir contexto e adaptar modelos sem re-treinos completos. Ainda há desafios (validação em larga escala e custo computacional), mas a direção é promissora.
Leitura recomendada
- Uma boa matéria de referência sobre a proposta pode ser encontrada em: https://www.marktechpost.com/2025/11/08/nested-learning-a-new-machine-learning-approach-for-continual-learning-that-views-models-as-nested-optimization-problems-to-enhance-long-context-processing/ — útil para quem quer ver a cobertura externa da pesquisa.
- Para se aprofundar na fonte e detalhes técnicos, consulte também o artigo citado acima: https://www.marktechpost.com/2025/11/08/nested-learning-a-new-machine-learning-approach-for-continual-learning-that-views-models-as-nested-optimization-problems-to-enhance-long-context-processing/.
- Para referências e posts relacionados no AI Directory, veja a página principal do blog do site: Blog AI Directory.
Quer se aprofundar mais? Confira também a cobertura do AI Directory sobre Nested Learning.
Perguntas Frequentes
O que é aprendizagem aninhada?
- É ver o modelo como módulos empilhados que aprendem em ritmos diferentes. Cada módulo guarda seu próprio fluxo de contexto e aprende sem depender de um único laço externo.
Como isso evita o esquecimento catastrófico?
- Parâmetros que mudam rápido ficam em níveis internos; parâmetros lentos ficam em níveis externos. Assim, aprender algo novo tende a não apagar memórias antigas.
O que é o Sistema de Memória Contínua (CMS) e por que importa?
- CMS é uma cadeia de blocos que atualizam em frequências diferentes, criando uma escala de memória do curto ao longo prazo. Amplia contexto sem re-treinar tudo.
O que é Deep Momentum Gradient Descent e como ajuda?
- É um momentum que se torna memória neural, capaz de aprender padrões de gradiente e guardar sequências de updates, resultando em memória mais fiel e menor perda.
Como o HOPE demonstra a ideia na prática?
- HOPE se autoajusta e atualiza memória em múltiplos tempos. Em testes de linguagem e raciocínio, ajudou a manter informação antiga e a usar contexto longo de forma mais eficaz.
Se você quiser conhecer outros artigos semelhantes a Como a aprendizagem aninhada ajuda seu modelo a aprender sem esquecer, você pode visitar a categoria Notícias e Tendências.
