DeepSeek usa algoritmo antigo para estabilizar hiperconexões em modelos de linguagem

4 meses ago · Updated 4 meses ago

deepseek-usa-algoritmo-antigo-para-estabilizar-hiperconexoes-em-modelos-de-linguagem
Table
  1. Ouça este artigo
  2. DeepSeek aplica técnica de 1967 para estabilizar redes com Hyper‑Connections
  3. Resumo dos fatos principais
  4. Contexto técnico em poucas palavras
  5. Como o mHC corrige o problema
  6. Medida de estabilidade
  7. Resultados empíricos
  8. Custos e otimizações de sistema
  9. O que isso significa para seu trabalho
  10. Conclusão
  11. Perguntas Frequentes

Ouça este artigo


Aqui você vai ver como a equipe DeepSeek usa um algoritmo clássico de normalização de matrizes para consertar a instabilidade das hiper conexões em grandes modelos de linguagem. O novo método mHC (Manifold‑Constrained Hyper‑Connections) preserva os múltiplos fluxos residuais e, ao mesmo tempo, prende as misturas a um manifold estável usando o algoritmo Sinkhorn‑Knopp. Isso evita amplificações perigosas que fazem o treino explodir e torna o modelo mais estável. O custo extra é pequeno e os ganhos aparecem em benchmarks reais. Continue lendo para entender o que muda e por que isso importa para seu trabalho com modelos.

  • mHC torna Hyper‑Connections estáveis e evita explosões de sinal
  • Misturadores são projetados em matrizes doubly stochastic para preservar soma entre fluxos
  • Coeficientes não negativos evitam cancelamentos entre correntes
  • Melhora desempenho sobre residual padrão sem sacrificar estabilidade
  • Sobrecarga de treino moderada e mitigada por otimizações de sistema

DeepSeek aplica técnica de 1967 para estabilizar redes com Hyper‑Connections

Pesquisadores da DeepSeek adaptaram o algoritmo Sinkhorn‑Knopp (1967) para corrigir a instabilidade que surge ao ampliar a via residual em grandes modelos de linguagem. A solução mHC mantém a capacidade expressiva das Hyper‑Connections, mas limita o comportamento de mistura para evitar amplificações numéricas perigosas — um desenvolvimento alinhado com relatos de novos modelos que priorizam verificação e confiabilidade, como descrito no post sobre o modelo aberto da DeepSeek para verificação matemática.

Resumo dos fatos principais

  • O que aconteceu: foi imposta uma restrição matemática aos misturadores residuais para evitar sinais explosivos ao empilhar muitas camadas.
  • Como funciona: a matriz de mistura é projetada no conjunto de matrizes doubly stochastic (poliedro de Birkhoff) usando Sinkhorn‑Knopp.
  • Impacto: em um MoE de 27B, a métrica Amax (máxima amplificação) caiu de picos ~3000 para ~1.6. Modelos MoE e arquiteturas híbridas similares têm sido explorados em trabalhos industriais, como nos lançamentos que combinam MoE com componentes densos (Nemotron‑3 com Mamba híbrida e MoE).
  • Custo: sobrecarga de treino reportada ~6,7% com expansão n=4 e 20 iterações de Sinkhorn por camada.
  • Resultados: mHC melhora desempenho em benchmarks comparado ao residual padrão e ao HC sem restrição.

Contexto técnico em poucas palavras

  • Redes profundas usam residual connections para preservar sinais e gradientes — um conceito que aparece com frequência em discussões sobre como melhorar a precisão das representações internas, por exemplo ao aproveitar todas as camadas (usar todas as camadas para melhorar LLMs).
  • Hyper‑Connections estendem a ideia mantendo um buffer de múltiplas correntes (por exemplo, n=4), aumentando expressividade com pouco custo em FLOPs.
  • O problema: ao compor muitos misturadores, pequenas variações por camada se acumulavam e geravam amplificação extrema; logs de treino mostravam picos de perda e normas de gradiente instáveis. Conceitos de controle de sensibilidade e limites (como abordados por trabalhos sobre controle de sensibilidade de Transformers) ajudam a entender esse comportamento (controle de sensibilidade e limites Lipschitz).

Como o mHC corrige o problema

  • Restrição do misturador: a matriz de mistura residual é projetada no poliedro de Birkhoff (entradas não negativas; somas de linhas e colunas = 1).
  • Algoritmo: a projeção é feita com Sinkhorn‑Knopp, alternando normalizações de linhas e colunas; a equipe usou 20 iterações por camada no treino.
  • Efeito prático: o produto age como uma combinação convexa das correntes residuais, preservando a massa total das features e evitando crescimento de norma. Essa abordagem tem base matemática que envolve garantias sobre comportamento de operadores, tema explorado em textos sobre como a matemática guia sistemas de IA (como a matemática guia seus robôs).
  • Parametrização: entradas e saídas são parametrizadas para manter coeficientes não negativos e evitar cancelamento entre correntes.

Medida de estabilidade

A equipe definiu a métrica Amax Gain Magnitude para medir a pior amplificação possível nas passagens direta e reversa. Em testes com 27B:

  • Hyper‑Connections sem restrição: picos ~3000
  • mHC (com Sinkhorn): picos ~1.6

Isso representa redução de cerca de 3 ordens de magnitude no pior caso de amplificação.

Resultados empíricos

Foram treinados modelos MoE de 3B, 9B e 27B e avaliados em uma bateria padrão (BBH, DROP, GSM8K, HellaSwag, MMLU, PIQA, TriviaQA). Os ganhos foram consistentes em todas as escalas. Exemplos no modelo 27B (subconjunto de amostras):

Tarefa (métrica) Baseline (residual) HC (sem restrição) mHC
BBH (acurácia) 43.8% 48.9% 51.0%
DROP (F1) 47.0 51.6 53.9

Relatos da equipe indicam que mHC não só estabiliza o treino como também melhora desempenho em comparação ao residual padrão e ao HC sem restrição; a vantagem persiste ao longo do treino, não apenas na convergência.

Custos e otimizações de sistema

Aplicar Sinkhorn‑Knopp em cada camada aumenta custo computacional na superfície. A equipe compensou com várias otimizações:

  • kernels fundidos para reduzir tráfego de memória
  • checkpointing de ativações para trocar memória por computação
  • agendamento de pipeline para sobrepor comunicação e cálculo

Para implementar essas otimizações em larga escala, soluções de infraestrutura e bibliotecas de eficiência são relevantes — por exemplo, guias sobre como escalar Transformers com menos memória ajudam a aplicar estratégias práticas (usar DeepSpeed para escalar Transformers) — e extensões que eliminam paradas de treinamento também reduzem o impacto da sobrecarga (ZenFlow: eliminar paradas durante treinamentos). Para latência de inferência e entrega da primeira resposta, ferramentas de caching e compartilhamento de GPU podem ser relevantes (KVCached para acelerar a primeira resposta).

Resultado prático: com n=4, o tempo total de treino aumentou cerca de 6,7% em runs internos em larga escala.

O que isso significa para seu trabalho

Se você trabalha com modelos muito profundos ou MoEs e busca maior expressividade sem perder estabilidade, mHC oferece uma solução viável. A técnica combina garantia matemática (projeção em matrizes doubly stochastic) com custos operacionais controláveis. Em produção, há trade‑offs entre latência e qualidade; a sobrecarga relatada é pequena, mas você deve avaliar o impacto no seu pipeline, ajustar o número de iterações de Sinkhorn e medir latência versus ganho de qualidade. Para arquiteturas híbridas ou modelos que usam sparsidade para reduzir custo, é útil comparar abordagens de sparsificação e MoE (Circuit Sparsity e conexões entre esparso e denso) e considerar como funções de atenção e mistura interagem com esses designs (papel da atenção em modelos modernos).

Conclusão

mHC amarra as instabilidades das Hyper‑Connections com um artifício elegante — projeção via Sinkhorn — transformando misturas perigosas em combinações convexas estáveis. Em experimentos reais (27B), a métrica Amax desceu de ~3000 para ~1.6, e tarefas como BBH e DROP mostraram ganhos claros. O custo existe (~6,7% a mais de tempo de treino com n=4), mas é pequeno diante do aumento de estabilidade e performance. Pense no mHC como um cinto de segurança para redes profundas: não aumenta demais o custo, mas evita "colisões" caras. Vale a pena testar no seu ambiente.

Quer aprofundar? Há mais conteúdo técnico e insights práticos no blog da Aidirectory sobre o novo modelo e verificação matemática.

Perguntas Frequentes

  • O que é mHC e por que importa?
    mHC são Hyper‑Connections com restrição nas matrizes de mistura; preserva sinal e evita explosão de gradiente.
  • Por que as Hyper‑Connections ficam instáveis?
    Pequenas variações por camada se acumulam; o produto das misturas pode amplificar sinais em milhares de vezes.
  • Como o Sinkhorn‑Knopp resolve isso?
    Alterna normalização de linhas e colunas para aproximar uma matriz doubly stochastic, transformando misturas em combinações convexas e controlando o ganho.
  • Quanto custa em tempo e memória usar mHC?
    Com n=4 e 20 iterações, o treino ficou ~6,7% mais lento; otimizações de implementação reduzem o impacto.
  • Os ganhos valem o custo?
    Nos experimentos da DeepSeek, sim: Amax caiu drasticamente (~3000 → ~1.6) e desempenho em benchmarks melhorou, com treino mais estável.
  • Onde aprender mais sobre arquiteturas relacionadas?
    Para explorar arquiteturas e como elas mudam a percepção e raciocínio das máquinas, veja artigos sobre arquiteturas de IA e sobre mecanismos de atenção (mecanismos de atenção e suas aplicações), que ajudam a posicionar o mHC dentro do ecossistema de design de modelos.

Se você quiser conhecer outros artigos semelhantes a DeepSeek usa algoritmo antigo para estabilizar hiperconexões em modelos de linguagem, você pode visitar a categoria Notícias e Tendências.

Go up