DeepSeek usa algoritmo antigo para estabilizar hiperconexões em modelos de linguagem

4 meses ago · Updated 4 meses ago

deepseek-usa-algoritmo-antigo-para-estabilizar-hiperconexoes-em-modelos-de-linguagem

Table

Ouça este artigo
DeepSeek aplica técnica de 1967 para estabilizar redes com Hyper‑Connections
Resumo dos fatos principais
Contexto técnico em poucas palavras
Como o mHC corrige o problema
Medida de estabilidade
Resultados empíricos
Custos e otimizações de sistema
O que isso significa para seu trabalho
Conclusão
Perguntas Frequentes

Ouça este artigo

Aqui você vai ver como a equipe DeepSeek usa um algoritmo clássico de normalização de matrizes para consertar a instabilidade das hiper conexões em grandes modelos de linguagem. O novo método mHC (Manifold‑Constrained Hyper‑Connections) preserva os múltiplos fluxos residuais e, ao mesmo tempo, prende as misturas a um manifold estável usando o algoritmo Sinkhorn‑Knopp. Isso evita amplificações perigosas que fazem o treino explodir e torna o modelo mais estável. O custo extra é pequeno e os ganhos aparecem em benchmarks reais. Continue lendo para entender o que muda e por que isso importa para seu trabalho com modelos.

mHC torna Hyper‑Connections estáveis e evita explosões de sinal

Misturadores são projetados em matrizes doubly stochastic para preservar soma entre fluxos

Coeficientes não negativos evitam cancelamentos entre correntes

Melhora desempenho sobre residual padrão sem sacrificar estabilidade

Sobrecarga de treino moderada e mitigada por otimizações de sistema

DeepSeek aplica técnica de 1967 para estabilizar redes com Hyper‑Connections

Pesquisadores da DeepSeek adaptaram o algoritmo Sinkhorn‑Knopp (1967) para corrigir a instabilidade que surge ao ampliar a via residual em grandes modelos de linguagem. A solução mHC mantém a capacidade expressiva das Hyper‑Connections, mas limita o comportamento de mistura para evitar amplificações numéricas perigosas — um desenvolvimento alinhado com relatos de novos modelos que priorizam verificação e confiabilidade, como descrito no post sobre o modelo aberto da DeepSeek para verificação matemática.

Resumo dos fatos principais

O que aconteceu: foi imposta uma restrição matemática aos misturadores residuais para evitar sinais explosivos ao empilhar muitas camadas.

Como funciona: a matriz de mistura é projetada no conjunto de matrizes doubly stochastic (poliedro de Birkhoff) usando Sinkhorn‑Knopp.

Impacto: em um MoE de 27B, a métrica Amax (máxima amplificação) caiu de picos ~3000 para ~1.6. Modelos MoE e arquiteturas híbridas similares têm sido explorados em trabalhos industriais, como nos lançamentos que combinam MoE com componentes densos (Nemotron‑3 com Mamba híbrida e MoE).

Custo: sobrecarga de treino reportada ~6,7% com expansão n=4 e 20 iterações de Sinkhorn por camada.

Resultados: mHC melhora desempenho em benchmarks comparado ao residual padrão e ao HC sem restrição.

Contexto técnico em poucas palavras

Redes profundas usam residual connections para preservar sinais e gradientes — um conceito que aparece com frequência em discussões sobre como melhorar a precisão das representações internas, por exemplo ao aproveitar todas as camadas (usar todas as camadas para melhorar LLMs).

Hyper‑Connections estendem a ideia mantendo um buffer de múltiplas correntes (por exemplo, n=4), aumentando expressividade com pouco custo em FLOPs.

O problema: ao compor muitos misturadores, pequenas variações por camada se acumulavam e geravam amplificação extrema; logs de treino mostravam picos de perda e normas de gradiente instáveis. Conceitos de controle de sensibilidade e limites (como abordados por trabalhos sobre controle de sensibilidade de Transformers) ajudam a entender esse comportamento (controle de sensibilidade e limites Lipschitz).

Como o mHC corrige o problema

Restrição do misturador: a matriz de mistura residual é projetada no poliedro de Birkhoff (entradas não negativas; somas de linhas e colunas = 1).

Algoritmo: a projeção é feita com Sinkhorn‑Knopp, alternando normalizações de linhas e colunas; a equipe usou 20 iterações por camada no treino.

Efeito prático: o produto age como uma combinação convexa das correntes residuais, preservando a massa total das features e evitando crescimento de norma. Essa abordagem tem base matemática que envolve garantias sobre comportamento de operadores, tema explorado em textos sobre como a matemática guia sistemas de IA (como a matemática guia seus robôs).

Parametrização: entradas e saídas são parametrizadas para manter coeficientes não negativos e evitar cancelamento entre correntes.

Medida de estabilidade

A equipe definiu a métrica Amax Gain Magnitude para medir a pior amplificação possível nas passagens direta e reversa. Em testes com 27B:

Hyper‑Connections sem restrição: picos ~3000

mHC (com Sinkhorn): picos ~1.6

Isso representa redução de cerca de 3 ordens de magnitude no pior caso de amplificação.

Resultados empíricos

Foram treinados modelos MoE de 3B, 9B e 27B e avaliados em uma bateria padrão (BBH, DROP, GSM8K, HellaSwag, MMLU, PIQA, TriviaQA). Os ganhos foram consistentes em todas as escalas. Exemplos no modelo 27B (subconjunto de amostras):

Tarefa (métrica)	Baseline (residual)	HC (sem restrição)	mHC
BBH (acurácia)	43.8%	48.9%	51.0%
DROP (F1)	47.0	51.6	53.9

Relatos da equipe indicam que mHC não só estabiliza o treino como também melhora desempenho em comparação ao residual padrão e ao HC sem restrição; a vantagem persiste ao longo do treino, não apenas na convergência.

Custos e otimizações de sistema

Aplicar Sinkhorn‑Knopp em cada camada aumenta custo computacional na superfície. A equipe compensou com várias otimizações:

kernels fundidos para reduzir tráfego de memória

checkpointing de ativações para trocar memória por computação

agendamento de pipeline para sobrepor comunicação e cálculo

Para implementar essas otimizações em larga escala, soluções de infraestrutura e bibliotecas de eficiência são relevantes — por exemplo, guias sobre como escalar Transformers com menos memória ajudam a aplicar estratégias práticas (usar DeepSpeed para escalar Transformers) — e extensões que eliminam paradas de treinamento também reduzem o impacto da sobrecarga (ZenFlow: eliminar paradas durante treinamentos). Para latência de inferência e entrega da primeira resposta, ferramentas de caching e compartilhamento de GPU podem ser relevantes (KVCached para acelerar a primeira resposta).

Resultado prático: com n=4, o tempo total de treino aumentou cerca de 6,7% em runs internos em larga escala.

O que isso significa para seu trabalho

Se você trabalha com modelos muito profundos ou MoEs e busca maior expressividade sem perder estabilidade, mHC oferece uma solução viável. A técnica combina garantia matemática (projeção em matrizes doubly stochastic) com custos operacionais controláveis. Em produção, há trade‑offs entre latência e qualidade; a sobrecarga relatada é pequena, mas você deve avaliar o impacto no seu pipeline, ajustar o número de iterações de Sinkhorn e medir latência versus ganho de qualidade. Para arquiteturas híbridas ou modelos que usam sparsidade para reduzir custo, é útil comparar abordagens de sparsificação e MoE (Circuit Sparsity e conexões entre esparso e denso) e considerar como funções de atenção e mistura interagem com esses designs (papel da atenção em modelos modernos).

Conclusão

mHC amarra as instabilidades das Hyper‑Connections com um artifício elegante — projeção via Sinkhorn — transformando misturas perigosas em combinações convexas estáveis. Em experimentos reais (27B), a métrica Amax desceu de ~3000 para ~1.6, e tarefas como BBH e DROP mostraram ganhos claros. O custo existe (~6,7% a mais de tempo de treino com n=4), mas é pequeno diante do aumento de estabilidade e performance. Pense no mHC como um cinto de segurança para redes profundas: não aumenta demais o custo, mas evita "colisões" caras. Vale a pena testar no seu ambiente.

Quer aprofundar? Há mais conteúdo técnico e insights práticos no blog da Aidirectory sobre o novo modelo e verificação matemática.

Perguntas Frequentes

O que é mHC e por que importa?
mHC são Hyper‑Connections com restrição nas matrizes de mistura; preserva sinal e evita explosão de gradiente.

Por que as Hyper‑Connections ficam instáveis?
Pequenas variações por camada se acumulam; o produto das misturas pode amplificar sinais em milhares de vezes.

Como o Sinkhorn‑Knopp resolve isso?
Alterna normalização de linhas e colunas para aproximar uma matriz doubly stochastic, transformando misturas em combinações convexas e controlando o ganho.

Quanto custa em tempo e memória usar mHC?
Com n=4 e 20 iterações, o treino ficou ~6,7% mais lento; otimizações de implementação reduzem o impacto.

Os ganhos valem o custo?
Nos experimentos da DeepSeek, sim: Amax caiu drasticamente (~3000 → ~1.6) e desempenho em benchmarks melhorou, com treino mais estável.

Onde aprender mais sobre arquiteturas relacionadas?
Para explorar arquiteturas e como elas mudam a percepção e raciocínio das máquinas, veja artigos sobre arquiteturas de IA e sobre mecanismos de atenção (mecanismos de atenção e suas aplicações), que ajudam a posicionar o mHC dentro do ecossistema de design de modelos.

Se você quiser conhecer outros artigos semelhantes a DeepSeek usa algoritmo antigo para estabilizar hiperconexões em modelos de linguagem, você pode visitar a categoria Notícias e Tendências.