IBM e ETH Zürich criam modelos analógicos que ajudam seu dispositivo a rodar modelos de linguagem mesmo com ruído

7 meses ago · Updated 7 meses ago

ibm-e-eth-zurich-criam-modelos-analogicos-que-ajudam-seu-dispositivo-a-rodar-modelos-de-linguagem-me

Ouça este artigo

Modelos Fundamentais Analógicos: como IBM e ETH Zürich enfrentam o ruído em AIMC

Você quer rodar modelos grandes no seu aparelho gastando muito menos energia? Pesquisadores da IBM e da ETH Zürich apresentaram os Analog Foundation Models (AFMs), uma abordagem para tolerar o ruído que compromete a Computação Analógica em Memória (AIMC). O estudo (detalhado em https://www.marktechpost.com/2025/09/21/ibm-and-eth-zurich-researchers-unveil-analog-foundation-models-to-tackle-noise-in-in-memory-ai-hardware/) mostra que AFMs, treinados com conhecimento do hardware, mantêm precisão e tornam viável executar LLMs fora do data center — um objetivo relacionado a iniciativas que permitem usar modelos localmente em computador ou celular, como explorado em modelos que rodam no dispositivo.

Fonte do estudo: https://www.marktechpost.com/2025/09/21/ibm-and-eth-zurich-researchers-unveil-analog-foundation-models-to-tackle-noise-in-in-memory-ai-hardware/

Principais benefícios em poucas linhas

AIMC reduz drasticamente consumo e latência ao realizar multiplicações matriz–vetor na própria memória.

O grande obstáculo é o ruído estocástico do hardware (variabilidade NVM, erros DAC/ADC, flutuações operacionais).

AFMs são treinados para tolerar esse ruído, preservando desempenho de LLMs grandes.

Eles também melhoram a robustez em hardware digital de baixa precisão.

Por que AIMC é promissor — e por que falhava
AIMC minimiza o movimento de dados (gargalo de von Neumann), permitindo acelerar modelos com bilhões de parâmetros em aceleradores compactos ou na borda. Na prática, ruído imprevisível nos dispositivos analógicos tinha quebrado a acurácia de LLMs, enquanto quantizações determinísticas em GPUs eram mais fáceis de controlar. AFMs atacam exatamente essa fragilidade, aplicando práticas que lembram técnicas de controle de sensibilidade em transformadores, como limites Lipschitz e otimizadores especializados, descritos em pesquisas correlatas sobre controle da sensibilidade de transformers.

Como os Analog Foundation Models funcionam
O pipeline proposto treina modelos com consciência do hardware, simulando os efeitos analógicos durante o treinamento e aplicando técnicas para reduzir sensibilidade ao ruído:

simulação de ruído durante o treino (hardware-aware training);

clipping e regularização de activations e pesos;

quantização e calibração específicas para ambientes analógicos;

validação com AIHWKIT-Lightning para reproduzir comportamento do hardware.

Para reduzir impacto da quantização e calibrar melhor as camadas, o trabalho se beneficia de abordagens que exploram informação de todas as camadas do modelo para melhorar precisão após compressões, alinhado a ideias apresentadas em melhor uso de todas as camadas para quantização.

Resultados práticos

Modelos como Phi-3-mini-4k-instruct e Llama-3.2-1B-Instruct mantiveram desempenho competitivo versus baselines quantizados (4-bit peso / 8-bit ativação) sob ruído analógico.

AFMs também melhoraram desempenho em hardware digital de baixa precisão, tolerando melhor quantização round-to-nearest do que métodos tradicionais.

Em benchmarks que aumentam o orçamento de inferência (por exemplo MATH-500 gerando múltiplas respostas e selecionando a melhor), AFMs escalam bem e reduzem a diferença para modelos treinados com quantização convencional — uma estratégia relacionada a técnicas de aceleração e custo de inferência como as descritas em cascatas especulativas.

Limitações e pontos a observar

Treinar AFMs é caro em recursos computacionais; práticas de escalonamento de treino e memória podem ajudar, como discutido em guias sobre escalar transformers com menos memória.

Em tarefas de raciocínio complexo (GSM8K, etc.) ainda existem lacunas de desempenho a serem fechadas.

A solução demanda integração estreita entre times de modelagem e engenharia de hardware.

Impacto para IA na borda
AFMs tornam plausível executar LLMs grandes em dispositivos de borda com consumo significativamente menor, oferecendo:

maior autonomia energética;

menor latência por inferência local;

flexibilidade operacional ao suportar também infra digital de baixa precisão.

Essa visão de IA de borda se conecta ao desenvolvimento de hardware e runtimes voltados para aplicações embarcadas — desde processadores e plataformas como NVIDIA Jetson Thor até modelos compactos prontos para empresas, como os apresentados em Nemotron Nano 2, e runtimes que facilitam publicar e coordenar agentes entre frameworks, por exemplo com suporte a runtimes nativos para agentes.

Leitura recomendada e referência
Leia o artigo detalhado sobre o trabalho em: https://www.marktechpost.com/2025/09/21/ibm-and-eth-zurich-researchers-unveil-analog-foundation-models-to-tackle-noise-in-in-memory-ai-hardware/

Conclusão
Analog Foundation Models representam um avanço prático: ao treinar modelos com consciência do hardware, é possível mitigar o ruído analógico que antes impedia o uso de LLMs em AIMC. A técnica não é mágica — exige treino caro e ainda tem desafios em tarefas de raciocínio — mas é um passo importante para levar modelos grandes para dispositivos menores e mais eficientes.

Perguntas frequentes (respostas breves)

Por que a computação analógica importa para LLMs?
Porque permite executar modelos muito grandes com consumo e latência reduzidos, viabilizando uso na borda.

Qual é o maior desafio do AIMC?
O ruído estocástico do hardware (variabilidade NVM, erros DAC/ADC, flutuações).

Como os AFMs lidam com esse ruído?
Treinando com simulação de ruído, aplicando clipping/calibração e ajustando quantização para o ambiente analógico.

AFMs funcionam só em hardware analógico?
Não — também ajudam em hardware digital de baixa precisão.

O desempenho melhora se eu aumentar o compute na inferência?
Sim — estratégias como gerar várias respostas e selecionar a melhor aumentam a precisão e beneficiam AFMs.

Fonte extra e leitura contínua
Para mais contexto técnico e atualizações, consulte a reportagem original em https://www.marktechpost.com/2025/09/21/ibm-and-eth-zurich-researchers-unveil-analog-foundation-models-to-tackle-noise-in-in-memory-ai-hardware/ e acompanhe publicações sobre AIMC e AFMs. Para temas afins — execução local de modelos, quantização e otimização de treino — veja também materiais sobre modelos que rodam no dispositivo, técnicas de quantização por camadas e estratégias para reduzir custo de treino.

Se você quiser conhecer outros artigos semelhantes a IBM e ETH Zürich criam modelos analógicos que ajudam seu dispositivo a rodar modelos de linguagem mesmo com ruído, você pode visitar a categoria Notícias e Tendências.