Você melhora a precisão dos LLMs usando todas as camadas

7 meses ago · Updated 7 meses ago

voce-melhora-a-precisao-dos-llms-usando-todas-as-camadas

Table

Ouça este artigo
SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.Principais benefícios Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis. Não requer bases externas nem fine-tuning adicional. Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%). Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS). Pode ser combinado com outros decodificadores ou ajustes específicos. O problema
Como SLED funciona (visão prática)
Exemplos práticos
Testes e benchmarks
Limitações e trade-offs
Aplicações potenciais
Código e equipe
Conclusão
Perguntas frequentes

Ouça este artigo

SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos

Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.

Principais benefícios

Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis.

Não requer bases externas nem fine-tuning adicional.

Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%).

Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS).

Pode ser combinado com outros decodificadores ou ajustes específicos.

O problema

LLMs ainda cometem erros factuais (alucinações) por causa de dados incompletos, vieses ou padrões aprendidos. As soluções comuns (recuperação externa, fine-tuning) aumentam a complexidade e nem sempre resolvem o problema. SLED oferece uma alternativa simples no próprio processo de decodificação.

Como SLED funciona (visão prática)

Modelos Transformer geram previsões token a token; cada camada produz logits.

O padrão é usar apenas a última camada para escolher o próximo token.

SLED reaplica a matriz de projeção final às saídas das camadas intermediárias, transformando esses vetores em distribuições sobre tokens.

Essas distribuições são combinadas por média ponderada, resultando em uma probabilidade final que incorpora sinais de toda a rede.

Por que isso ajuda: camadas intermediárias podem conter pistas factuais ou raciocínios que a camada final ignora por ter aprendido padrões de superfície. Considerando todas as camadas, SLED corrige escolhas enviesadas e reduz erros.

Este método está documentado no post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Exemplos práticos

Pergunta geográfica: Qual é a capital da Colúmbia Britânica?
Resultado: modelos tendem a preferir Vancouver por frequência, mas SLED eleva a probabilidade de Victoria, a resposta correta.

Cálculo com desconto: 6 unidades a 10 cada, 10% de desconto para 4 unidades. Modelos muitas vezes produzem 6 x 10 = 60, ignorando desconto. Camadas intermediárias indicam x 0.9; SLED captura esse sinal e chega a 54.

Testes e benchmarks

Tarefas avaliadas:

Múltipla escolha (FACTOR, divisões de TruthfulQA)

Geração aberta que exige alinhamento factual

Raciocínio em cadeia (chain-of-thought)

Modelos testados incluem Gemma 3, Mistral e GPT-OSS. Resultados principais:

Melhorias consistentes sobre o decodificador padrão.

Ganhos de até ~16% em alguns conjuntos, comparando com o modelo original e com o método DoLa.

Latência de inferência aumenta modestamente (~4% sobre DoLa).

Detalhes e avaliações adicionais estão no artigo do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Limitações e trade-offs

Custo de tempo: inferência ligeiramente mais lenta por analisar todas as camadas.

Não substitui fontes externas quando o modelo carece de informação atualizada.

Pode ser combinado com fine-tuning supervisionado para ganhos em domínios específicos, mas não elimina a necessidade de dados de qualidade para conhecimento novo.

Aplicações potenciais

Sistemas de pergunta e resposta que exigem factualidade maior.

Assistentes que geram código, explicações técnicas ou conteúdo jurídico/financeiro (com validação humana).

Extensões para tarefas multimodais (perguntas visuais) e geração de textos longos.

Combinação com outros métodos de decodificação para reduzir ainda mais as alucinações.

Código e equipe

O repositório com o código SLED está disponível no GitHub para testes e integração. O trabalho foi publicado por pesquisadores do Google Research (NeurIPS 2024) com contribuições de colaboradores e estudantes. Leia o post oficial para detalhes técnicos: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Conclusão

SLED é uma mudança conceitual simples e prática: ao "ouvir" todas as camadas do modelo em vez de confiar apenas na última saída, é possível obter respostas mais confiáveis e menos alucinações sem recorrer a dados externos ou re-treinamento. Os ganhos podem chegar a ~16% em acurácia por um custo de latência reduzido (~4%). Para experimentar, consulte o código no GitHub e o post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Perguntas frequentes

O que é SLED e como ajuda a precisão ao usar todas as camadas?
SLED é um método de decodificação que combina logits de todas as camadas para refinar probabilidades, reduzindo alucinações e melhorando factualidade.

Como SLED transforma logits de camadas intermediárias em previsões?
Reusa a matriz de projeção final sobre as saídas intermediárias, gera distribuições por camada e faz uma média ponderada para obter a probabilidade final.

Precisa de dados externos ou fine-tuning para funcionar?
Não. SLED atua apenas no processo de decodificação; não exige bases externas nem ajuste fino.

Qual o custo em performance e latência?
Há um pequeno custo de latência (cerca de 4% em relação ao método DoLa), com ganho em precisão e redução de erros factuais.

Em quais modelos e tarefas SLED traz ganhos?
Testado em Gemma 3, Mistral, GPT-OSS e outros. Funciona bem em múltipla escolha, respostas abertas e raciocínio passo a passo, com aumentos de acurácia que podem chegar a ~16%.

Fonte principal e leitura complementar: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Se você quiser conhecer outros artigos semelhantes a Você melhora a precisão dos LLMs usando todas as camadas, você pode visitar a categoria Dicas.