Você melhora a precisão dos LLMs usando todas as camadas
7 meses ago · Updated 7 meses ago

- Ouça este artigo
- SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.Principais benefícios Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis. Não requer bases externas nem fine-tuning adicional. Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%). Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS). Pode ser combinado com outros decodificadores ou ajustes específicos. O problema
- Como SLED funciona (visão prática)
- Exemplos práticos
- Testes e benchmarks
- Limitações e trade-offs
- Aplicações potenciais
- Código e equipe
- Conclusão
- Perguntas frequentes
Ouça este artigo
SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos
Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.
Principais benefícios
- Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis.
- Não requer bases externas nem fine-tuning adicional.
- Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%).
- Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS).
- Pode ser combinado com outros decodificadores ou ajustes específicos.
O problema
LLMs ainda cometem erros factuais (alucinações) por causa de dados incompletos, vieses ou padrões aprendidos. As soluções comuns (recuperação externa, fine-tuning) aumentam a complexidade e nem sempre resolvem o problema. SLED oferece uma alternativa simples no próprio processo de decodificação.
Como SLED funciona (visão prática)
- Modelos Transformer geram previsões token a token; cada camada produz logits.
- O padrão é usar apenas a última camada para escolher o próximo token.
- SLED reaplica a matriz de projeção final às saídas das camadas intermediárias, transformando esses vetores em distribuições sobre tokens.
- Essas distribuições são combinadas por média ponderada, resultando em uma probabilidade final que incorpora sinais de toda a rede.
Por que isso ajuda: camadas intermediárias podem conter pistas factuais ou raciocínios que a camada final ignora por ter aprendido padrões de superfície. Considerando todas as camadas, SLED corrige escolhas enviesadas e reduz erros.
Este método está documentado no post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.
Exemplos práticos
- Pergunta geográfica: Qual é a capital da Colúmbia Britânica?
Resultado: modelos tendem a preferir Vancouver por frequência, mas SLED eleva a probabilidade de Victoria, a resposta correta.
- Cálculo com desconto: 6 unidades a 10 cada, 10% de desconto para 4 unidades. Modelos muitas vezes produzem 6 x 10 = 60, ignorando desconto. Camadas intermediárias indicam x 0.9; SLED captura esse sinal e chega a 54.
Testes e benchmarks
Tarefas avaliadas:
- Múltipla escolha (FACTOR, divisões de TruthfulQA)
- Geração aberta que exige alinhamento factual
- Raciocínio em cadeia (chain-of-thought)
Modelos testados incluem Gemma 3, Mistral e GPT-OSS. Resultados principais:
- Melhorias consistentes sobre o decodificador padrão.
- Ganhos de até ~16% em alguns conjuntos, comparando com o modelo original e com o método DoLa.
- Latência de inferência aumenta modestamente (~4% sobre DoLa).
Detalhes e avaliações adicionais estão no artigo do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.
Limitações e trade-offs
- Custo de tempo: inferência ligeiramente mais lenta por analisar todas as camadas.
- Não substitui fontes externas quando o modelo carece de informação atualizada.
- Pode ser combinado com fine-tuning supervisionado para ganhos em domínios específicos, mas não elimina a necessidade de dados de qualidade para conhecimento novo.
Aplicações potenciais
- Sistemas de pergunta e resposta que exigem factualidade maior.
- Assistentes que geram código, explicações técnicas ou conteúdo jurídico/financeiro (com validação humana).
- Extensões para tarefas multimodais (perguntas visuais) e geração de textos longos.
- Combinação com outros métodos de decodificação para reduzir ainda mais as alucinações.
Código e equipe
O repositório com o código SLED está disponível no GitHub para testes e integração. O trabalho foi publicado por pesquisadores do Google Research (NeurIPS 2024) com contribuições de colaboradores e estudantes. Leia o post oficial para detalhes técnicos: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.
Conclusão
SLED é uma mudança conceitual simples e prática: ao "ouvir" todas as camadas do modelo em vez de confiar apenas na última saída, é possível obter respostas mais confiáveis e menos alucinações sem recorrer a dados externos ou re-treinamento. Os ganhos podem chegar a ~16% em acurácia por um custo de latência reduzido (~4%). Para experimentar, consulte o código no GitHub e o post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.
Perguntas frequentes
- O que é SLED e como ajuda a precisão ao usar todas as camadas?
SLED é um método de decodificação que combina logits de todas as camadas para refinar probabilidades, reduzindo alucinações e melhorando factualidade.
- Como SLED transforma logits de camadas intermediárias em previsões?
Reusa a matriz de projeção final sobre as saídas intermediárias, gera distribuições por camada e faz uma média ponderada para obter a probabilidade final.
- Precisa de dados externos ou fine-tuning para funcionar?
Não. SLED atua apenas no processo de decodificação; não exige bases externas nem ajuste fino.
- Qual o custo em performance e latência?
Há um pequeno custo de latência (cerca de 4% em relação ao método DoLa), com ganho em precisão e redução de erros factuais.
- Em quais modelos e tarefas SLED traz ganhos?
Testado em Gemma 3, Mistral, GPT-OSS e outros. Funciona bem em múltipla escolha, respostas abertas e raciocínio passo a passo, com aumentos de acurácia que podem chegar a ~16%.
Fonte principal e leitura complementar: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.
Se você quiser conhecer outros artigos semelhantes a Você melhora a precisão dos LLMs usando todas as camadas, você pode visitar a categoria Dicas.
