Você melhora a precisão dos LLMs usando todas as camadas

7 meses ago · Updated 7 meses ago

voce-melhora-a-precisao-dos-llms-usando-todas-as-camadas
Table
  1. Ouça este artigo
  2. SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.Principais benefícios Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis. Não requer bases externas nem fine-tuning adicional. Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%). Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS). Pode ser combinado com outros decodificadores ou ajustes específicos. O problema
  3. Como SLED funciona (visão prática)
  4. Exemplos práticos
  5. Testes e benchmarks
  6. Limitações e trade-offs
  7. Aplicações potenciais
  8. Código e equipe
  9. Conclusão
  10. Perguntas frequentes

Ouça este artigo


SLED — decodificação que usa todas as camadas para tornar LLMs mais precisos

Você vai conhecer o SLED, uma técnica de decodificação criada por Cyrus Rashtchian e Da-Cheng Juan (Google Research) que melhora a factualidade e reduz alucinações ao aproveitar sinais de todas as camadas do modelo. O método foi apresentado em NeurIPS 2024 e descrito no post oficial (https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/). O código também está disponível publicamente no GitHub.

Principais benefícios

  • Usa saídas de todas as camadas do modelo (não só a última) para escolher tokens mais confiáveis.
  • Não requer bases externas nem fine-tuning adicional.
  • Mostra ganhos de até 16% em alguns benchmarks, com aumento de latência pequeno (~4%).
  • Funciona em várias famílias de modelos (Gemma 3, Mistral, GPT-OSS).
  • Pode ser combinado com outros decodificadores ou ajustes específicos.

O problema

LLMs ainda cometem erros factuais (alucinações) por causa de dados incompletos, vieses ou padrões aprendidos. As soluções comuns (recuperação externa, fine-tuning) aumentam a complexidade e nem sempre resolvem o problema. SLED oferece uma alternativa simples no próprio processo de decodificação.

Como SLED funciona (visão prática)

  • Modelos Transformer geram previsões token a token; cada camada produz logits.
  • O padrão é usar apenas a última camada para escolher o próximo token.
  • SLED reaplica a matriz de projeção final às saídas das camadas intermediárias, transformando esses vetores em distribuições sobre tokens.
  • Essas distribuições são combinadas por média ponderada, resultando em uma probabilidade final que incorpora sinais de toda a rede.

Por que isso ajuda: camadas intermediárias podem conter pistas factuais ou raciocínios que a camada final ignora por ter aprendido padrões de superfície. Considerando todas as camadas, SLED corrige escolhas enviesadas e reduz erros.

Este método está documentado no post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Exemplos práticos

  • Pergunta geográfica: Qual é a capital da Colúmbia Britânica?
    Resultado: modelos tendem a preferir Vancouver por frequência, mas SLED eleva a probabilidade de Victoria, a resposta correta.
  • Cálculo com desconto: 6 unidades a 10 cada, 10% de desconto para 4 unidades. Modelos muitas vezes produzem 6 x 10 = 60, ignorando desconto. Camadas intermediárias indicam x 0.9; SLED captura esse sinal e chega a 54.

Testes e benchmarks

Tarefas avaliadas:

  • Múltipla escolha (FACTOR, divisões de TruthfulQA)
  • Geração aberta que exige alinhamento factual
  • Raciocínio em cadeia (chain-of-thought)

Modelos testados incluem Gemma 3, Mistral e GPT-OSS. Resultados principais:

  • Melhorias consistentes sobre o decodificador padrão.
  • Ganhos de até ~16% em alguns conjuntos, comparando com o modelo original e com o método DoLa.
  • Latência de inferência aumenta modestamente (~4% sobre DoLa).

Detalhes e avaliações adicionais estão no artigo do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Limitações e trade-offs

  • Custo de tempo: inferência ligeiramente mais lenta por analisar todas as camadas.
  • Não substitui fontes externas quando o modelo carece de informação atualizada.
  • Pode ser combinado com fine-tuning supervisionado para ganhos em domínios específicos, mas não elimina a necessidade de dados de qualidade para conhecimento novo.

Aplicações potenciais

  • Sistemas de pergunta e resposta que exigem factualidade maior.
  • Assistentes que geram código, explicações técnicas ou conteúdo jurídico/financeiro (com validação humana).
  • Extensões para tarefas multimodais (perguntas visuais) e geração de textos longos.
  • Combinação com outros métodos de decodificação para reduzir ainda mais as alucinações.

Código e equipe

O repositório com o código SLED está disponível no GitHub para testes e integração. O trabalho foi publicado por pesquisadores do Google Research (NeurIPS 2024) com contribuições de colaboradores e estudantes. Leia o post oficial para detalhes técnicos: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Conclusão

SLED é uma mudança conceitual simples e prática: ao "ouvir" todas as camadas do modelo em vez de confiar apenas na última saída, é possível obter respostas mais confiáveis e menos alucinações sem recorrer a dados externos ou re-treinamento. Os ganhos podem chegar a ~16% em acurácia por um custo de latência reduzido (~4%). Para experimentar, consulte o código no GitHub e o post do Google Research: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Perguntas frequentes

  • O que é SLED e como ajuda a precisão ao usar todas as camadas?
    SLED é um método de decodificação que combina logits de todas as camadas para refinar probabilidades, reduzindo alucinações e melhorando factualidade.
  • Como SLED transforma logits de camadas intermediárias em previsões?
    Reusa a matriz de projeção final sobre as saídas intermediárias, gera distribuições por camada e faz uma média ponderada para obter a probabilidade final.
  • Precisa de dados externos ou fine-tuning para funcionar?
    Não. SLED atua apenas no processo de decodificação; não exige bases externas nem ajuste fino.
  • Qual o custo em performance e latência?
    Há um pequeno custo de latência (cerca de 4% em relação ao método DoLa), com ganho em precisão e redução de erros factuais.
  • Em quais modelos e tarefas SLED traz ganhos?
    Testado em Gemma 3, Mistral, GPT-OSS e outros. Funciona bem em múltipla escolha, respostas abertas e raciocínio passo a passo, com aumentos de acurácia que podem chegar a ~16%.

Fonte principal e leitura complementar: https://research.google/blog/making-llms-more-accurate-by-using-all-of-their-layers/.

Se você quiser conhecer outros artigos semelhantes a Você melhora a precisão dos LLMs usando todas as camadas, você pode visitar a categoria Dicas.

Go up