Notícias e Tendências

Você pode treinar seu próprio ChatGPT rápido e barato com o novo nanochat de Karpathy

Descubra como treinar seu próprio ChatGPT rápido e barato com o novo nanochat do Karpathy – passo a passo simples que surpreende.

voce-pode-treinar-seu-proprio-chatgpt-rapido-e-barato-com-o-novo-nanochat-de-karpathy

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Ouça este artigo


🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Você vai ficar por dentro do nanochat, a nova ferramenta aberta do Andrej Karpathy que coloca nas suas mãos um pipeline ChatGPT completo e enxuto. Ele reúne tokenizador, pré‑treino, adaptação para conversas, afinamento supervisionado (SFT) e treinamento por reforço opcional, tudo pensado para rodar em um único nó multi‑GPU. O código é minimalista, com poucas dependências, vem com um script de execução rápida e uma pequena interface web para testar e iterar (veja opções práticas de criação de interfaces e automações em ferramentas no-code e RAGFlow). Este artigo explica o fluxo, os resultados e as escolhas práticas para você reproduzir e experimentar seu próprio modelo de chat. (Fonte e cobertura técnica: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/)

  • Repositório pequeno que entrega um pipeline ChatGPT completo
  • Inclui tokenizador, pré‑treino, adaptação por conversa, ajuste fino e avaliação em fluxo único
  • Projetado para rodar rápido e barato em servidores com GPUs (veja técnicas de escala e eficiência com DeepSpeed e a nova extensão ZenFlow)
  • Suporta uso de ferramentas e treino por reforço simplificado para melhorar respostas
  • Gera relatório com métricas e oferece interface web minimalista para testar o modelo

Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100

Você pode rodar um pipeline completo de chat estilo ChatGPT usando nanochat, um repositório open‑source leve que cobre desde a tokenização até a interface web. O fluxo speedrun recomendado roda em uma máquina com 8×H100, leva cerca de ~4 horas e custa perto de US$100, segundo o repositório e cobertura técnica em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.

O que é nanochat

  • Código pequeno e com poucas dependências, focado em clareza e modificabilidade.
  • Integra treinamento do tokenizer, pré‑treino, mid‑training em conversas, SFT, opção de RL simplificado e um servidor com UI tipo ChatGPT.
  • Inclui um engine com cache KV, prefill/decode e um sandbox Python para execução de ferramentas (veja exemplos de modelos que operam interfaces e automações em Smol2Operator).
  • Ao final gera um arquivo report.md com métricas, tempos e logs do experimento.

Como funciona o speedrun

O processo é orquestrado por um único script que encadeia as etapas principais:

  • Treinar tokenizer e preparar dados.
  • Pré‑treino do modelo base.
  • Mid‑training com dados de conversação, múltipla escolha e uso de ferramentas.
  • SFT em conversas de maior qualidade.
  • Opcional: RL simplificado em GSM8K.
  • Avaliação automática.
  • Servir o modelo (CLI e web UI).

Detalhes do setup no exemplo:

  • Transformer de 20 camadas (~560M parâmetros).
  • Treino em ~11.2B tokens (escala Chinchilla).
  • Operações de matriz via Muon e otimização com AdamW.
  • Métrica de perda reportada em bits‑por‑byte (bpb) para independência do tokenizer.

Dados de mid‑training e SFT

  • Mistura padrão: SmolTalk (~460K linhas), MMLU auxiliar (~100K), GSM8K (~8K). Total ≈568K linhas.
  • Mid‑training inclui marcações para uso de ferramentas (blocos que ativam o interpretador Python).
  • SFT ajusta formato e padding para reduzir divergência entre treino e inferência.
  • Para gerenciar grandes volumes de dados de treino com eficiência, formatos e ferramentas como Zarr são úteis.
  • Se precisar criar ou enriquecer datasets sem desenvolver pipelines complexos, ferramentas no‑code como AI Sheets e fluxos de RAG podem acelerar a etapa de anotação.

Resultados do speedrun

A execução rápida gera um relatório com métricas de avaliação. Valores de exemplo (base → pós SFT):

Métrica Base Pós SFT
CORE 0.2219
ARC‑Easy 0.3561 0.3876
ARC‑Challenge 0.2875 0.2807
MMLU 0.3111 0.3151
GSM8K 0.0250 0.0455
HumanEval 0.0671 0.0854
ChatCORE 0.0730 0.0884
Tempo de execução ~3h51m

Uso de ferramentas e RL simplificado

  • Ferramentas integradas via blocos de código que acionam o interpretador Python interno (padrões semelhantes aos usados em projetos que treinam modelos para operar interfaces podem ser consultados em Smol2Operator).
  • Etapa opcional de RL usa um laço chamado GRPO.
  • Não implementa PPO completo (sem modelo de referência, sem penalidade KL, atualizações não‑on‑policy); o comportamento aproxima‑se de REINFORCE com normalização de vantagem em grupo.
  • Scripts de exemplo para RL e avaliação acompanham o repositório.

Escalabilidade e alvos maiores

  • O repositório indica caminhos simples para treinos maiores (trocar configurações e aumentar recursos).
  • Experimentos maiores (por exemplo, d=30 por ~24h) mostraram ganhos em MMLU, ARC e GSM8K.
  • Escalar tempo, dados ou tamanho do modelo é o caminho para desempenho competitivo.
  • Para lidar com contextos muito longos ou acelerar decodificação em modelos maiores, técnicas e projetos como Refrag ajudam a processar contextos extensos, enquanto estratégias de inferência especulativa podem reduzir latência e custo (veja cascatas especulativas).
  • Em termos de hardware e infra, novidades como aceleradores e instâncias otimizadas impactam custo‑benefício (ex.: comparativos e anúncios de soluções de inferência/infra estão disponíveis em Nemotron Nano‑2 e lançamentos de modelos locais eficientes).

O que isso significa para você

  • Reprodutibilidade: fluxo end‑to‑end rastreável com report.md.
  • Acessibilidade: ciclo completo experimentável em uma única máquina multi‑GPU.
  • Controle: código simples e fácil de modificar e estudar.
  • Limitações: resultados do speedrun são modestos; RL é prático, porém simplificado — use sandbox e cautela antes de produção.

Conclusão

O nanochat é uma caixa de ferramentas enxuta que entrega um pipeline end‑to‑end do tokenizador à interface web, permitindo experimentar um ChatGPT‑like em ~4 horas por cerca de US$100. O valor está na reprodutibilidade, no controle do fluxo e na facilidade para testar ideias sem infra complexa. Para competir com grandes modelos será preciso escalar tempo, dados ou tamanho do modelo. Mais detalhes técnicos e cobertura podem ser encontrados em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.

Se quer aprender mexendo, experimentar prompt‑tooling ou estudar treinamento prático, este repositório é um ponto de partida valioso — combine-o com guias de otimização e ferramentas no‑code como Hugging Face Optimum e ONNX e AI Sheets para acelerar experimentos.

Onde ler mais

  • Cobertura original e detalhes técnicos: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/

🤖 Encontre as Melhores Ferramentas de IA

Descubra, compare e escolha as melhores ferramentas de inteligência artificial para aumentar sua produtividade e resultados.

🚀 Acessar AI Directory

O maior diretório de ferramentas de IA do Brasil

Compartilhe:

Fernando Vale

Fernando Vale é empreendedor digital e especialista em automação com inteligência artificial. Criador do AI Directory, dedica-se a organizar e divulgar as melhores ferramentas de IA, ajudando profissionais e empresas a ganharem produtividade, escala e vantagem competitiva no mercado digital.

Site do Autor