- Ouça este artigo
- Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100
- O que é nanochat
- Como funciona o speedrun
- Dados de mid‑training e SFT
- Resultados do speedrun
- Uso de ferramentas e RL simplificado
- Escalabilidade e alvos maiores
- O que isso significa para você
- Conclusão
- Onde ler mais
Ouça este artigo
Você vai ficar por dentro do nanochat, a nova ferramenta aberta do Andrej Karpathy que coloca nas suas mãos um pipeline ChatGPT completo e enxuto. Ele reúne tokenizador, pré‑treino, adaptação para conversas, afinamento supervisionado (SFT) e treinamento por reforço opcional, tudo pensado para rodar em um único nó multi‑GPU. O código é minimalista, com poucas dependências, vem com um script de execução rápida e uma pequena interface web para testar e iterar (veja opções práticas de criação de interfaces e automações em ferramentas no-code e RAGFlow). Este artigo explica o fluxo, os resultados e as escolhas práticas para você reproduzir e experimentar seu próprio modelo de chat. (Fonte e cobertura técnica: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/)
- Repositório pequeno que entrega um pipeline ChatGPT completo
- Inclui tokenizador, pré‑treino, adaptação por conversa, ajuste fino e avaliação em fluxo único
- Projetado para rodar rápido e barato em servidores com GPUs (veja técnicas de escala e eficiência com DeepSpeed e a nova extensão ZenFlow)
- Suporta uso de ferramentas e treino por reforço simplificado para melhorar respostas
- Gera relatório com métricas e oferece interface web minimalista para testar o modelo
Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100
Você pode rodar um pipeline completo de chat estilo ChatGPT usando nanochat, um repositório open‑source leve que cobre desde a tokenização até a interface web. O fluxo speedrun recomendado roda em uma máquina com 8×H100, leva cerca de ~4 horas e custa perto de US$100, segundo o repositório e cobertura técnica em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.
O que é nanochat
- Código pequeno e com poucas dependências, focado em clareza e modificabilidade.
- Integra treinamento do tokenizer, pré‑treino, mid‑training em conversas, SFT, opção de RL simplificado e um servidor com UI tipo ChatGPT.
- Inclui um engine com cache KV, prefill/decode e um sandbox Python para execução de ferramentas (veja exemplos de modelos que operam interfaces e automações em Smol2Operator).
- Ao final gera um arquivo report.md com métricas, tempos e logs do experimento.
Como funciona o speedrun
O processo é orquestrado por um único script que encadeia as etapas principais:
- Treinar tokenizer e preparar dados.
- Pré‑treino do modelo base.
- Mid‑training com dados de conversação, múltipla escolha e uso de ferramentas.
- SFT em conversas de maior qualidade.
- Opcional: RL simplificado em GSM8K.
- Avaliação automática.
- Servir o modelo (CLI e web UI).
Detalhes do setup no exemplo:
- Transformer de 20 camadas (~560M parâmetros).
- Treino em ~11.2B tokens (escala Chinchilla).
- Operações de matriz via Muon e otimização com AdamW.
- Métrica de perda reportada em bits‑por‑byte (bpb) para independência do tokenizer.
- Para reduzir custos e latência em deploy, técnicas de quantização e aceleração podem ser aplicadas seguindo guias como Hugging Face Optimum ONNX/quantização.
Dados de mid‑training e SFT
- Mistura padrão: SmolTalk (~460K linhas), MMLU auxiliar (~100K), GSM8K (~8K). Total ≈568K linhas.
- Mid‑training inclui marcações para uso de ferramentas (blocos que ativam o interpretador Python).
- SFT ajusta formato e padding para reduzir divergência entre treino e inferência.
- Para gerenciar grandes volumes de dados de treino com eficiência, formatos e ferramentas como Zarr são úteis.
- Se precisar criar ou enriquecer datasets sem desenvolver pipelines complexos, ferramentas no‑code como AI Sheets e fluxos de RAG podem acelerar a etapa de anotação.
Resultados do speedrun
A execução rápida gera um relatório com métricas de avaliação. Valores de exemplo (base → pós SFT):
| Métrica | Base | Pós SFT |
|---|---|---|
| CORE | 0.2219 | — |
| ARC‑Easy | 0.3561 | 0.3876 |
| ARC‑Challenge | 0.2875 | 0.2807 |
| MMLU | 0.3111 | 0.3151 |
| GSM8K | 0.0250 | 0.0455 |
| HumanEval | 0.0671 | 0.0854 |
| ChatCORE | 0.0730 | 0.0884 |
| Tempo de execução | — | ~3h51m |
Uso de ferramentas e RL simplificado
- Ferramentas integradas via blocos de código que acionam o interpretador Python interno (padrões semelhantes aos usados em projetos que treinam modelos para operar interfaces podem ser consultados em Smol2Operator).
- Etapa opcional de RL usa um laço chamado GRPO.
- Não implementa PPO completo (sem modelo de referência, sem penalidade KL, atualizações não‑on‑policy); o comportamento aproxima‑se de REINFORCE com normalização de vantagem em grupo.
- Scripts de exemplo para RL e avaliação acompanham o repositório.
Escalabilidade e alvos maiores
- O repositório indica caminhos simples para treinos maiores (trocar configurações e aumentar recursos).
- Experimentos maiores (por exemplo, d=30 por ~24h) mostraram ganhos em MMLU, ARC e GSM8K.
- Escalar tempo, dados ou tamanho do modelo é o caminho para desempenho competitivo.
- Para lidar com contextos muito longos ou acelerar decodificação em modelos maiores, técnicas e projetos como Refrag ajudam a processar contextos extensos, enquanto estratégias de inferência especulativa podem reduzir latência e custo (veja cascatas especulativas).
- Em termos de hardware e infra, novidades como aceleradores e instâncias otimizadas impactam custo‑benefício (ex.: comparativos e anúncios de soluções de inferência/infra estão disponíveis em Nemotron Nano‑2 e lançamentos de modelos locais eficientes).
O que isso significa para você
- Reprodutibilidade: fluxo end‑to‑end rastreável com report.md.
- Acessibilidade: ciclo completo experimentável em uma única máquina multi‑GPU.
- Controle: código simples e fácil de modificar e estudar.
- Limitações: resultados do speedrun são modestos; RL é prático, porém simplificado — use sandbox e cautela antes de produção.
Conclusão
O nanochat é uma caixa de ferramentas enxuta que entrega um pipeline end‑to‑end do tokenizador à interface web, permitindo experimentar um ChatGPT‑like em ~4 horas por cerca de US$100. O valor está na reprodutibilidade, no controle do fluxo e na facilidade para testar ideias sem infra complexa. Para competir com grandes modelos será preciso escalar tempo, dados ou tamanho do modelo. Mais detalhes técnicos e cobertura podem ser encontrados em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.
Se quer aprender mexendo, experimentar prompt‑tooling ou estudar treinamento prático, este repositório é um ponto de partida valioso — combine-o com guias de otimização e ferramentas no‑code como Hugging Face Optimum e ONNX e AI Sheets para acelerar experimentos.
Onde ler mais
- Cobertura original e detalhes técnicos: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/
- Documentação e práticas de tokenização e chunking: Entenda tokenização e chunking
- Escala e memória: Como usar DeepSpeed para escalar Transformers
- Eliminação de paradas durante treino: ZenFlow (extensão DeepSpeed)
- Gerenciamento de datasets grandes: Usando Zarr para dados massivos
- Inference e quantização: Optimum ONNX/quantização
- Ferramentas no‑code e RAG para experimentar rapidamente: Criar IA sem programar
- Técnicas para contextos longos: Refrag para contextos longos
- Exemplos de modelos locais e eficientes: Modelos locais / GPT‑4o‑mini
- Estratégias para reduzir latência e custos: Cascatas especulativas



