Você pode treinar seu próprio ChatGPT rápido e barato com o novo nanochat de Karpathy

Neste artigo:

Ouça este artigo
Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100
O que é nanochat
Como funciona o speedrun
Dados de mid‑training e SFT
Resultados do speedrun
Uso de ferramentas e RL simplificado
Escalabilidade e alvos maiores
O que isso significa para você
Conclusão
Onde ler mais

Ouça este artigo

Você vai ficar por dentro do nanochat, a nova ferramenta aberta do Andrej Karpathy que coloca nas suas mãos um pipeline ChatGPT completo e enxuto. Ele reúne tokenizador, pré‑treino, adaptação para conversas, afinamento supervisionado (SFT) e treinamento por reforço opcional, tudo pensado para rodar em um único nó multi‑GPU. O código é minimalista, com poucas dependências, vem com um script de execução rápida e uma pequena interface web para testar e iterar (veja opções práticas de criação de interfaces e automações em ferramentas no-code e RAGFlow). Este artigo explica o fluxo, os resultados e as escolhas práticas para você reproduzir e experimentar seu próprio modelo de chat. (Fonte e cobertura técnica: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/)

Repositório pequeno que entrega um pipeline ChatGPT completo

Inclui tokenizador, pré‑treino, adaptação por conversa, ajuste fino e avaliação em fluxo único

Projetado para rodar rápido e barato em servidores com GPUs (veja técnicas de escala e eficiência com DeepSpeed e a nova extensão ZenFlow)

Suporta uso de ferramentas e treino por reforço simplificado para melhorar respostas

Gera relatório com métricas e oferece interface web minimalista para testar o modelo

Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100

Você pode rodar um pipeline completo de chat estilo ChatGPT usando nanochat, um repositório open‑source leve que cobre desde a tokenização até a interface web. O fluxo speedrun recomendado roda em uma máquina com 8×H100, leva cerca de ~4 horas e custa perto de US$100, segundo o repositório e cobertura técnica em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.

O que é nanochat

Código pequeno e com poucas dependências, focado em clareza e modificabilidade.

Integra treinamento do tokenizer, pré‑treino, mid‑training em conversas, SFT, opção de RL simplificado e um servidor com UI tipo ChatGPT.

Inclui um engine com cache KV, prefill/decode e um sandbox Python para execução de ferramentas (veja exemplos de modelos que operam interfaces e automações em Smol2Operator).

Ao final gera um arquivo report.md com métricas, tempos e logs do experimento.

Como funciona o speedrun

O processo é orquestrado por um único script que encadeia as etapas principais:

Treinar tokenizer e preparar dados.

Pré‑treino do modelo base.

Mid‑training com dados de conversação, múltipla escolha e uso de ferramentas.

SFT em conversas de maior qualidade.

Opcional: RL simplificado em GSM8K.

Avaliação automática.

Servir o modelo (CLI e web UI).

Detalhes do setup no exemplo:

Transformer de 20 camadas (~560M parâmetros).

Treino em ~11.2B tokens (escala Chinchilla).

Operações de matriz via Muon e otimização com AdamW.

Métrica de perda reportada em bits‑por‑byte (bpb) para independência do tokenizer.

Para reduzir custos e latência em deploy, técnicas de quantização e aceleração podem ser aplicadas seguindo guias como Hugging Face Optimum ONNX/quantização.

Dados de mid‑training e SFT

Mistura padrão: SmolTalk (~460K linhas), MMLU auxiliar (~100K), GSM8K (~8K). Total ≈568K linhas.

Mid‑training inclui marcações para uso de ferramentas (blocos que ativam o interpretador Python).

SFT ajusta formato e padding para reduzir divergência entre treino e inferência.

Para gerenciar grandes volumes de dados de treino com eficiência, formatos e ferramentas como Zarr são úteis.

Se precisar criar ou enriquecer datasets sem desenvolver pipelines complexos, ferramentas no‑code como AI Sheets e fluxos de RAG podem acelerar a etapa de anotação.

Resultados do speedrun

A execução rápida gera um relatório com métricas de avaliação. Valores de exemplo (base → pós SFT):

Métrica	Base	Pós SFT
CORE	0.2219	—
ARC‑Easy	0.3561	0.3876
ARC‑Challenge	0.2875	0.2807
MMLU	0.3111	0.3151
GSM8K	0.0250	0.0455
HumanEval	0.0671	0.0854
ChatCORE	0.0730	0.0884
Tempo de execução	—	~3h51m

Uso de ferramentas e RL simplificado

Ferramentas integradas via blocos de código que acionam o interpretador Python interno (padrões semelhantes aos usados em projetos que treinam modelos para operar interfaces podem ser consultados em Smol2Operator).

Etapa opcional de RL usa um laço chamado GRPO.

Não implementa PPO completo (sem modelo de referência, sem penalidade KL, atualizações não‑on‑policy); o comportamento aproxima‑se de REINFORCE com normalização de vantagem em grupo.

Scripts de exemplo para RL e avaliação acompanham o repositório.

Escalabilidade e alvos maiores

O repositório indica caminhos simples para treinos maiores (trocar configurações e aumentar recursos).

Experimentos maiores (por exemplo, d=30 por ~24h) mostraram ganhos em MMLU, ARC e GSM8K.

Escalar tempo, dados ou tamanho do modelo é o caminho para desempenho competitivo.

Para lidar com contextos muito longos ou acelerar decodificação em modelos maiores, técnicas e projetos como Refrag ajudam a processar contextos extensos, enquanto estratégias de inferência especulativa podem reduzir latência e custo (veja cascatas especulativas).

Em termos de hardware e infra, novidades como aceleradores e instâncias otimizadas impactam custo‑benefício (ex.: comparativos e anúncios de soluções de inferência/infra estão disponíveis em Nemotron Nano‑2 e lançamentos de modelos locais eficientes).

O que isso significa para você

Reprodutibilidade: fluxo end‑to‑end rastreável com report.md.

Acessibilidade: ciclo completo experimentável em uma única máquina multi‑GPU.

Controle: código simples e fácil de modificar e estudar.

Limitações: resultados do speedrun são modestos; RL é prático, porém simplificado — use sandbox e cautela antes de produção.

Conclusão

O nanochat é uma caixa de ferramentas enxuta que entrega um pipeline end‑to‑end do tokenizador à interface web, permitindo experimentar um ChatGPT‑like em ~4 horas por cerca de US$100. O valor está na reprodutibilidade, no controle do fluxo e na facilidade para testar ideias sem infra complexa. Para competir com grandes modelos será preciso escalar tempo, dados ou tamanho do modelo. Mais detalhes técnicos e cobertura podem ser encontrados em https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/.

Se quer aprender mexendo, experimentar prompt‑tooling ou estudar treinamento prático, este repositório é um ponto de partida valioso — combine-o com guias de otimização e ferramentas no‑code como Hugging Face Optimum e ONNX e AI Sheets para acelerar experimentos.

Onde ler mais

Cobertura original e detalhes técnicos: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/

Documentação e práticas de tokenização e chunking: Entenda tokenização e chunking

Escala e memória: Como usar DeepSpeed para escalar Transformers

Eliminação de paradas durante treino: ZenFlow (extensão DeepSpeed)

Gerenciamento de datasets grandes: Usando Zarr para dados massivos

Inference e quantização: Optimum ONNX/quantização

Ferramentas no‑code e RAG para experimentar rapidamente: Criar IA sem programar

Técnicas para contextos longos: Refrag para contextos longos

Exemplos de modelos locais e eficientes: Modelos locais / GPT‑4o‑mini

Estratégias para reduzir latência e custos: Cascatas especulativas

🤖 Encontre as Melhores Ferramentas de IA

Ouça este artigo

🤖 Encontre as Melhores Ferramentas de IA

Karpathy libera nanochat — pipeline ChatGPT‑like treinável em ~4 horas por ~US$100

O que é nanochat

Como funciona o speedrun

Dados de mid‑training e SFT

Resultados do speedrun

Uso de ferramentas e RL simplificado

Escalabilidade e alvos maiores

O que isso significa para você

Conclusão

Onde ler mais

🤖 Encontre as Melhores Ferramentas de IA

Você também pode gostar