Thinking Machines Lab libera Tinker com Kimi K para raciocínio e suporte a imagens com Qwen VL
4 dias ago · Updated 4 dias ago

- Ouça este artigo
- Thinking Machines Lab disponibiliza o Tinker — o que isso significa para você
- Principais novidades — resumo rápido
- Como o Tinker funciona e o que você precisa fazer
- Treino com LoRA e por que importa
- Modelos disponíveis e diferenças de comportamento
- Entrada de imagens: como usar no seu fluxo
- Experimentos de visão e comparação com baseline
- O que muda para você — implicações práticas
- Conclusão
- Perguntas frequentes
Ouça este artigo
Você vai ver como o Tinker saiu da lista de espera e virou uma API prática para sua equipe afinar modelos de ponta sem montar infraestrutura de treino distribuído. Você escreve um laço Python simples que define dados, perda e lógica de treino, e o serviço mapeia isso para um cluster de GPUs. A nova versão libera suporte ao Kimi K Thinking, adiciona amostragem compatível com OpenAI e aceita entrada de imagem com os modelos Qwen VL. O sistema usa LoRA para treinar adaptadores leves em modelos Mixture of Experts (MoE) e já foi usado para afinar modelos visuais em conjuntos clássicos, comparando com baselines como DINOv2. Se você é engenheiro de IA, esta atualização torna o fine-tuning repetível e muito mais prático.
- Tinker aberto para todos, sem lista de espera
- Afina modelos grandes sem gerenciar GPUs, usando um loop Python e LoRA
- Suporta o modelo Kimi K2 Thinking para raciocínio longo e uso de ferramentas
- Inclui amostragem compatível com OpenAI e entrada de imagens via Qwen3‑VL
- Testes mostram Qwen3‑VL com LoRA aprende bem com poucos exemplos e é eficiente em dados
Thinking Machines Lab disponibiliza o Tinker — o que isso significa para você
O Tinker, API de treinamento da Thinking Machines Lab, entrou em disponibilidade geral. As principais novidades: suporte ao modelo de raciocínio Kimi K2, compatibilidade com o formato de completions da OpenAI e entrada de imagens via modelos vision-language Qwen3‑VL. Essas mudanças tornam mais simples ajustar modelos de ponta sem montar infraestrutura distribuída de GPU. O Kimi K2 traz capacidades de raciocínio e integração com ferramentas, seguindo a tendência de permitir que agentes e pipelines combinem modelos e ferramentas de forma mais fluida, semelhante a iniciativas para unir modelos e ferramentas.
Principais novidades — resumo rápido
- Sem espera: inscrição imediata, acesso a modelos e preços.
- Novo modelo: suporte ao Kimi K2 Thinking, um MoE com ~1 trilhão de parâmetros focado em cadeias longas de raciocínio.
- Interfaces: cliente de amostragem nativo e rota compatível com a API de completions da OpenAI.
- Visão: variantes Qwen3‑VL (30B e 235B) entram no catálogo e aceitam imagens para treino e inferência — complementando a família Qwen e suas ferramentas de edição e visão discutidas em posts sobre o poder do Qwen e editores de imagem (descubra o poder do Qwen, editor de imagens Qwen).
Como o Tinker funciona e o que você precisa fazer
Você mantém a lógica de treino; o serviço cuida do hardware.
- Escreva um laço Python simples (pode rodar em CPU) que define dados, loss e regras de atualização.
- O Tinker envia esse loop para um cluster de GPUs e executa a mesma computação.
Primitivas da API:
- forward_backward — calcula gradientes
- optim_step — atualiza pesos
- sample — gera saídas durante inferência
- Funções para salvar e carregar estado do treino
Essas operações permitem implementar aprendizado supervisionado, reforçado ou otimização por preferência sem gerenciar falhas de GPU ou agendamento.
Treino com LoRA e por que importa
O Tinker usa LoRA (adaptação de baixa ordem) em vez de ajustar todos os pesos do modelo. Isso significa:
- Treina adaptadores pequenos sobre pesos base congelados
- Consumo de memória reduzido
- Possibilidade de rodar múltiplos experimentos — inclusive em modelos MoE — no mesmo cluster com custo menor
Modelos disponíveis e diferenças de comportamento
Modelos no catálogo incluem:
- Kimi K2 Thinking — Reasoning MoE, focado em longas cadeias de raciocínio e uso de ferramentas
- Qwen3 — variantes densas e MoE, incluindo modelos vision-language (Qwen3‑VL 30B e 235B)
- Llama‑3 — modelos de geração
- DeepSeek‑V3.1 — modelos adicionais
Importante: modelos de raciocínio podem produzir cadeias internas de pensamento antes da resposta visível; modelos de instrução priorizam menor latência e respostas diretas. A tendência de modelos que pensam, planejam e acionam ferramentas já aparece em trabalhos sobre agentes e orquestração de ações automatizadas (criar agentes locais, deepagent).
Entrada de imagens: como usar no seu fluxo
Tinker aceita imagens construindo um ModelInput que intercala ImageChunk e blocos de texto. Especificações chave:
- image_data: bytes brutos; format indica png ou jpeg
- Mesma representação funciona para treino supervisionado e RL, mantendo consistência na pipeline multimodal
- Inputs visuais são compatíveis com o fluxo de treino via LoRA
Modelos de visão disponíveis para treino e amostragem:
- Qwen/Qwen3‑VL‑30B‑A3B‑Instruct
- Qwen/Qwen3‑VL‑235B‑A22B‑Instruct (Vision MoE)
Para casos de uso que envolvem perguntas a imagens em múltiplos idiomas ou eficiência no uso de tokens, veja trabalhos relacionados a sistemas VLM que otimizam consultas visuais (perguntas a imagens com menos tokens). Também vale comparar fluxos com modelos de visão que rodam na borda, para decisões de implantação (visão e linguagem na borda).
Experimentos de visão e comparação com baseline
A Thinking Machines Lab ajustou o Qwen3‑VL‑235B‑A22B‑Instruct em conjuntos clássicos: Caltech 101, Stanford Cars, Oxford Flowers e Oxford Pets. A tarefa foi tratada como geração de texto (modelo recebe a imagem e produz o nome da classe). Um baseline usou DINOv2 base cabeça de classificação; ambos usaram LoRA no Tinker. Mediram precisão variando o número de exemplos rotulados por classe (começando com 1 por classe).
Resumo do experimento:
| Item | Abordagem |
|---|---|
| Modelos testados | Qwen3‑VL‑235B‑A22B‑Instruct (VL), DINOv2 base cabeça |
| Treino | LoRA no Tinker |
| Datasets | Caltech 101, Stanford Cars, Oxford Flowers, Oxford Pets |
| Métrica | Precisão por número de exemplos por classe |
| Formato | Classificação via geração de texto |
Resultados indicam que Qwen3‑VL com LoRA aprende bem com poucos exemplos e é eficiente no uso de dados, tornando-se competitivo frente a bases de visão como DINOv2 em cenários de low-shot.
O que muda para você — implicações práticas
- Ajuste modelos muito grandes sem construir sua própria infraestrutura de GPUs.
- Compatibilidade com a interface de completions facilita integração com ferramentas que já usam APIs similares à da OpenAI.
- Suporte a imagens permite pipelines multimodais usando a mesma API e formato de treino.
- Uso de LoRA reduz custos de memória e acelera ciclos de experimentação.
Conclusão
O Tinker remove a barreira da infraestrutura: sem lista de espera, você escreve um laço Python e entrega o trabalho a um cluster de GPUs. Com LoRA treina-se adaptadores leves — menos memória, menos custo e mais experimentos. O suporte ao Kimi K2 traz raciocínio longo e uso de ferramentas; o Qwen3‑VL abre entrada de imagens e pipelines multimodais; e a compatibilidade com a API da OpenAI facilita integração com ferramentas já existentes. Na prática, você ganha velocidade e flexibilidade: menos dor de cabeça com hardware, mais foco em hipótese, métricas e iteração.
Quer se aprofundar e ver exemplos, guias e análises? Leia mais em https://blog.aidirectory.com.br.
Perguntas frequentes
- O que é o Tinker e como ele funciona?
Tinker é uma API de treino para fine-tuning. Você escreve um loop Python simples (dados, loss, lógica) e o serviço mapeia esse código para um cluster de GPUs usando primitivas como forwardbackward, optimstep, sample e funções de save/load.
- O que é o Kimi K2 Thinking e por que usar?
Kimi K2 é um modelo de raciocínio MoE com ~1 trilhão de parâmetros. Gera cadeias de pensamento internas antes da resposta e é ideal para tarefas que exigem raciocínio longo e uso de ferramentas. Para entender mais sobre o Kimi K2 e seus trade-offs, veja a cobertura do lançamento e do projeto de raciocínio avançado (lançamento do Kimi K2, análise do K2 Think).
- Como envio imagens para modelos Qwen3‑VL no Tinker?
Monte um ModelInput que intercale ImageChunk com segmentos de texto. image_data são bytes e format indica png ou jpeg. Funciona para treino supervisionado e RL; LoRA suporta inputs visuais. Para exemplos práticos e ferramentas de edição/visão na família Qwen, veja materiais sobre o editor de imagens e capacidades do Qwen (editor Qwen, poder do Qwen).
- Preciso de GPU local? O que é LoRA e por que importa?
Não precisa de GPU local: o loop roda em CPU e o Tinker usa GPUs na nuvem. LoRA treina adaptadores pequenos sobre pesos congelados, economizando memória e permitindo muitos experimentos eficientes.
- Como usar a interface compatível com OpenAI e como acessar o Tinker?
Tinker oferece uma rota compatível com a API de completions da OpenAI e mantém seu SamplingClient. Não há mais waitlist — qualquer pessoa pode se inscrever, ver modelos e preços, e usar os padrões de sampling e estados compatíveis.
Se você quiser conhecer outros artigos semelhantes a Thinking Machines Lab libera Tinker com Kimi K para raciocínio e suporte a imagens com Qwen VL, você pode visitar a categoria Notícias e Tendências.
