Thinking Machines Lab libera Tinker com Kimi K para raciocínio e suporte a imagens com Qwen VL

4 dias ago · Updated 4 dias ago

thinking-machines-lab-libera-tinker-com-kimi-k-para-raciocinio-e-suporte-a-imagens-com-qwen-vl
Table
  1. Ouça este artigo
  2. Thinking Machines Lab disponibiliza o Tinker — o que isso significa para você
  3. Principais novidades — resumo rápido
  4. Como o Tinker funciona e o que você precisa fazer
  5. Treino com LoRA e por que importa
  6. Modelos disponíveis e diferenças de comportamento
  7. Entrada de imagens: como usar no seu fluxo
  8. Experimentos de visão e comparação com baseline
  9. O que muda para você — implicações práticas
  10. Conclusão
  11. Perguntas frequentes

Ouça este artigo


Você vai ver como o Tinker saiu da lista de espera e virou uma API prática para sua equipe afinar modelos de ponta sem montar infraestrutura de treino distribuído. Você escreve um laço Python simples que define dados, perda e lógica de treino, e o serviço mapeia isso para um cluster de GPUs. A nova versão libera suporte ao Kimi K Thinking, adiciona amostragem compatível com OpenAI e aceita entrada de imagem com os modelos Qwen VL. O sistema usa LoRA para treinar adaptadores leves em modelos Mixture of Experts (MoE) e já foi usado para afinar modelos visuais em conjuntos clássicos, comparando com baselines como DINOv2. Se você é engenheiro de IA, esta atualização torna o fine-tuning repetível e muito mais prático.

  • Tinker aberto para todos, sem lista de espera
  • Afina modelos grandes sem gerenciar GPUs, usando um loop Python e LoRA
  • Suporta o modelo Kimi K2 Thinking para raciocínio longo e uso de ferramentas
  • Inclui amostragem compatível com OpenAI e entrada de imagens via Qwen3‑VL
  • Testes mostram Qwen3‑VL com LoRA aprende bem com poucos exemplos e é eficiente em dados

Thinking Machines Lab disponibiliza o Tinker — o que isso significa para você

O Tinker, API de treinamento da Thinking Machines Lab, entrou em disponibilidade geral. As principais novidades: suporte ao modelo de raciocínio Kimi K2, compatibilidade com o formato de completions da OpenAI e entrada de imagens via modelos vision-language Qwen3‑VL. Essas mudanças tornam mais simples ajustar modelos de ponta sem montar infraestrutura distribuída de GPU. O Kimi K2 traz capacidades de raciocínio e integração com ferramentas, seguindo a tendência de permitir que agentes e pipelines combinem modelos e ferramentas de forma mais fluida, semelhante a iniciativas para unir modelos e ferramentas.

Principais novidades — resumo rápido

  • Sem espera: inscrição imediata, acesso a modelos e preços.
  • Novo modelo: suporte ao Kimi K2 Thinking, um MoE com ~1 trilhão de parâmetros focado em cadeias longas de raciocínio.
  • Interfaces: cliente de amostragem nativo e rota compatível com a API de completions da OpenAI.
  • Visão: variantes Qwen3‑VL (30B e 235B) entram no catálogo e aceitam imagens para treino e inferência — complementando a família Qwen e suas ferramentas de edição e visão discutidas em posts sobre o poder do Qwen e editores de imagem (descubra o poder do Qwen, editor de imagens Qwen).

Como o Tinker funciona e o que você precisa fazer

Você mantém a lógica de treino; o serviço cuida do hardware.

  • Escreva um laço Python simples (pode rodar em CPU) que define dados, loss e regras de atualização.
  • O Tinker envia esse loop para um cluster de GPUs e executa a mesma computação.

Primitivas da API:

  • forward_backward — calcula gradientes
  • optim_step — atualiza pesos
  • sample — gera saídas durante inferência
  • Funções para salvar e carregar estado do treino

Essas operações permitem implementar aprendizado supervisionado, reforçado ou otimização por preferência sem gerenciar falhas de GPU ou agendamento.

Treino com LoRA e por que importa

O Tinker usa LoRA (adaptação de baixa ordem) em vez de ajustar todos os pesos do modelo. Isso significa:

  • Treina adaptadores pequenos sobre pesos base congelados
  • Consumo de memória reduzido
  • Possibilidade de rodar múltiplos experimentos — inclusive em modelos MoE — no mesmo cluster com custo menor

Modelos disponíveis e diferenças de comportamento

Modelos no catálogo incluem:

  • Kimi K2 Thinking — Reasoning MoE, focado em longas cadeias de raciocínio e uso de ferramentas
  • Qwen3 — variantes densas e MoE, incluindo modelos vision-language (Qwen3‑VL 30B e 235B)
  • Llama‑3 — modelos de geração
  • DeepSeek‑V3.1 — modelos adicionais

Importante: modelos de raciocínio podem produzir cadeias internas de pensamento antes da resposta visível; modelos de instrução priorizam menor latência e respostas diretas. A tendência de modelos que pensam, planejam e acionam ferramentas já aparece em trabalhos sobre agentes e orquestração de ações automatizadas (criar agentes locais, deepagent).

Entrada de imagens: como usar no seu fluxo

Tinker aceita imagens construindo um ModelInput que intercala ImageChunk e blocos de texto. Especificações chave:

  • image_data: bytes brutos; format indica png ou jpeg
  • Mesma representação funciona para treino supervisionado e RL, mantendo consistência na pipeline multimodal
  • Inputs visuais são compatíveis com o fluxo de treino via LoRA

Modelos de visão disponíveis para treino e amostragem:

  • Qwen/Qwen3‑VL‑30B‑A3B‑Instruct
  • Qwen/Qwen3‑VL‑235B‑A22B‑Instruct (Vision MoE)

Para casos de uso que envolvem perguntas a imagens em múltiplos idiomas ou eficiência no uso de tokens, veja trabalhos relacionados a sistemas VLM que otimizam consultas visuais (perguntas a imagens com menos tokens). Também vale comparar fluxos com modelos de visão que rodam na borda, para decisões de implantação (visão e linguagem na borda).

Experimentos de visão e comparação com baseline

A Thinking Machines Lab ajustou o Qwen3‑VL‑235B‑A22B‑Instruct em conjuntos clássicos: Caltech 101, Stanford Cars, Oxford Flowers e Oxford Pets. A tarefa foi tratada como geração de texto (modelo recebe a imagem e produz o nome da classe). Um baseline usou DINOv2 base cabeça de classificação; ambos usaram LoRA no Tinker. Mediram precisão variando o número de exemplos rotulados por classe (começando com 1 por classe).

Resumo do experimento:

Item Abordagem
Modelos testados Qwen3‑VL‑235B‑A22B‑Instruct (VL), DINOv2 base cabeça
Treino LoRA no Tinker
Datasets Caltech 101, Stanford Cars, Oxford Flowers, Oxford Pets
Métrica Precisão por número de exemplos por classe
Formato Classificação via geração de texto

Resultados indicam que Qwen3‑VL com LoRA aprende bem com poucos exemplos e é eficiente no uso de dados, tornando-se competitivo frente a bases de visão como DINOv2 em cenários de low-shot.

O que muda para você — implicações práticas

  • Ajuste modelos muito grandes sem construir sua própria infraestrutura de GPUs.
  • Compatibilidade com a interface de completions facilita integração com ferramentas que já usam APIs similares à da OpenAI.
  • Suporte a imagens permite pipelines multimodais usando a mesma API e formato de treino.
  • Uso de LoRA reduz custos de memória e acelera ciclos de experimentação.

Conclusão

O Tinker remove a barreira da infraestrutura: sem lista de espera, você escreve um laço Python e entrega o trabalho a um cluster de GPUs. Com LoRA treina-se adaptadores leves — menos memória, menos custo e mais experimentos. O suporte ao Kimi K2 traz raciocínio longo e uso de ferramentas; o Qwen3‑VL abre entrada de imagens e pipelines multimodais; e a compatibilidade com a API da OpenAI facilita integração com ferramentas já existentes. Na prática, você ganha velocidade e flexibilidade: menos dor de cabeça com hardware, mais foco em hipótese, métricas e iteração.

Quer se aprofundar e ver exemplos, guias e análises? Leia mais em https://blog.aidirectory.com.br.

Perguntas frequentes

  • O que é o Tinker e como ele funciona?
    Tinker é uma API de treino para fine-tuning. Você escreve um loop Python simples (dados, loss, lógica) e o serviço mapeia esse código para um cluster de GPUs usando primitivas como forwardbackward, optimstep, sample e funções de save/load.
  • O que é o Kimi K2 Thinking e por que usar?
    Kimi K2 é um modelo de raciocínio MoE com ~1 trilhão de parâmetros. Gera cadeias de pensamento internas antes da resposta e é ideal para tarefas que exigem raciocínio longo e uso de ferramentas. Para entender mais sobre o Kimi K2 e seus trade-offs, veja a cobertura do lançamento e do projeto de raciocínio avançado (lançamento do Kimi K2, análise do K2 Think).
  • Como envio imagens para modelos Qwen3‑VL no Tinker?
    Monte um ModelInput que intercale ImageChunk com segmentos de texto. image_data são bytes e format indica png ou jpeg. Funciona para treino supervisionado e RL; LoRA suporta inputs visuais. Para exemplos práticos e ferramentas de edição/visão na família Qwen, veja materiais sobre o editor de imagens e capacidades do Qwen (editor Qwen, poder do Qwen).
  • Preciso de GPU local? O que é LoRA e por que importa?
    Não precisa de GPU local: o loop roda em CPU e o Tinker usa GPUs na nuvem. LoRA treina adaptadores pequenos sobre pesos congelados, economizando memória e permitindo muitos experimentos eficientes.
  • Como usar a interface compatível com OpenAI e como acessar o Tinker?
    Tinker oferece uma rota compatível com a API de completions da OpenAI e mantém seu SamplingClient. Não há mais waitlist — qualquer pessoa pode se inscrever, ver modelos e preços, e usar os padrões de sampling e estados compatíveis.

Se você quiser conhecer outros artigos semelhantes a Thinking Machines Lab libera Tinker com Kimi K para raciocínio e suporte a imagens com Qwen VL, você pode visitar a categoria Notícias e Tendências.

Go up