Você conhece o modelo de difusão discreta da Salesforce que gera código em paralelo com contexto bidirecional

Neste artigo:

Ouça este artigo
CoDA-1.7B — o novo modelo de código por difusão da Salesforce Você vai ver neste artigo o novo CoDA da Salesforce: um modelo de código baseado em difusão discreta que gera sequências inteiras por remoção iterativa de ruído, usando contexto bidirecional e atualizações de tokens em paralelo. A equipe publicou checkpoints Base e Instruct e um pipeline reproduzível do pré‑treinamento até o serviço. Nos benchmarks o sistema mostra desempenho competitivo frente a modelos maiores, e a inferência permite controlar o trade‑off entre latência e qualidade. A release inclui um servidor FastAPI pronto e pesos sob licença CC BY‑NC 4.0. Aqui você encontra arquitetura, treino, inferência, deploy e comentários práticos. Leitura original e anúncio técnico: https://www.marktechpost.com/2025/10/05/salesforce-ai-research-releases-coda-1-7b-a-discrete-diffusion-code-model-with-bidirectional-parallel-token-generation/ Principais pontos Gera sequências inteiras com contexto bidirecional (infilling nativo). Atualiza vários tokens em paralelo para acelerar em comparação ao token‑a‑token autoregressivo. Desempenho competitivo com modelos maiores em benchmarks de código. Inferência ajustável por passos e parâmetros (troca latência/qualidade). Pacote completo: treino reproduzível, checkpoints, servidor FastAPI e licença CC BY‑NC. Salesforce lança CoDA‑1.7B — um modelo de código baseado em difusão
Principais novidades
Como o modelo funciona
Desempenho em benchmarks
Inferência e implantação
Licença e recursos disponíveis
Conclusão
Perguntas Frequentes
Referências e leitura

Ouça este artigo

CoDA-1.7B — o novo modelo de código por difusão da Salesforce

Você vai ver neste artigo o novo CoDA da Salesforce: um modelo de código baseado em difusão discreta que gera sequências inteiras por remoção iterativa de ruído, usando contexto bidirecional e atualizações de tokens em paralelo. A equipe publicou checkpoints Base e Instruct e um pipeline reproduzível do pré‑treinamento até o serviço. Nos benchmarks o sistema mostra desempenho competitivo frente a modelos maiores, e a inferência permite controlar o trade‑off entre latência e qualidade. A release inclui um servidor FastAPI pronto e pesos sob licença CC BY‑NC 4.0. Aqui você encontra arquitetura, treino, inferência, deploy e comentários práticos.

Leitura original e anúncio técnico: https://www.marktechpost.com/2025/10/05/salesforce-ai-research-releases-coda-1-7b-a-discrete-diffusion-code-model-with-bidirectional-parallel-token-generation/

Principais pontos

Gera sequências inteiras com contexto bidirecional (infilling nativo).

Atualiza vários tokens em paralelo para acelerar em comparação ao token‑a‑token autoregressivo.

Desempenho competitivo com modelos maiores em benchmarks de código.

Inferência ajustável por passos e parâmetros (troca latência/qualidade).

Pacote completo: treino reproduzível, checkpoints, servidor FastAPI e licença CC BY‑NC.

Salesforce lança CoDA‑1.7B — um modelo de código baseado em difusão

O lançamento principal é o CoDA‑1.7B (versões Base e Instruct). Em vez de prever um token por vez, o modelo limpa sequências inteiras em passos de difusão discreta, usando atenção bidirecional e atualizando blocos de tokens em paralelo — o que possibilita infilling e controles finos na geração.

Leia o anúncio técnico detalhado em: https://www.marktechpost.com/2025/10/05/salesforce-ai-research-releases-coda-1-7b-a-discrete-diffusion-code-model-with-bidirectional-parallel-token-generation/

Principais novidades

Modelo: CoDA‑1.7B (Base e Instruct).

Arquitetura: atenção em sequência completa, infilling nativo e decodificação não‑autoregressiva. Para entender melhor como a atenção permite essas capacidades, veja uma introdução prática aos mecanismos de atenção e suas aplicações.

Treinamento e reprodutibilidade: scripts para pré‑treinamento em TPU, fine‑tuning em GPU e avaliação; técnicas e ferramentas para escalar treinos com menor consumo de memória estão bem descritas em guias como Deepspeed: como escalar Transformers e as extensões que evitam paradas durante treinamentos em ZenFlow.

Serviço e APIs: servidor FastAPI compatível com APIs estilo OpenAI e CLI para uso local; para otimização de inferência e deploy há boas práticas em otimização ponta‑a‑ponta (Optimum, ONNX e quantização).

Licença: pesos publicados no Hugging Face sob CC BY‑NC 4.0.

Como o modelo funciona

O fluxo descrito pela equipe tem três fases principais:

Pré‑treinamento com mascaramento bidirecional.

Treinamento supervisionado (SFT) para instruções.

Decodificação progressiva por denoising na inferência (decodificação por passos).

A inferência depende do número de passos de difusão: mais passos tendem a melhorar qualidade e custo computacional; menos passos reduzem latência. Parâmetros expostos incluem STEPS, ALG (por exemplo “entropy”), ALG_TEMP e o comprimento de bloco para balancear latência e qualidade. Os trade‑offs entre latência, passos e estratégias de decodificação se relacionam com técnicas de aceleração como as cascatas especulativas, que também exploram caminhos para reduzir custo mantendo qualidade.

Para detalhes sobre tokenização e como dividir contexto em blocos — fundamental para atualizar vários tokens em paralelo — veja entenda como tokenização e chunking mudam como sua IA processa texto.

Desempenho em benchmarks

O CoDA‑1.7B‑Instruct apresenta desempenho competitivo para seu tamanho. Resultados pass@1 reportados:

Benchmark	Pass@1 (%)
HumanEval	54.3
HumanEval	47.6
MBPP	47.2
MBPP	63.2
EvalPlus	55.4

Comparações mostram que o modelo de 1.7B parâmetros alcança resultados semelhantes a alguns modelos de difusão de 7B (por exemplo, Dream‑7B‑Instruct ~57.9% em HumanEval), indicando eficiência em termos de parâmetros em certas tarefas. Para colocar em contexto outras recentes iniciativas focadas em código, vale comparar abordagens e resultados com lançamentos como o DevStral‑2.5 da Mistral e projetos de código aberto que melhoram raciocínio e eficiência, como o K2 Think.

Inferência e implantação

A latência depende do número de passos escolhidos. Menos passos = mais velocidade; mais passos = maior qualidade.

O modelo atualiza tokens em paralelo para reduzir tempo de resposta em cada passo, comparado a um processo token‑a‑token. Entender o engenharia de contexto ajuda a explorar infilling e janelas de contexto: veja o caminho técnico para a engenharia de contexto.

A distribuição inclui servidor FastAPI, APIs compatíveis com OpenAI, uma CLI interativa e um script de inicialização (start_server.sh) para implantação local. Para deploy eficiente, pipelines de otimização e quantização com ONNX/Optimum são recomendados (ver link acima).

Há instruções claras para configurar o ambiente e rodar localmente, com exemplos de fine‑tuning e avaliação; e, caso precise adaptar o modelo a interfaces ou tarefas específicas (por exemplo, operar GUIs), há guias práticos como treinar modelos de código para interfaces gráficas.

Além disso, avanços em decodificação e processamento de contextos longos, que impactam performance em tarefas que exigem janelas extensas de contexto, podem ser explorados com técnicas similares às apresentadas em iniciativas como Refrag.

Licença e recursos disponíveis

Pesos e artefatos publicados no Hugging Face.

Licença: CC BY‑NC 4.0 (uso não comercial).

Código e documentação incluem pipelines reproduzíveis e exemplos para treino, fine‑tuning e avaliação. Para práticas de engenharia de treino e operações MLOps, consulte também conteúdos sobre ML Engineering (MLE‑STAR).

Conclusão

O CoDA‑1.7B é um modelo de código que usa difusão discreta para gerar sequências inteiras com contexto bidirecional e atualizações em paralelo. Ele oferece:

Vantagem em tarefas de infilling e geração condicionada.

Controles finos de latência/qualidade via parâmetros de inferência.

Eficiência: com ~1.7B parâmetros, entrega desempenho competitivo frente a modelos maiores.

Pacote prático: checkpoints, scripts de treino e servidor FastAPI prontos para deploy.

Atenção à licença CC BY‑NC 4.0 se planeja uso comercial. Se for experimentar, comece testando diferentes números de passos para observar o trade‑off. Pequenos ajustes em STEPS, ALG e ALG_TEMP podem fazer grande diferença no seu caso de uso.

Mais detalhes técnicos e o anúncio oficial: https://www.marktechpost.com/2025/10/05/salesforce-ai-research-releases-coda-1-7b-a-discrete-diffusion-code-model-with-bidirectional-parallel-token-generation/

Perguntas Frequentes

O que é o CoDA‑1.7B e como ele gera código?
É um modelo de difusão discreta da Salesforce que denoisa sequências inteiras com atenção bidirecional e atualiza vários tokens em paralelo, permitindo infilling nativo.

Em que ele difere do modelo autoregressivo tradicional?
Autoregressivos prevêem token a token (esquerda→direita). CoDA denoisa a sequência inteira e atualiza blocos em paralelo, o que oferece infilling e menor latência por passo.

Como ele se sai em benchmarks de código?
Relatórios: HumanEval 54.3%, HumanEval 47.6%, MBPP 47.2%, MBPP 63.2%, EvalPlus 55.4% — competitivo com alguns modelos de maior porte.

Como ajustar latência e qualidade na inferência?
Use STEPS (menos passos = mais rápido, menos qualidade). Ajuste ALG (ex.: “entropy”), ALG_TEMP e o tamanho de bloco.

Como fazer deploy e qual a licença dos checkpoints?
A Salesforce fornece um servidor FastAPI compatível com OpenAI e um CLI para rodar localmente; há scripts para pré‑treinamento e fine‑tuning. Checkpoints disponíveis no Hugging Face sob CC BY‑NC 4.0 (uso não comercial).

Referências e leitura

Anúncio técnico: https://www.marktechpost.com/2025/10/05/salesforce-ai-research-releases-coda-1-7b-a-discrete-diffusion-code-model-with-bidirectional-parallel-token-generation/