Você vai reduzir o tamanho do texto e converter seus documentos com o novo OCR da DeepSeek
6 meses ago · Updated 6 meses ago

- Ouça este artigo
- DeepSeek lança DeepSeek-OCR 3B — essencial para quem processa documentos
- O que é o sistema
- Arquitetura e modos suportados
- Desempenho em benchmarks
- Treinamento e operação
- Como começar no seu fluxo de trabalho
- Principais pontos para checar
- Conclusão
- Perguntas Frequentes
- Leitura adicional
Ouça este artigo
Neste artigo você terá uma visão direta do novo DeepSeek-OCR e do que ele muda na prática: a ideia de comprimir texto em tokens de visão compactos e depois decodificar com um decodificador MoE, a arquitetura do DeepEncoder, os modos nativos e dinâmicos que permitem ajustar o orçamento de tokens, os resultados de compressão e a precisão reportada, detalhes essenciais do treinamento em grande escala e dicas práticas para avaliar e testar a promessa de alto rendimento na sua pilha — tudo em linguagem prática para aplicar rápido. Para referência técnica adicional, veja o anúncio original: https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/.
- Compressão visual forte reduz o texto a poucos tokens para decodificação mais rápida
- Alta precisão de decodificação reportada em benchmarks padrão
- Encoder eficiente com decodificador MoE para baixo uso de memória e alta resolução
- Modos multiresolução e dinâmicos permitem ajustar o orçamento de tokens por página
- Treinamento e empacotamento orientados para uso prático e fácil integração em stacks
DeepSeek lança DeepSeek-OCR 3B — essencial para quem processa documentos
DeepSeek-AI publicou o DeepSeek-OCR 3B, uma solução para OCR e conversão estruturada de documentos que reduz o texto de cada página a um pequeno conjunto de tokens visuais e depois decodifica esses tokens com um modelo de linguagem. Se você lida com captura de texto em larga escala, esse lançamento promete sequência de decodificação mais curta sem eliminar informação crítica. A equipe reportou ~97% de precisão em compressão próxima de 10× em um benchmark interno. Mais detalhes técnicos estão no anúncio oficial: https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/.
O que é o sistema
- DeepSeek-OCR 3B combina um codificador visual e um decodificador de linguagem.
- O codificador, chamado DeepEncoder, transforma imagens em poucos tokens visuais compactos.
- O decodificador é um MoE de 3 bilhões de parâmetros (DeepSeek3B-MoE-A570M) com cerca de 570M de parâmetros ativos por token.
- A abordagem visa diminuir o comprimento da sequência para o decodificador mantendo o conteúdo textual útil.
Arquitetura e modos suportados
A arquitetura foi desenhada para preservar informação em entradas de alta resolução com uso controlado de memória.
Principais componentes técnicos:
- Estágio de atenção por janelas (inspirado em SAM) para percepção local.
- Compressor convolucional de 2 camadas que faz downsampling 16×.
- Estágio global de atenção denso baseado em CLIP para agregar conhecimento visual.
Modos nativos (visão por página):
- Tiny: 64 tokens visuais — 512×512
- Small: 100 tokens visuais — 640×640
- Base: 256 tokens visuais — 1024×1024
- Large: 400 tokens visuais — 1280×1280
Modos dinâmicos:
- Gundam e Gundam-Master misturam visão local em mosaico com visão global.
- Fórmula: n×100 256 ou n×256 400, com n = 2..9.
- Modos dinâmicos permitem ajustar o orçamento de tokens conforme complexidade da página e razão de aspecto.
Desempenho em benchmarks
- Na avaliação Fox (medida por correspondência exata após decodificação):
- 100 tokens visuais: páginas com 600–700 tokens de texto atingem 98.5% de precisão (compressão ~6.7×).
- 100 tokens visuais: páginas com 900–1000 tokens de texto atingem 96.8% de precisão (compressão ~9.7×).
- 64 tokens visuais: desempenho cai com compressão elevada (ex.: 59.1% para páginas de 1200–1300 tokens, compressão ~19.7×).
- No OmniDocBench, o sistema supera GOT-OCR 2.0 usando apenas 100 tokens visuais por página e supera MinerU 2.0 quando opera com menos de 800 tokens (MinerU usa em média >6000 tokens por página).
- Métricas principais: distância de edição e precisão de correspondência exata.
Treinamento e operação
- Treino em duas fases:
- Treinamento do DeepEncoder com previsão do próximo token usando dados OCR e amostras de LAION.
- Treino do sistema completo com pipeline paralelo em 4 partições.
- Infraestrutura e rendimento:
- Execução em 20 nós, cada um com 8× A100 40GB.
- Otimizador AdamW.
- Velocidade reportada: 90B tokens/dia em texto puro e 70B tokens/dia em multimodal.
- Em produção, afirmam gerar >200k páginas por dia em um nó com A100 40GB.
- Disponibilidade técnica:
- Empacotado para Transformers, testado com PyTorch 2.6.0, CUDA 11.8 e FlashAttention 2.7.3 — consulte a página de empacotamento e integração para exemplos de implantação.
- Modelo distribuído como um único arquivo safetensors de 6.67 GB.
Como começar no seu fluxo de trabalho
Passos práticos para avaliar a ferramenta:
- Comece com o modo Small (100 tokens) para relatórios e livros típicos.
- Meça distância de edição; se estiver alta, aumente tokens ou use um modo Gundam para combinar visão global e locais detalhados.
- Para páginas com fontes muito pequenas, gráficos, tabelas ou estruturas químicas:
- Use modos dinâmicos.
- Revise a seção de parsing profundo que mostra conversões para HTML tables, SMILES e geometria estruturada.
- Valide performance e rendimento na sua infraestrutura para confirmar as taxas de produção anunciadas.
- Para testes rápidos e integração com pipelines baseados em Transformers, veja o nosso guia de integração e exemplos práticos.
Principais pontos para checar
- Compressão: o sistema reduz sequências ao decoder — verifique se a perda é aceitável no seu caso.
- Precisão: teste em seus documentos; o relatório indica ~97% em condições específicas (Fox ~10×).
- Custos e throughput: confirme recursos de GPU e rendimento real na sua pipeline.
- Integração: compatibilidade com Transformers e ambientes específicos facilita testes práticos.
Conclusão
O DeepSeek-OCR 3B promete encolher páginas inteiras para poucos tokens visuais sem perder o essencial — a combinação do DeepEncoder com o decodificador MoE entrega compressão agressiva mantendo precisão (relatos em torno de ~97% em cenários específicos). Na prática, comece simples (Small, 100 tokens), meça por distância de edição e, se necessário, aumente tokens ou mude para Gundam. Verifique tabelas, SMILES e estruturas — são os casos que mais sofrem com compressão excessiva. Confirme throughput, custos e compatibilidade com sua stack antes de produção. Para leitura complementar e o anúncio original do lançamento, veja: https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/.
Perguntas Frequentes
- O que é o DeepSeek-OCR 3B e como reduz o texto?
- É um sistema OCR end-to-end: o DeepEncoder compacta a página em poucos tokens visuais e o decodificador MoE de 3B reconstrói o texto, encurtando a sequência do decoder.
- Quais modos devo usar para relatórios e livros?
- Comece em Small (100 tokens, 640×640). Suba se a edição estiver ruim. Use Gundam para páginas muito densas ou fontes pequenas.
- Qual a precisão e quais números de compressão são realistas?
- Relatório: ~97% de precisão perto de 10× compressão. No Fox: 98.5% a 6.7× (600–700 tokens) e 96.8% a 9.7× (900–1000).
- Como foi o treinamento e que hardware é recomendado para testar?
- Treino em duas fases; treinaram em 20 nós × 8 A100‑40G; AdamW. Em produção, um A100‑40G gera >200k páginas/dia. Recomendado PyTorch 2.6, CUDA 11.8, FlashAttention 2.7.3.
- Como avaliar no meu fluxo prático?
- Meça edit distance no seu dado. Teste Small primeiro. Se falhar, aumente tokens ou use Gundam. Valide tabelas, SMILES e estruturas com a saída estruturada.
Leitura adicional
- Anúncio técnico e post original: https://www.marktechpost.com/2025/10/20/deepseek-just-released-a-3b-ocr-model-a-3b-vlm-designed-for-high-performance-ocr-and-structured-document-conversion/.
- Para testes rápidos e integração: consulte a página de empacotamento e exemplos.
Se você quiser conhecer outros artigos semelhantes a Você vai reduzir o tamanho do texto e converter seus documentos com o novo OCR da DeepSeek, você pode visitar a categoria Notícias e Tendências.
