Mistral AI lança novo OCR leve para extrair texto imagens e tabelas de documentos com baixo custo
1 dia ago · Updated 1 dia ago

Ouça este artigo
Nesta reportagem você vai conhecer a nova versão do OCR da Mistral e o que ela traz para o seu fluxo de documentos. Ela lê texto e imagens intercalados e mantém a estrutura do arquivo. A saída é em e pode incluir tabelas em HTML, facilitando integração com pipelines e agentes. Há opções para processamento em lote e para adicionar anotações estruturadas. Você vai entender também como isso entra no Document AI da empresa.
- Nova versão do OCR da Mistral feita para documentos estruturados
- Melhor leitura de texto escrito à mão, formulários, tabelas difíceis e páginas escaneadas
- Gera que preserva o layout e inclui tabelas em HTML quando solicitado
- Funciona dentro do Document AI da Mistral e via API para testes e produção
- Custos baixos com desconto para processamento em lote e suporte a anotações e caixas de texto
Mistral lança o OCR 3 para processamento de documentos com preço por página
Você agora tem à disposição o Mistral OCR 3 (mistral-ocr-2512), um serviço de reconhecimento óptico de caracteres que integra a pilha de Document AI da Mistral. O modelo extrai texto e imagens de PDFs e imagens mantendo a estrutura do documento. O preço público informado é US$ 2 por 1.000 páginas, com desconto de 50% para trabalhos via Batch API, reduzindo o custo para US$ 1 por 1.000 páginas. A versão com anotações estruturadas custa US$ 3 por 1.000 páginas (US$ 1,50 por 1.000 páginas em lote).
O que é e para quem serve
- OCR 3 foi projetado para cargas de trabalho empresariais comuns.
- Otimizado para formulários, documentos escaneados, tabelas complexas e texto manuscrito.
- Em avaliações internas, o modelo obteve 74% de ganho em relação ao OCR 2 em uma métrica de comparação flexível contra dados de referência, segundo a empresa.
Para comparar avanços em OCR e modelos de visão e linguagem, veja também iniciativas recentes como o HunyuanOCR da Tencent e o Dots OCR, modelo VL para análise de documentos, que ilustram tendências no reconhecimento de documentos.
Entradas, saídas e formato da resposta
Você pode enviar arquivos de várias formas. A resposta vem em JSON com informações por página.
Entradas aceitas:
- document_url para PDFs, PPTX, DOCX e formatos semelhantes
- image_url para PNG, JPEG, AVIF
- Uploads diretos ou arquivos em base64
A resposta inclui (por página):
- Índice da página e texto em que preserva o layout
- Listas de imagens e tabelas (quando table_format="html")
- Links detectados, campos opcionais de cabeçalho e rodapé
- Objeto dimensions com o tamanho da página
- document_annotation com anotações estruturadas
- usage_info para contabilização
Marcação de mídia:
- O contém placeholders como ![img-0.jpeg] e [tbl-3.html].
- Esses placeholders são vinculados aos arrays de imagens e tabelas na resposta, o que facilita a reconstrução do documento.
Se o seu fluxo exige conversão direta para ou otimizações na conversão, vale conferir abordagens de conversão como o Nu para entender estratégias complementares de produção de a partir de documentos.
Melhorias em relação ao OCR 2
O lançamento traz avanços em quatro áreas principais, relevantes para aplicações empresariais:
- Reconhecimento de manuscrito: maior precisão em anotações cursivas e mistas.
- Processamento de formulários: detecção aprimorada de caixas, rótulos e entradas manuscritas.
- Robustez em documentos scaneados: melhor tolerância a artefatos de compressão, inclinação, baixa resolução e ruído de fundo.
- Reconstrução de tabelas complexas: identificação de cabeçalhos, células mescladas e blocos com várias linhas.
Para entender como OCR baseado em IA tem melhorado a leitura de imagens e documentos, consulte análises sobre OCR com IA aplicados à leitura de imagens e comparativos com outras soluções mais leves ou orientadas a edge, como as descritas em modelos de visão e linguagem para dispositivos de borda.
Preços e opções de processamento em lote
Tabela de preços por 1.000 páginas:
- OCR padrão — US$ 2
- OCR com anotações estruturadas — US$ 3
Desconto em lote: trabalhos via /v1/batch recebem 50% de desconto, ficando US$ 1 por 1.000 páginas para OCR padrão e US$ 1,50 por 1.000 páginas para páginas anotadas.
Recursos de anotação:
- Annotations – Structured para rotular regiões conforme esquemas
- BBox Extraction para obter caixas delimitadoras de texto e elementos
Se reduzir custo de armazenamento ou acelerar o pipeline de extração é crítico para você, há abordagens que comprimem e otimizam documentos antes do OCR, como soluções que visam reduzir tamanho e converter documentos para formatos mais eficientes — compare com propostas semelhantes em produtos recentes como o Deepseek e utilitários que compactam documentos para respostas mais rápidas, como o Clara da Apple.
Como acessar e integrar
- Experimente no Document AI Playground do Mistral AI Studio enviando PDFs ou imagens para obter texto limpo ou JSON sem código.
- Migre para a API pública para cargas de produção sem alterar o modelo subjacente.
- Use a Batch API para processar grandes volumes com desconto.
- A saída inclui placeholders (ex.: ![img-0.jpeg], [tbl-3.html]) que se mapeiam nas arrays images e tables, simplificando a reconstrução em sistemas externos.
Para quem prefere construir internamente, há guias práticos sobre como montar um pipeline OCR com ferramentas open source — por exemplo, um guia para criar agente OCR multilingue com EasyOCR e OpenCV que pode ser integrado em etapas pré e pós-processamento antes de enviar documentos para serviços como o Mistral OCR 3.
Conclusão
O Mistral OCR 3 chega como uma lente poderosa para seus documentos: lê texto e imagens intercalados, preserva a estrutura e entrega saída em (com tabelas em HTML) pronta para integrar em pipelines e agentes. É mais preciso em manuscritos, formulários e tabelas complexas, e mais robusto contra scans ruins — resolvendo dores reais do dia a dia. Funciona no Document AI, no Playground e via API pública, com opção de Batch API que reduz o custo por página. Se você busca automatizar fluxos, reduzir trabalho manual e manter a estrutura dos arquivos, vale a pena testar as anotações estruturadas no Playground.
Quer se aprofundar? Leia mais artigos em https://blog.aidirectory.com.br.
Perguntas frequentes
- O que é o Mistral OCR 3 e para que serve?
É o novo OCR da Mistral (mistral-ocr-2512). Extrai texto, imagens e tabelas de PDFs e imagens, mantendo a estrutura do documento para uso em fluxos de dados.
- Quais formatos de entrada e que saída ele gera?
Aceita documenturl (PDF, PPTX, DOCX), imageurl (PNG, JPEG, AVIF) e uploads/base64. Retorna JSON com pages, que preserva layout, imagens e tabelas (HTML se ativado), além de annotations, bounding boxes e usage_info.
- Quais são as melhorias em relação ao OCR 2?
Reconhecimento de escrita manual muito melhor; formulários e tabelas complexas reconstruídos com mais precisão; mais robusto contra scans ruins, distorção e ruído. Em testes internos teve 74% de ganho.
- Quanto custa e como funciona o desconto por lote?
Custa US$ 2 por 1.000 páginas padrão; anotações estruturadas a US$ 3 por 1.000 páginas. Via Batch API há 50% de desconto (US$ 1 por 1.000 páginas padrão; US$ 1,50 por 1.000 páginas com anotações).
- Como integrar no meu sistema ou usar em produção?
Está no Mistral Document AI e no Studio Playground. A mesma API pública serve para exploração e produção. Saída inclui placeholders que se mapeiam nas arrays images e tables.
Leituras relacionadas:
Se você quiser conhecer outros artigos semelhantes a Mistral AI lança novo OCR leve para extrair texto imagens e tabelas de documentos com baixo custo, você pode visitar a categoria Notícias e Tendências.
