Mistral AI lança novo OCR leve para extrair texto imagens e tabelas de documentos com baixo custo

1 dia ago · Updated 1 dia ago

mistral-ai-lanca-novo-ocr-leve-para-extrair-texto-imagens-e-tabelas-de-documentos-com-baixo-custo
Table
  1. Ouça este artigo
  2. Mistral lança o OCR 3 para processamento de documentos com preço por página
  3. O que é e para quem serve
  4. Entradas, saídas e formato da resposta
  5. Melhorias em relação ao OCR 2
  6. Preços e opções de processamento em lote
  7. Como acessar e integrar
  8. Conclusão
  9. Perguntas frequentes

Ouça este artigo


Nesta reportagem você vai conhecer a nova versão do OCR da Mistral e o que ela traz para o seu fluxo de documentos. Ela lê texto e imagens intercalados e mantém a estrutura do arquivo. A saída é em e pode incluir tabelas em HTML, facilitando integração com pipelines e agentes. Há opções para processamento em lote e para adicionar anotações estruturadas. Você vai entender também como isso entra no Document AI da empresa.

  • Nova versão do OCR da Mistral feita para documentos estruturados
  • Melhor leitura de texto escrito à mão, formulários, tabelas difíceis e páginas escaneadas
  • Gera que preserva o layout e inclui tabelas em HTML quando solicitado
  • Funciona dentro do Document AI da Mistral e via API para testes e produção
  • Custos baixos com desconto para processamento em lote e suporte a anotações e caixas de texto

Mistral lança o OCR 3 para processamento de documentos com preço por página

Você agora tem à disposição o Mistral OCR 3 (mistral-ocr-2512), um serviço de reconhecimento óptico de caracteres que integra a pilha de Document AI da Mistral. O modelo extrai texto e imagens de PDFs e imagens mantendo a estrutura do documento. O preço público informado é US$ 2 por 1.000 páginas, com desconto de 50% para trabalhos via Batch API, reduzindo o custo para US$ 1 por 1.000 páginas. A versão com anotações estruturadas custa US$ 3 por 1.000 páginas (US$ 1,50 por 1.000 páginas em lote).

O que é e para quem serve

  • OCR 3 foi projetado para cargas de trabalho empresariais comuns.
  • Otimizado para formulários, documentos escaneados, tabelas complexas e texto manuscrito.
  • Em avaliações internas, o modelo obteve 74% de ganho em relação ao OCR 2 em uma métrica de comparação flexível contra dados de referência, segundo a empresa.

Para comparar avanços em OCR e modelos de visão e linguagem, veja também iniciativas recentes como o HunyuanOCR da Tencent e o Dots OCR, modelo VL para análise de documentos, que ilustram tendências no reconhecimento de documentos.

Entradas, saídas e formato da resposta

Você pode enviar arquivos de várias formas. A resposta vem em JSON com informações por página.

Entradas aceitas:

  • document_url para PDFs, PPTX, DOCX e formatos semelhantes
  • image_url para PNG, JPEG, AVIF
  • Uploads diretos ou arquivos em base64

A resposta inclui (por página):

  • Índice da página e texto em que preserva o layout
  • Listas de imagens e tabelas (quando table_format="html")
  • Links detectados, campos opcionais de cabeçalho e rodapé
  • Objeto dimensions com o tamanho da página
  • document_annotation com anotações estruturadas
  • usage_info para contabilização

Marcação de mídia:

  • O contém placeholders como ![img-0.jpeg] e [tbl-3.html].
  • Esses placeholders são vinculados aos arrays de imagens e tabelas na resposta, o que facilita a reconstrução do documento.

Se o seu fluxo exige conversão direta para ou otimizações na conversão, vale conferir abordagens de conversão como o Nu para entender estratégias complementares de produção de a partir de documentos.

Melhorias em relação ao OCR 2

O lançamento traz avanços em quatro áreas principais, relevantes para aplicações empresariais:

  • Reconhecimento de manuscrito: maior precisão em anotações cursivas e mistas.
  • Processamento de formulários: detecção aprimorada de caixas, rótulos e entradas manuscritas.
  • Robustez em documentos scaneados: melhor tolerância a artefatos de compressão, inclinação, baixa resolução e ruído de fundo.
  • Reconstrução de tabelas complexas: identificação de cabeçalhos, células mescladas e blocos com várias linhas.

Para entender como OCR baseado em IA tem melhorado a leitura de imagens e documentos, consulte análises sobre OCR com IA aplicados à leitura de imagens e comparativos com outras soluções mais leves ou orientadas a edge, como as descritas em modelos de visão e linguagem para dispositivos de borda.

Preços e opções de processamento em lote

Tabela de preços por 1.000 páginas:

  • OCR padrãoUS$ 2
  • OCR com anotações estruturadasUS$ 3

Desconto em lote: trabalhos via /v1/batch recebem 50% de desconto, ficando US$ 1 por 1.000 páginas para OCR padrão e US$ 1,50 por 1.000 páginas para páginas anotadas.

Recursos de anotação:

  • Annotations – Structured para rotular regiões conforme esquemas
  • BBox Extraction para obter caixas delimitadoras de texto e elementos

Se reduzir custo de armazenamento ou acelerar o pipeline de extração é crítico para você, há abordagens que comprimem e otimizam documentos antes do OCR, como soluções que visam reduzir tamanho e converter documentos para formatos mais eficientes — compare com propostas semelhantes em produtos recentes como o Deepseek e utilitários que compactam documentos para respostas mais rápidas, como o Clara da Apple.

Como acessar e integrar

  • Experimente no Document AI Playground do Mistral AI Studio enviando PDFs ou imagens para obter texto limpo ou JSON sem código.
  • Migre para a API pública para cargas de produção sem alterar o modelo subjacente.
  • Use a Batch API para processar grandes volumes com desconto.
  • A saída inclui placeholders (ex.: ![img-0.jpeg], [tbl-3.html]) que se mapeiam nas arrays images e tables, simplificando a reconstrução em sistemas externos.

Para quem prefere construir internamente, há guias práticos sobre como montar um pipeline OCR com ferramentas open source — por exemplo, um guia para criar agente OCR multilingue com EasyOCR e OpenCV que pode ser integrado em etapas pré e pós-processamento antes de enviar documentos para serviços como o Mistral OCR 3.

Conclusão

O Mistral OCR 3 chega como uma lente poderosa para seus documentos: lê texto e imagens intercalados, preserva a estrutura e entrega saída em (com tabelas em HTML) pronta para integrar em pipelines e agentes. É mais preciso em manuscritos, formulários e tabelas complexas, e mais robusto contra scans ruins — resolvendo dores reais do dia a dia. Funciona no Document AI, no Playground e via API pública, com opção de Batch API que reduz o custo por página. Se você busca automatizar fluxos, reduzir trabalho manual e manter a estrutura dos arquivos, vale a pena testar as anotações estruturadas no Playground.

Quer se aprofundar? Leia mais artigos em https://blog.aidirectory.com.br.

Perguntas frequentes

  • O que é o Mistral OCR 3 e para que serve?
    É o novo OCR da Mistral (mistral-ocr-2512). Extrai texto, imagens e tabelas de PDFs e imagens, mantendo a estrutura do documento para uso em fluxos de dados.
  • Quais formatos de entrada e que saída ele gera?
    Aceita documenturl (PDF, PPTX, DOCX), imageurl (PNG, JPEG, AVIF) e uploads/base64. Retorna JSON com pages, que preserva layout, imagens e tabelas (HTML se ativado), além de annotations, bounding boxes e usage_info.
  • Quais são as melhorias em relação ao OCR 2?
    Reconhecimento de escrita manual muito melhor; formulários e tabelas complexas reconstruídos com mais precisão; mais robusto contra scans ruins, distorção e ruído. Em testes internos teve 74% de ganho.
  • Quanto custa e como funciona o desconto por lote?
    Custa US$ 2 por 1.000 páginas padrão; anotações estruturadas a US$ 3 por 1.000 páginas. Via Batch API há 50% de desconto (US$ 1 por 1.000 páginas padrão; US$ 1,50 por 1.000 páginas com anotações).
  • Como integrar no meu sistema ou usar em produção?
    Está no Mistral Document AI e no Studio Playground. A mesma API pública serve para exploração e produção. Saída inclui placeholders que se mapeiam nas arrays images e tables.

Leituras relacionadas:

Se você quiser conhecer outros artigos semelhantes a Mistral AI lança novo OCR leve para extrair texto imagens e tabelas de documentos com baixo custo, você pode visitar a categoria Notícias e Tendências.

Go up