Mistral OCR 4: Neues OCR-Modell mit Bounding-Boxes, Block-Klassifikation und 170 Sprachen

Stand: 24. Juni 2026, 00:25 Uhr CEST. Mistral hat am 23. Juni 2026 sein neues Mistral OCR 4 veroeffentlicht und damit einen deutlichen Sprung gegenueber der vorherigen Generation gemacht. Wobei fruehere OCR-Modelle saubere Textextraktion und Tabellenstruktur liefern, liefert OCR 4 eine vollstaendig strukturierte Repraesentation des Dokuments: Jeder Textblock wird mit einer Bounding-Box lokaliert, nach Typ klassifiziert (Ueberschriften, Tabellen, Gleichungen, Signaturen und mehr) und mit Confidence-Scores auf Wort- und Seitenebene versehen. Das ist keine reine Texterkennung mehr, sondern eine Dokumenten-Strukturierung, die direkt in RAG-Pipelines, Agenten-Workflows und Enterprise-Search-Systeme eingespeist werden kann.

Warum das jetzt relevant ist, zeigt die Kombination aus Praxis-Offenheit und Leistungsdaten. Mistral OCR 4 unterstuetzt 170 Sprachen in 10 Sprachgruppen, laesst sich in einem einzigen Container selbst hosten und erreicht auf dem publichen OlmOCRBench einen Spitzenwert von 85,20. In menschlichen Vergleichen belegen unabhaengige Annotatoren das Modell gegenueber allen getesteten OCR- und Document-AI-Systemen mit durchschnittlichen Sieg-Raten von 72 Prozent. Fuer Entwickler und IT-Teams bedeutet das: Ein kompaktes, selbst deploybares Modell, das Dokumente nicht nur liesen, sondern strukturiert und vertrauenswuerdig aufbereiten kann.

Was OCR 4 technisch unterscheidet

Mistral OCR 4 ist bewusst als kleines, fokussiertes Modell positioniert. Es nimmt gaengige Unternehmensformate entgegen - PDF, DOC, PPT und OpenDocument - und liefert fuer jede Seite eine strukturierte Antwort mit fuenf Komponenten:

Extrahierter Text in Markdown-Struktur
Bounding-Boxes fuer jede Texteinheit (Zeichenkoordinaten auf der Seite)
Block-Klassifikation (Ueberschriften, Tabellen, Gleichungen, Signaturen, Bilder, Fusszeilen und mehr)
Confidence-Scores pro Seite und pro Wort
Seiten- und Absatz-Metadaten

Diese Struktur ist der entscheidende Unterschied zu klassischen OCR-Tools, die nur Fließtext oder HTML-Tabellen ausgeben. Mit Bounding-Boxen koennen Downstream-Systeme Text auf der Quellseite hervorheben, Zitate exakt zuordnen oder Redaktionen durchfuehren. Die Block-Klassifikation ermoeglicht semantisches Chunking fuer RAG, und die Confidence-Scores erlauben es, menschliche Pruefungen dort zu konzentrieren, wo das Modell unsicher ist.

Preise und Verfuegbarkeit

Mistral OCR 4 ist ab sofort ueber mehrere Wege verfuegbar:

API-Preis: 4 Dollar pro 1.000 Seiten
Batch-API: 2 Dollar pro 1.000 Seiten (50 Prozent Rabatt)
Document AI (mit JSON-Schema und benutzerdefinierten Prompts): 5 Dollar pro 1.000 Seiten
Selbsthosting: Fuer Enterprise-Kunden mit Datenanforderungen, die eine eigene Infrastruktur erfordern

Das Modell ist ueber Mistral Studio, Amazon SageMaker und Microsoft Foundry erreichbar. Snowflake Parse Document soll in Kuertze folgen.

Benchmarks und Limitationen

Mistral selbst nennt transparent die Staerken und Schwaechen der verfuegbarkeit Benchmarks. Auf dem OlmOCRBench erreicht OCR 4 den besten Gesamtwert aller getesteten Modelle (85,20), auf OmniDocBench kommt es zu 93,07. Das Unternehmen warnt jedoch vor automatisierten Scores, weil diese bestimmte korrekte Extraktionen falsch bestrafen koennen - etwa bei mathematischen Gleichungen mit aequivalenter LaTeX-Notation oder bei Spaltenuebergaengen, wo "Zertifika-geteilt" fälschlich als Fehler gewertet wird.

In der internen Crawl-Multilingual-Evaluation fuehrt OCR 4 in allen acht Sprachgruppen an - mit dem groessten Vorteil bei Spezial- und Low-Resource-Sprachen, wo konkurrierende Systeme stark verfallen. Die Luecke ist besonders bei Hindi, Japanisch, Georgisch, Bengali, Armenisch, Hebraeisch, Gujarati, Tamil, Malayalam, Kannada und Telugu sichtbar.

Integration in Search Toolkit

OCR 4 ist auch als Komponente von Mistrals Search Toolkit oeffentlich verfuegbar. Das ist ein quelloffenes, zusammensetzbares Suchframework, das OCR 4 als Ingestions-Schritt nutzt und die strukturierten Ergebnisse direkt in Retrieval-Pipelines fuer RAG und Enterprise Search einspeist. Fuer Entwickler bedeutet das: Extraktion, Indexierung und Wiedergabe koennen in einem einzigen Workflow verbunden werden.