DeepSeek-OCR für effiziente Dokumentenverarbeitung
Large Language Models (LLMs) und Vision-Language Models (VLMs) stehen häufig vor dem Problem, dass die Verarbeitung langer Dokumente sehr rechenintensiv ist. Je umfangreicher ein Dokument wird, desto stärker steigt auch die Anzahl der Tokens. Das führt zu höherem Speicherbedarf, langsamerer Inferenz und steigenden Betriebskosten.
DeepSeek-OCR ist ein Proof-of-Concept, der die Effizienz durch optische Kontextkompression verbessern soll. Dabei werden Dokumentseiten als visuelle Tokens dargestellt, wodurch sich die Token-Anzahl im Vergleich zu einer rein textbasierten Darstellung deutlich reduzieren lässt. Zur Bewertung der Leistungsfähigkeit wird OCR (Optical Character Recognition) genutzt. Das Paper beschreibt OCR als besonders geeignetes Testszenario für dieses Vision-Text-Kompressionsverfahren, da OCR eine natürliche Abbildung von visuellen zu textuellen Informationen ermöglicht und zugleich messbare Bewertungsmetriken bereitstellt. DeepSeek-OCR reduziert die Token-Anzahl um den Faktor 7 bis 20 und erreicht dennoch starke Benchmark-Ergebnisse. Dadurch eignet sich der Ansatz für eine effiziente Dokumentenverarbeitung in großem Maßstab sowie für die Generierung von Trainingsdaten.
DeepSeek-OCR basiert auf zwei zentralen Komponenten: DeepEncoder komprimiert Dokumentbilder in eine kompakte Menge visueller Tokens, während DeepSeek-3B-MoE als Decoder den ursprünglichen Text aus diesen Tokens rekonstruiert. Das Modell ist darauf ausgelegt, Effizienz und Genauigkeit miteinander zu verbinden. Auf Benchmarks wie OmniDocBench und Fox erzielt es konkurrenzfähige Ergebnisse und benötigt dabei weniger Tokens als viele bestehende Ansätze.
Benchmark-Leistung
Im Bereich allgemeiner Cloud- und KI-Infrastruktur wurden bereits mehrere OCR-Modelle behandelt, darunter Dolphin, olm-OCR, rolm-OCR, smoldocling und weitere.
Wichtige Erkenntnisse
Optische Kontextkompression für geringere Rechenkosten
DeepSeek-OCR führt optische Kontextkompression ein. Diese Technik kodiert Dokumentseiten als visuelle Tokens. Da der Token-Bedarf im Vergleich zu klassischen Text-Tokens um den Faktor 7 bis 20 reduziert wird, kann auch der gesamte Rechenaufwand sinken.
Architektur
Das Modell kombiniert DeepEncoder für visuelle Tokenisierung und Kompression mithilfe von SAM und CLIP mit DeepSeek-3B-MoE-A570M, einem effizienten Mixture-of-Experts-(MoE)-Decoder zur Rekonstruktion des Textes.
Effizienz und Genauigkeit
DeepSeek-OCR bietet ein starkes Verhältnis zwischen Leistung und Ressourceneinsatz. Bei Kompressionsraten unter 10x erreicht das Modell etwa 97 % OCR-Präzision. Das bedeutet, dass die Anzahl der Text-Tokens innerhalb des Zehnfachen der Vision-Tokens bleibt. Gleichzeitig übertrifft es bestehende Modelle auf Benchmarks wie OmniDocBench und benötigt dabei deutlich weniger Tokens.
Trainingsdaten
Das Modell wurde mit mehr als 30 Millionen PDF-Seiten in über 100 Sprachen trainiert. Zusätzlich kamen spezialisierte OCR-2.0-Daten mit Diagrammen, Formeln und Abbildungen zum Einsatz. Dadurch besitzt DeepSeek-OCR robuste Fähigkeiten für unterschiedliche Dokumentarten und komplexe visuelle Inhalte.
Anwendungsfälle
DeepSeek-OCR eignet sich besonders für die großflächige Digitalisierung von Dokumenten, die Generierung von Trainingsdaten für LLMs und VLMs, mehrsprachige Dokumentenverarbeitung sowie strukturierte Datenextraktion aus technischen Dokumenten.
DeepSeek-OCR-Architektur
DeepEncoder: Visuelle Tokenisierung
DeepEncoder ist ein Vision Encoder, der darauf ausgelegt ist, den Aktivierungsspeicher auch bei hochauflösenden Eingaben gering zu halten.
Lokale Aufmerksamkeit über SAM (Segment Anything Model): Mit 80 Millionen Parametern erfasst SAM feine visuelle Details und Layoutinformationen.
Globale Aufmerksamkeit über CLIP (Contrastive Language–Image Pre-training): Mit 300 Millionen Parametern extrahiert CLIP semantische Merkmale aus den komprimierten visuellen Tokens.
Decoder: DeepSeek3B-MoE-A570M
Der Decoder nutzt die Mixture-of-Experts-(MoE)-Architektur von DeepSeek. Während der Inferenz wird nur ein Teil der insgesamt 3 Milliarden Parameter aktiviert, ungefähr 570 Millionen. Der Vorteil von MoE liegt darin, dass eine effiziente Verarbeitung möglich ist, während gleichzeitig eine Leistung erreicht wird, die mit größeren Modellen vergleichbar ist. Der Decoder rekonstruiert den ursprünglichen Text aus den komprimierten visuellen Tokens und erhält dabei Layout und Inhalte so weit wie möglich.
Trainingsdaten
DeepSeek-OCR wurde mit einem umfangreichen und vielfältigen Datensatz trainiert, um zuverlässige Ergebnisse über unterschiedliche Dokumentformate und Sprachen hinweg zu ermöglichen. Die Trainingsdaten umfassen mehr als 30 Millionen PDF-Seiten in über 100 Sprachen, mit einem besonderen Schwerpunkt auf Chinesisch und Englisch. Zusätzlich wurde das Modell mit OCR-2.0-Daten trainiert, darunter 10 Millionen synthetische Diagramme, 5 Millionen chemische Formeln und 1 Million geometrische Figuren. Dadurch geht das Modell über einfache Texterkennung hinaus und kann auch spezialisierte Inhalte wie wissenschaftliche Diagramme und Finanzgrafiken verarbeiten. Dieser breit angelegte Trainingsansatz ermöglicht es DeepSeek-OCR, viele Dokumenttypen und Sprachen zuverlässig zu verarbeiten und auch bei komplexen visuellen Elementen starke Ergebnisse zu liefern.
Leistung und Benchmarks
Kompression vs. Genauigkeit
Die Genauigkeit von DeepSeek-OCR hängt von der gewählten Kompressionsrate ab. Bei Kompressionsstufen unter 10x erreicht das Modell ungefähr 97 % OCR-Präzision und kann den ursprünglichen Text mit nur geringen Verlusten rekonstruieren. Bei einer Kompression von 20x sinkt die Genauigkeit auf etwa 60 %. Für Archivierungszwecke oder sekundäre Anwendungsfälle kann dies dennoch ausreichend sein.
Vergleichende Ergebnisse
Auf dem OmniDocBench-Benchmark erzielt DeepSeek-OCR bessere Ergebnisse als konkurrierende Modelle und benötigt dabei weniger Tokens. Mit 100 Tokens pro Seite übertrifft es GOT-OCR2.0, das üblicherweise 256 Tokens pro Seite verwendet. Mit weniger als 800 Tokens pro Seite übertrifft es außerdem MinerU2.0, das häufig mehr als 6.000 Tokens pro Seite benötigt.
Praktische Anwendungen
DeepSeek-OCR kann in verschiedenen praktischen Szenarien eingesetzt werden. Bei der großflächigen Digitalisierung von Dokumenten können Bibliotheken, juristische Organisationen und Forschungseinrichtungen große Dokumentenmengen effizienter verarbeiten. KI-Labore können das Modell zur Erzeugung von Trainingsdaten nutzen, um Text-Bild-Paare für das Pretraining von LLMs zu erstellen und Datenknappheit zu reduzieren. Da das Modell mehr als 100 Sprachen unterstützt, eignet es sich für mehrsprachige Dokumentenverarbeitung in internationalen Umgebungen. Die Fähigkeit, Diagramme, Tabellen und Formeln zu analysieren, macht DeepSeek-OCR außerdem wertvoll für strukturierte Datenextraktion aus technischen und finanziellen Dokumenten.
Implementierung
from transformers import AutoModel, AutoTokenizer
import torch
model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation="flash_attention_2",
trust_remote_code=True,
use_safetensors=True
).eval().cuda().to(torch.bfloat16)
# Load an image and run OCR
from PIL import Image
image = Image.open("document.png").convert("RGB")
prompt = "<image>\nFree OCR."
inputs = tokenizer(prompt, images=[image], return_tensors="pt").to("cuda")
output = model.generate(**inputs)
print(tokenizer.decode(output[0]))
Auswahl eines Auflösungsmodus
| Modus | Auflösung | Vision Tokens | Typischer Anwendungsfall |
|---|---|---|---|
| Tiny | 512×512 | 64 | Schnelle Vorschauen und niedrig aufgelöste Dokumente |
| Small | 640×640 | 100 | Standarddokumente |
| Base | 1024×1024 | 256 | Hochauflösende Seiten |
| Large | 1280×1280 | 400 | Komplexe Layouts |
| Gundam | Dynamisch | 795+ | Mehrspaltige und dichte Dokumente |
Einschränkungen und wichtige Hinweise
Beim Einsatz von DeepSeek-OCR sollten mehrere Faktoren berücksichtigt werden. Im Verhältnis von Genauigkeit zu Kompression können Kompressionsraten über 10x die Genauigkeit verringern, insbesondere bei dichten oder niedrig aufgelösten Dokumenten. Der Gundam-Modus verbessert zwar die Verarbeitung mehrspaltiger Layouts, sehr komplexe Dokumente wie Zeitungen können aufgrund ihrer Layoutstruktur dennoch eine manuelle Prüfung erfordern. Für die beste Leistung benötigt das Modell NVIDIA-GPUs mit CUDA-Unterstützung.
Häufig gestellte Fragen
Was ist DeepSeek-OCR?
DeepSeek-OCR ist ein Open-Source-Vision-Language-Model (VLM), das von DeepSeek-AI für effizientes Dokumentenverständnis und OCR-Aufgaben entwickelt wurde. Es wandelt Dokumentbilder in strukturierten Text um und nutzt dabei Optical Context Compression, um den Rechenaufwand deutlich zu reduzieren und die Verarbeitungseffizienz zu verbessern.
Wie erreicht DeepSeek-OCR seine hohe Effizienz?
Das Modell verwendet optische Kontextkompression über seine DeepEncoder-Komponente. Anstatt eine vollständige Seite in eine lange Sequenz aus Text-Tokens umzuwandeln, komprimiert es die visuellen Informationen in eine kompakte Menge visueller Tokens. Diese Tokens sind 7 bis 20 Mal weniger zahlreich als klassische Text-Tokens und werden anschließend vom DeepSeek-3B-MoE-Decoder dekodiert. Diese Token-Reduzierung ermöglicht schnellere Inferenz und geringeren Speicherbedarf.
Wie ist DeepSeek-OCR aufgebaut?
Das Modell besteht aus zwei Hauptkomponenten:
- DeepEncoder: Komprimiert Dokumentbilder zu visuellen Tokens und nutzt dafür SAM für lokale visuelle Details sowie CLIP für globalen semantischen Kontext.
- DeepSeek-3B-MoE-A570M: Ein effizienter Mixture-of-Experts-(MoE)-Decoder, der Text aus visuellen Tokens rekonstruiert. Das Modell besitzt insgesamt 3 Milliarden Parameter, aktiviert während der Inferenz jedoch nur etwa 570 Millionen davon.
Welcher Kompromiss besteht zwischen Kompression und Genauigkeit?
DeepSeek-OCR hält die Genauigkeit bei moderaten Kompressionsraten von bis zu 10x hoch und erreicht etwa 97 % OCR-Präzision. Wenn die Kompression über 10x hinaus erhöht wird, beispielsweise auf 20x, sinkt die Genauigkeit auf ungefähr 60 %. Nutzer müssen daher einen Kompressionsmodus wählen, der zu den jeweiligen Anforderungen an Präzision und Effizienz passt.
Mit welchen Daten wurde DeepSeek-OCR trainiert?
Das Modell wurde mit einem großen Datensatz von mehr als 30 Millionen PDF-Seiten in über 100 Sprachen trainiert. Zusätzlich kamen OCR-2.0-Daten zum Einsatz, die Millionen synthetischer Diagramme, chemischer Formeln und geometrischer Figuren enthalten. Dadurch kann das Modell komplexe und spezialisierte visuelle Elemente über einfachen Text hinaus verarbeiten.
Kann DeepSeek-OCR mehrsprachige Dokumente verarbeiten?
Ja. Da die Trainingsdaten mehr als 100 Sprachen abdecken und einen starken Schwerpunkt auf Chinesisch und Englisch enthalten, eignet sich DeepSeek-OCR gut für mehrsprachige Dokumentenverarbeitung und internationale Anwendungsfälle.
Was sind die wichtigsten Einsatzbereiche von DeepSeek-OCR?
Zu den zentralen Anwendungen gehören:
- Großflächige Dokumentendigitalisierung: Effiziente Verarbeitung großer Dokumentenmengen, zum Beispiel in Archiven oder juristischen Unterlagen.
- Generierung von KI-Trainingsdaten: Erstellung hochwertiger Text-Bild-Paare für das Pretraining anderer LLMs und VLMs.
- Strukturierte Datenextraktion: Analyse komplexer Elemente wie Diagramme, Tabellen und wissenschaftlicher Formeln aus technischen Dokumenten.
- Mehrsprachige Verarbeitung: Verarbeitung von Dokumenten in mehr als 100 Sprachen.
Fazit
Die Architektur des Modells, bestehend aus DeepEncoder und DeepSeek3B-MoE-A570M, zeigt praktischen Nutzen bei der Generierung von Trainingsdaten für LLMs und VLMs. DeepSeek-OCR kombiniert optische Kontextkompression, Unterstützung für mehrere Auflösungsmodi und Open-Source-Verfügbarkeit. Dadurch eignet sich das Modell für Anwendungen von der Archivdigitalisierung bis zur Generierung von KI-Trainingsdaten.
Wer die Möglichkeiten des Modells testen möchte, findet DeepSeek-OCR auf GitHub und Hugging Face. Es kann auf GPU-basierter Cloud-Infrastruktur ausgeführt werden. Architektur und Leistung deuten darauf hin, dass der Ansatz auch breiteres Potenzial für KI-Effizienz und Long-Context-Verarbeitung besitzt.


