Content

1 Benchmark-Leistung
2 Wichtige Erkenntnisse
3 DeepSeek-OCR-Architektur
4 Trainingsdaten
5 Leistung und Benchmarks
6 Praktische Anwendungen
7 Implementierung
8 Auswahl eines Auflösungsmodus
9 Einschränkungen und wichtige Hinweise
10 Häufig gestellte Fragen
11 Fazit

Vijona

vor 3 Stunden

DeepSeek-OCR für effiziente Dokumentenverarbeitung

Large Language Models (LLMs) und Vision-Language Models (VLMs) stehen häufig vor dem Problem, dass die Verarbeitung langer Dokumente sehr rechenintensiv ist. Je umfangreicher ein Dokument wird, desto stärker steigt auch die Anzahl der Tokens. Das führt zu höherem Speicherbedarf, langsamerer Inferenz und steigenden Betriebskosten.

DeepSeek-OCR ist ein Proof-of-Concept, der die Effizienz durch optische Kontextkompression verbessern soll. Dabei werden Dokumentseiten als visuelle Tokens dargestellt, wodurch sich die Token-Anzahl im Vergleich zu einer rein textbasierten Darstellung deutlich reduzieren lässt. Zur Bewertung der Leistungsfähigkeit wird OCR (Optical Character Recognition) genutzt. Das Paper beschreibt OCR als besonders geeignetes Testszenario für dieses Vision-Text-Kompressionsverfahren, da OCR eine natürliche Abbildung von visuellen zu textuellen Informationen ermöglicht und zugleich messbare Bewertungsmetriken bereitstellt. DeepSeek-OCR reduziert die Token-Anzahl um den Faktor 7 bis 20 und erreicht dennoch starke Benchmark-Ergebnisse. Dadurch eignet sich der Ansatz für eine effiziente Dokumentenverarbeitung in großem Maßstab sowie für die Generierung von Trainingsdaten.

DeepSeek-OCR basiert auf zwei zentralen Komponenten: DeepEncoder komprimiert Dokumentbilder in eine kompakte Menge visueller Tokens, während DeepSeek-3B-MoE als Decoder den ursprünglichen Text aus diesen Tokens rekonstruiert. Das Modell ist darauf ausgelegt, Effizienz und Genauigkeit miteinander zu verbinden. Auf Benchmarks wie OmniDocBench und Fox erzielt es konkurrenzfähige Ergebnisse und benötigt dabei weniger Tokens als viele bestehende Ansätze.

Benchmark-Leistung

Im Bereich allgemeiner Cloud- und KI-Infrastruktur wurden bereits mehrere OCR-Modelle behandelt, darunter Dolphin, olm-OCR, rolm-OCR, smoldocling und weitere.

Wichtige Erkenntnisse

Optische Kontextkompression für geringere Rechenkosten

DeepSeek-OCR führt optische Kontextkompression ein. Diese Technik kodiert Dokumentseiten als visuelle Tokens. Da der Token-Bedarf im Vergleich zu klassischen Text-Tokens um den Faktor 7 bis 20 reduziert wird, kann auch der gesamte Rechenaufwand sinken.

Architektur

Das Modell kombiniert DeepEncoder für visuelle Tokenisierung und Kompression mithilfe von SAM und CLIP mit DeepSeek-3B-MoE-A570M, einem effizienten Mixture-of-Experts-(MoE)-Decoder zur Rekonstruktion des Textes.

Effizienz und Genauigkeit

DeepSeek-OCR bietet ein starkes Verhältnis zwischen Leistung und Ressourceneinsatz. Bei Kompressionsraten unter 10x erreicht das Modell etwa 97 % OCR-Präzision. Das bedeutet, dass die Anzahl der Text-Tokens innerhalb des Zehnfachen der Vision-Tokens bleibt. Gleichzeitig übertrifft es bestehende Modelle auf Benchmarks wie OmniDocBench und benötigt dabei deutlich weniger Tokens.

Trainingsdaten

Das Modell wurde mit mehr als 30 Millionen PDF-Seiten in über 100 Sprachen trainiert. Zusätzlich kamen spezialisierte OCR-2.0-Daten mit Diagrammen, Formeln und Abbildungen zum Einsatz. Dadurch besitzt DeepSeek-OCR robuste Fähigkeiten für unterschiedliche Dokumentarten und komplexe visuelle Inhalte.

Anwendungsfälle

DeepSeek-OCR eignet sich besonders für die großflächige Digitalisierung von Dokumenten, die Generierung von Trainingsdaten für LLMs und VLMs, mehrsprachige Dokumentenverarbeitung sowie strukturierte Datenextraktion aus technischen Dokumenten.

DeepSeek-OCR-Architektur

DeepEncoder: Visuelle Tokenisierung

DeepEncoder ist ein Vision Encoder, der darauf ausgelegt ist, den Aktivierungsspeicher auch bei hochauflösenden Eingaben gering zu halten.

Lokale Aufmerksamkeit über SAM (Segment Anything Model): Mit 80 Millionen Parametern erfasst SAM feine visuelle Details und Layoutinformationen.

Globale Aufmerksamkeit über CLIP (Contrastive Language–Image Pre-training): Mit 300 Millionen Parametern extrahiert CLIP semantische Merkmale aus den komprimierten visuellen Tokens.

Decoder: DeepSeek3B-MoE-A570M

Der Decoder nutzt die Mixture-of-Experts-(MoE)-Architektur von DeepSeek. Während der Inferenz wird nur ein Teil der insgesamt 3 Milliarden Parameter aktiviert, ungefähr 570 Millionen. Der Vorteil von MoE liegt darin, dass eine effiziente Verarbeitung möglich ist, während gleichzeitig eine Leistung erreicht wird, die mit größeren Modellen vergleichbar ist. Der Decoder rekonstruiert den ursprünglichen Text aus den komprimierten visuellen Tokens und erhält dabei Layout und Inhalte so weit wie möglich.

Trainingsdaten

DeepSeek-OCR wurde mit einem umfangreichen und vielfältigen Datensatz trainiert, um zuverlässige Ergebnisse über unterschiedliche Dokumentformate und Sprachen hinweg zu ermöglichen. Die Trainingsdaten umfassen mehr als 30 Millionen PDF-Seiten in über 100 Sprachen, mit einem besonderen Schwerpunkt auf Chinesisch und Englisch. Zusätzlich wurde das Modell mit OCR-2.0-Daten trainiert, darunter 10 Millionen synthetische Diagramme, 5 Millionen chemische Formeln und 1 Million geometrische Figuren. Dadurch geht das Modell über einfache Texterkennung hinaus und kann auch spezialisierte Inhalte wie wissenschaftliche Diagramme und Finanzgrafiken verarbeiten. Dieser breit angelegte Trainingsansatz ermöglicht es DeepSeek-OCR, viele Dokumenttypen und Sprachen zuverlässig zu verarbeiten und auch bei komplexen visuellen Elementen starke Ergebnisse zu liefern.

Leistung und Benchmarks

Kompression vs. Genauigkeit

Die Genauigkeit von DeepSeek-OCR hängt von der gewählten Kompressionsrate ab. Bei Kompressionsstufen unter 10x erreicht das Modell ungefähr 97 % OCR-Präzision und kann den ursprünglichen Text mit nur geringen Verlusten rekonstruieren. Bei einer Kompression von 20x sinkt die Genauigkeit auf etwa 60 %. Für Archivierungszwecke oder sekundäre Anwendungsfälle kann dies dennoch ausreichend sein.

Vergleichende Ergebnisse

Auf dem OmniDocBench-Benchmark erzielt DeepSeek-OCR bessere Ergebnisse als konkurrierende Modelle und benötigt dabei weniger Tokens. Mit 100 Tokens pro Seite übertrifft es GOT-OCR2.0, das üblicherweise 256 Tokens pro Seite verwendet. Mit weniger als 800 Tokens pro Seite übertrifft es außerdem MinerU2.0, das häufig mehr als 6.000 Tokens pro Seite benötigt.

Praktische Anwendungen

DeepSeek-OCR kann in verschiedenen praktischen Szenarien eingesetzt werden. Bei der großflächigen Digitalisierung von Dokumenten können Bibliotheken, juristische Organisationen und Forschungseinrichtungen große Dokumentenmengen effizienter verarbeiten. KI-Labore können das Modell zur Erzeugung von Trainingsdaten nutzen, um Text-Bild-Paare für das Pretraining von LLMs zu erstellen und Datenknappheit zu reduzieren. Da das Modell mehr als 100 Sprachen unterstützt, eignet es sich für mehrsprachige Dokumentenverarbeitung in internationalen Umgebungen. Die Fähigkeit, Diagramme, Tabellen und Formeln zu analysieren, macht DeepSeek-OCR außerdem wertvoll für strukturierte Datenextraktion aus technischen und finanziellen Dokumenten.

Implementierung

Copy Code


from transformers import AutoModel, AutoTokenizer
import torch

model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name,
    _attn_implementation="flash_attention_2",
    trust_remote_code=True,
    use_safetensors=True
).eval().cuda().to(torch.bfloat16)

# Load an image and run OCR
from PIL import Image
image = Image.open("document.png").convert("RGB")
prompt = "<image>\nFree OCR."
inputs = tokenizer(prompt, images=[image], return_tensors="pt").to("cuda")
output = model.generate(**inputs)
print(tokenizer.decode(output[0]))

Auswahl eines Auflösungsmodus

Modus	Auflösung	Vision Tokens	Typischer Anwendungsfall
Tiny	512×512	64	Schnelle Vorschauen und niedrig aufgelöste Dokumente
Small	640×640	100	Standarddokumente
Base	1024×1024	256	Hochauflösende Seiten
Large	1280×1280	400	Komplexe Layouts
Gundam	Dynamisch	795+	Mehrspaltige und dichte Dokumente

Einschränkungen und wichtige Hinweise

Beim Einsatz von DeepSeek-OCR sollten mehrere Faktoren berücksichtigt werden. Im Verhältnis von Genauigkeit zu Kompression können Kompressionsraten über 10x die Genauigkeit verringern, insbesondere bei dichten oder niedrig aufgelösten Dokumenten. Der Gundam-Modus verbessert zwar die Verarbeitung mehrspaltiger Layouts, sehr komplexe Dokumente wie Zeitungen können aufgrund ihrer Layoutstruktur dennoch eine manuelle Prüfung erfordern. Für die beste Leistung benötigt das Modell NVIDIA-GPUs mit CUDA-Unterstützung.

Häufig gestellte Fragen

Was ist DeepSeek-OCR?

DeepSeek-OCR ist ein Open-Source-Vision-Language-Model (VLM), das von DeepSeek-AI für effizientes Dokumentenverständnis und OCR-Aufgaben entwickelt wurde. Es wandelt Dokumentbilder in strukturierten Text um und nutzt dabei Optical Context Compression, um den Rechenaufwand deutlich zu reduzieren und die Verarbeitungseffizienz zu verbessern.

Wie erreicht DeepSeek-OCR seine hohe Effizienz?

Das Modell verwendet optische Kontextkompression über seine DeepEncoder-Komponente. Anstatt eine vollständige Seite in eine lange Sequenz aus Text-Tokens umzuwandeln, komprimiert es die visuellen Informationen in eine kompakte Menge visueller Tokens. Diese Tokens sind 7 bis 20 Mal weniger zahlreich als klassische Text-Tokens und werden anschließend vom DeepSeek-3B-MoE-Decoder dekodiert. Diese Token-Reduzierung ermöglicht schnellere Inferenz und geringeren Speicherbedarf.

Wie ist DeepSeek-OCR aufgebaut?

Das Modell besteht aus zwei Hauptkomponenten:

DeepEncoder: Komprimiert Dokumentbilder zu visuellen Tokens und nutzt dafür SAM für lokale visuelle Details sowie CLIP für globalen semantischen Kontext.
DeepSeek-3B-MoE-A570M: Ein effizienter Mixture-of-Experts-(MoE)-Decoder, der Text aus visuellen Tokens rekonstruiert. Das Modell besitzt insgesamt 3 Milliarden Parameter, aktiviert während der Inferenz jedoch nur etwa 570 Millionen davon.

Welcher Kompromiss besteht zwischen Kompression und Genauigkeit?

DeepSeek-OCR hält die Genauigkeit bei moderaten Kompressionsraten von bis zu 10x hoch und erreicht etwa 97 % OCR-Präzision. Wenn die Kompression über 10x hinaus erhöht wird, beispielsweise auf 20x, sinkt die Genauigkeit auf ungefähr 60 %. Nutzer müssen daher einen Kompressionsmodus wählen, der zu den jeweiligen Anforderungen an Präzision und Effizienz passt.

Mit welchen Daten wurde DeepSeek-OCR trainiert?

Das Modell wurde mit einem großen Datensatz von mehr als 30 Millionen PDF-Seiten in über 100 Sprachen trainiert. Zusätzlich kamen OCR-2.0-Daten zum Einsatz, die Millionen synthetischer Diagramme, chemischer Formeln und geometrischer Figuren enthalten. Dadurch kann das Modell komplexe und spezialisierte visuelle Elemente über einfachen Text hinaus verarbeiten.

Kann DeepSeek-OCR mehrsprachige Dokumente verarbeiten?

Ja. Da die Trainingsdaten mehr als 100 Sprachen abdecken und einen starken Schwerpunkt auf Chinesisch und Englisch enthalten, eignet sich DeepSeek-OCR gut für mehrsprachige Dokumentenverarbeitung und internationale Anwendungsfälle.

Was sind die wichtigsten Einsatzbereiche von DeepSeek-OCR?

Zu den zentralen Anwendungen gehören:

Großflächige Dokumentendigitalisierung: Effiziente Verarbeitung großer Dokumentenmengen, zum Beispiel in Archiven oder juristischen Unterlagen.
Generierung von KI-Trainingsdaten: Erstellung hochwertiger Text-Bild-Paare für das Pretraining anderer LLMs und VLMs.
Strukturierte Datenextraktion: Analyse komplexer Elemente wie Diagramme, Tabellen und wissenschaftlicher Formeln aus technischen Dokumenten.
Mehrsprachige Verarbeitung: Verarbeitung von Dokumenten in mehr als 100 Sprachen.

Fazit

Die Architektur des Modells, bestehend aus DeepEncoder und DeepSeek3B-MoE-A570M, zeigt praktischen Nutzen bei der Generierung von Trainingsdaten für LLMs und VLMs. DeepSeek-OCR kombiniert optische Kontextkompression, Unterstützung für mehrere Auflösungsmodi und Open-Source-Verfügbarkeit. Dadurch eignet sich das Modell für Anwendungen von der Archivdigitalisierung bis zur Generierung von KI-Trainingsdaten.

Wer die Möglichkeiten des Modells testen möchte, findet DeepSeek-OCR auf GitHub und Hugging Face. Es kann auf GPU-basierter Cloud-Infrastruktur ausgeführt werden. Architektur und Leistung deuten darauf hin, dass der Ansatz auch breiteres Potenzial für KI-Effizienz und Long-Context-Verarbeitung besitzt.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

gpt-oss 120b mit vLLM auf AMD MI300X GPUs bereitstellen

AI/ML, Tutorial

vor 3 Stunden

Vijonavor 3 Stunden gpt-oss 120b mit vLLM auf AMD-GPUs ausführen Eine der wichtigsten Fragen beim Einstieg in groß angelegte LLM-Technologien ist die verfügbare Rechenleistung. VRAM, Durchsatz, Hardwarearchitektur und Software-Stacks können sich…

Hidden Markov Models: Theorie, Algorithmen & Python

AI/ML, Tutorial

vor 3 Stunden

Vijonavor 3 Stunden Hidden Markov Models: Theorie, Algorithmen, Python-Implementierung und moderne Alternativen Hidden Markov Models (HMMs) sind probabilistische Modelle des maschinellen Lernens, die Muster in sequenziellen Daten erkennen können. Ein HMM…

Agentenkommunikationsprotokolle einfach erklärt

AI/ML, Tutorial

vor 4 Stunden

VijonaHeute um 12:45 Uhr Agentenkommunikationsprotokolle: Wie autonome KI-Systeme Informationen austauschen In den vergangenen Jahren hat sich künstliche Intelligenz rasant von einem vorwiegend forschungsgetriebenen Bereich zu einer Technologie entwickelt, die in praktischen…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!