YOLOE: Open-Set-Objekterkennung und Segmentierung für Computer Vision in der Praxis

Objekterkennung und Segmentierung zählen zu den Kernaufgaben der Computer Vision und treiben Anwendungen von autonomem Fahren bis hin zur medizinischen Bildanalyse an. Bekannte Modelle wie die YOLO-Familie gelten als schnell und präzise, sind jedoch meist auf eine feste, vorab definierte Menge an Objektklassen beschränkt. Das wird in realen Umgebungen zum Nachteil, weil dort unbekannte, seltene oder neu auftauchende Objekte auftreten können. Um diese Einschränkung zu lösen, richtet sich aktuelle Forschung stärker auf „Open-Set“-Ansätze aus, die nahezu jedes Objekt erkennen und benennen können – auch Kategorien, die im Training nicht enthalten waren – indem sie Prompts wie Textbeschreibungen oder visuelle Referenzen nutzen.

YOLOE ist ein leistungsstarkes und effizientes Modell, das sich eher wie menschliche Wahrnehmung verhalten soll und im Prinzip jedes Objekt über verschiedene Prompt-Stile erfassen kann: über Text-Prompts, visuelle Hinweise oder sogar ganz ohne Prompt. Es übernimmt die Geschwindigkeit und das schlanke Design, für das YOLO bekannt wurde, erweitert diese Stärken jedoch für deutlich flexiblere Einsätze in realen Szenarien.

So funktioniert YOLOE

Im Folgenden findest du einen Überblick darüber, wie YOLOE in seinen drei unterstützten Prompt-Modi arbeitet.

Text-Prompts (RepRTA-Strategie)

Wenn du das Ziel per Text beschreibst (zum Beispiel „finde alle Fahrräder“), setzt YOLOE eine Methode namens Re-parameterizable Region-Text Alignment (RepRTA) ein. Damit wird verbessert, wie das Modell textliche Absichten mit Bildregionen verknüpft – unterstützt durch ein leichtgewichtiges Hilfsnetzwerk. Zur Inferenzzeit wird diese Hilfskomponente in das Hauptmodell integriert, wodurch weder zusätzliche Kosten noch Verzögerungen entstehen.

Visuelle Prompts (SAVPE-Strategie)

Gibst du eine Beispielregion oder einen visuellen Hinweis vor, nutzt YOLOE den Semantic-Activated Visual Prompt Encoder (SAVPE). Das Konzept teilt die Aufgabe in zwei Pfade auf – einen für das semantische Verständnis und einen für die Aktivierung relevanter Regionen. Diese klare Trennung hilft, die Genauigkeit zu halten, während der Ansatz zugleich schlank und schnell bleibt.

Prompt-frei (LRPC-Strategie)

Wenn kein Prompt angegeben wird, verwendet YOLOE den sogenannten Lazy Region-Prompt Contrast (LRPC)-Mechanismus. Anstatt große und ressourcenintensive Sprachmodelle einzusetzen, gleicht das System erkannte Objekte mit einem internen Satz vordefinierter Kategorien ab. Dadurch bleibt die Leistung hoch, während Speicherverbrauch und Rechenaufwand reduziert werden.

YOLOE ermöglicht Objekterkennung und Segmentierung für eine Vielzahl offener Prompt-Typen. Dies wird durch mehrere spezialisierte Techniken erreicht: re-parameterisierbare Region-Text-Ausrichtung für Text-Prompts, SAVPE für effiziente visuelle Prompt-Embeddings sowie Lazy Region-Prompt Contrast für die promptfreie Objektkategorisierung.

Erste Schritte mit YOLOE: Zero-Shot-Objekterkennung und Segmentierung

Nachfolgend findest du eine Schritt-für-Schritt-Codeanleitung, die zeigt, wie du YOLOE in eigenen Projekten einsetzt:

# Step 1: Clone the YOLOE Repository
git clone https://github.com/THU-MIG/yoloe.git
cd yoloe

# Step 2: Install Dependencies
pip install -r requirements.txt

# Step 3: Download Pretrained Models
# Visit https://github.com/THU-MIG/yoloe to download pretrained weights (e.g., YOLOE-v8-S.pth)
# Place them in the appropriate directory (e.g., yoloe/weights/)

# Step 4: Prepare Your Dataset
# Place your test images in a folder (e.g., ./data/images/)
# For zero-shot detection, make sure you have text prompts or class descriptions ready

# Step 5: Run Inference
python predict_text_prompt.py \
    --source ./data/images/  \
    --checkpoint pretrain/yoloe-v8l-seg.pt \
    --text_prompts "cat, dog, car, person" \
    --device cuda:0

# Step 6: Visualize Results
# Each image will show:
# - Bounding boxes
# - Segmentation masks

Fazit

Zusammengefasst hebt sich YOLOE als bemerkenswerter Fortschritt hervor, weil es Geschwindigkeit, Anpassungsfähigkeit und ein unkompliziertes Design miteinander verbindet. Es funktioniert mit allen wichtigen Prompt-Varianten – textbasiert, visuell oder ohne Prompt – ohne die hohe Zusatzlast, die häufig mit komplexeren Modell-Stacks verbunden ist. Damit ist es ein weiterer Schritt hin zu wirklich intelligenten Computer-Vision-Systemen in Echtzeit, die sich flexibel an das anpassen können, was ihnen begegnet. Persönlich wirkt YOLOEs praxisnaher Aufbau auf mich nicht nur beeindruckend, sondern auch wie ein vielversprechender Schub in Richtung Echtzeit-KI, die in realen Anwendungen tatsächlich einsetzbar ist.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren: