Content

1 So funktioniert YOLOE
2 Erste Schritte mit YOLOE: Zero-Shot-Objekterkennung und Segmentierung
3 Fazit

Vijona

21 Mai um 10:16 Uhr

YOLOE: Open-Set-Objekterkennung und Segmentierung für Computer Vision in der Praxis

Objekterkennung und Segmentierung zählen zu den Kernaufgaben der Computer Vision und treiben Anwendungen von autonomem Fahren bis hin zur medizinischen Bildanalyse an. Bekannte Modelle wie die YOLO-Familie gelten als schnell und präzise, sind jedoch meist auf eine feste, vorab definierte Menge an Objektklassen beschränkt. Das wird in realen Umgebungen zum Nachteil, weil dort unbekannte, seltene oder neu auftauchende Objekte auftreten können. Um diese Einschränkung zu lösen, richtet sich aktuelle Forschung stärker auf „Open-Set“-Ansätze aus, die nahezu jedes Objekt erkennen und benennen können – auch Kategorien, die im Training nicht enthalten waren – indem sie Prompts wie Textbeschreibungen oder visuelle Referenzen nutzen.

YOLOE ist ein leistungsstarkes und effizientes Modell, das sich eher wie menschliche Wahrnehmung verhalten soll und im Prinzip jedes Objekt über verschiedene Prompt-Stile erfassen kann: über Text-Prompts, visuelle Hinweise oder sogar ganz ohne Prompt. Es übernimmt die Geschwindigkeit und das schlanke Design, für das YOLO bekannt wurde, erweitert diese Stärken jedoch für deutlich flexiblere Einsätze in realen Szenarien.

So funktioniert YOLOE

Im Folgenden findest du einen Überblick darüber, wie YOLOE in seinen drei unterstützten Prompt-Modi arbeitet.

Text-Prompts (RepRTA-Strategie)

Wenn du das Ziel per Text beschreibst (zum Beispiel „finde alle Fahrräder“), setzt YOLOE eine Methode namens Re-parameterizable Region-Text Alignment (RepRTA) ein. Damit wird verbessert, wie das Modell textliche Absichten mit Bildregionen verknüpft – unterstützt durch ein leichtgewichtiges Hilfsnetzwerk. Zur Inferenzzeit wird diese Hilfskomponente in das Hauptmodell integriert, wodurch weder zusätzliche Kosten noch Verzögerungen entstehen.

Visuelle Prompts (SAVPE-Strategie)

Gibst du eine Beispielregion oder einen visuellen Hinweis vor, nutzt YOLOE den Semantic-Activated Visual Prompt Encoder (SAVPE). Das Konzept teilt die Aufgabe in zwei Pfade auf – einen für das semantische Verständnis und einen für die Aktivierung relevanter Regionen. Diese klare Trennung hilft, die Genauigkeit zu halten, während der Ansatz zugleich schlank und schnell bleibt.

Prompt-frei (LRPC-Strategie)

Wenn kein Prompt angegeben wird, verwendet YOLOE den sogenannten Lazy Region-Prompt Contrast (LRPC)-Mechanismus. Anstatt große und ressourcenintensive Sprachmodelle einzusetzen, gleicht das System erkannte Objekte mit einem internen Satz vordefinierter Kategorien ab. Dadurch bleibt die Leistung hoch, während Speicherverbrauch und Rechenaufwand reduziert werden.

YOLOE ermöglicht Objekterkennung und Segmentierung für eine Vielzahl offener Prompt-Typen. Dies wird durch mehrere spezialisierte Techniken erreicht: re-parameterisierbare Region-Text-Ausrichtung für Text-Prompts, SAVPE für effiziente visuelle Prompt-Embeddings sowie Lazy Region-Prompt Contrast für die promptfreie Objektkategorisierung.

Erste Schritte mit YOLOE: Zero-Shot-Objekterkennung und Segmentierung

Nachfolgend findest du eine Schritt-für-Schritt-Codeanleitung, die zeigt, wie du YOLOE in eigenen Projekten einsetzt:

Copy Code


# Step 1: Clone the YOLOE Repository
git clone https://github.com/THU-MIG/yoloe.git
cd yoloe

Copy Code


# Step 2: Install Dependencies
pip install -r requirements.txt

Copy Code


# Step 3: Download Pretrained Models
# Visit https://github.com/THU-MIG/yoloe to download pretrained weights (e.g., YOLOE-v8-S.pth)
# Place them in the appropriate directory (e.g., yoloe/weights/)

Copy Code


# Step 4: Prepare Your Dataset
# Place your test images in a folder (e.g., ./data/images/)
# For zero-shot detection, make sure you have text prompts or class descriptions ready

Copy Code


# Step 5: Run Inference
python predict_text_prompt.py \
    --source ./data/images/  \
    --checkpoint pretrain/yoloe-v8l-seg.pt \
    --text_prompts "cat, dog, car, person" \
    --device cuda:0

Copy Code


# Step 6: Visualize Results
# Each image will show:
# - Bounding boxes
# - Segmentation masks

Fazit

Zusammengefasst hebt sich YOLOE als bemerkenswerter Fortschritt hervor, weil es Geschwindigkeit, Anpassungsfähigkeit und ein unkompliziertes Design miteinander verbindet. Es funktioniert mit allen wichtigen Prompt-Varianten – textbasiert, visuell oder ohne Prompt – ohne die hohe Zusatzlast, die häufig mit komplexeren Modell-Stacks verbunden ist. Damit ist es ein weiterer Schritt hin zu wirklich intelligenten Computer-Vision-Systemen in Echtzeit, die sich flexibel an das anpassen können, was ihnen begegnet. Persönlich wirkt YOLOEs praxisnaher Aufbau auf mich nicht nur beeindruckend, sondern auch wie ein vielversprechender Schub in Richtung Echtzeit-KI, die in realen Anwendungen tatsächlich einsetzbar ist.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Linux-Befehl »export«: Syntax, Beispiele und Verwendung

Linux Basics, Tutorial

vor 2 Tagen

VijonaGestern um 13:21 Uhr So verwendest du den Befehl ›export‹ unter Linux Der Linux-Befehl export ist ein integrierter Shell-Befehl, der Variablen und Funktionen für die Vererbung an untergeordnete Prozesse markiert. Ohne…

Skalierung von Multi-Agent-KI-Systemen: vom Prototyp bis zur Serienreife

AI/ML, Tutorial

vor 2 Tagen

Vijona23 Juli um 11:55 Uhr Multi-Agenten-KI-Systeme vom Prototyp bis zur Produktion skalieren In den vergangenen Jahren haben sich Frameworks und Demonstrationen für KI-Agenten mit außergewöhnlicher Geschwindigkeit weiterentwickelt. Der Schritt von einem…

Generative Pixel-Decoder jenseits von VAE für 4K-Bilder

AI/ML, Tutorial

vor 3 Tagen

VijonaGestern um 13:18 Uhr Warum generative Pixel-Decoder klassische VAE-Decoder bei der hochauflösenden Bilderzeugung ersetzen Content1 TL;DR2 Was ein VAE leistet – und wofür er nie entwickelt wurde3 Warum Diffusionsmodelle den VAE…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

GPU - centron vs. Hetzner

GPU - centron vs. IONOS

GPU - centron vs. OVHcloud

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure