Content

Vijona

vor 52 Minuten

Ovis-U1: Ein Open-Source-MLLM mit 3B Parametern auf dem Weg zu menschlichem Aufgaben-Niveau

Die Weiterentwicklung von Artificial General Intelligence (AGI) hin zu einer menschenähnlichen Aufgabenleistung wird maßgeblich durch multimodale Large Language Models (MLLMs) vorangetrieben. Durch die Kombination mehrerer Modalitäten können diese Systeme eine höhere Informationsdichte in ihre Eingaben bringen und zugleich leistungsfähigere Fähigkeiten während der Inferenz entfalten. In diesem Beitrag betrachten wir Ovis-U1: ein Open-Source-Modell mit 3 Milliarden Parametern, veröffentlicht vom Alibaba-Ovis-Team. Seine Stärken reichen von multimodalem Verständnis über Text-zu-Bild-Generierung bis hin zur Bearbeitung hochgeladener Bilder.

Wichtigste Erkenntnisse

Ovis-U1 ist ein multimodales Open-Source-Large-Language-Model mit 3 Milliarden Parametern, das von Alibaba entwickelt wurde.
Es unterstützt Funktionen wie multimodales Verständnis, Text-zu-Bild-Generierung und Bildbearbeitung.
Das Modell wurde mit einer vielfältigen Mischung aus Datensätzen aus unterschiedlichen Aufgabenbereichen und Domänen trainiert.
Du kannst das Modell auf einem GPU-Server ausführen oder direkt über Hugging Face Spaces testen.

Trainingsprozess

Phase	Trainierte Parameter	Aufgabe	Schritte / Batch-Größe / Lernrate	Beschreibung
0	Refiner + Visual Decoder	Text-to-Image Generation	500 / 1024 / 1e − 4	Das Vortraining des visuellen Decoders startet mit zufälliger Initialisierung, um grundlegende Bildgenerierungsfähigkeiten aufzubauen. Der visuelle Decoder und der Refiner erzeugen Bilder aus LLM-Embeddings mithilfe von Text-zu-Bild-Daten.
1	Adapter	Understanding Text-to-Image Generation, Image Editing	1.5k / 8192 / 5e − 4	Im Adapter-Vortraining werden visuelle und textuelle Embeddings aufeinander ausgerichtet. Der Adapter wird zufällig initialisiert und in dieser Phase über Verständnis-, Text-zu-Bild- und Bildbearbeitungsaufgaben hinweg trainiert.
2	Visual Encoder + Adapter	Understanding Text-to-Image Generation, Image Editing	2.6k / 8192 / 1e − 4	Bei der Ausrichtung des visuellen Encoders werden sowohl Visual Encoder als auch Adapter feinjustiert, um visuelle und textuelle Repräsentationen besser anzugleichen. Alle drei Aufgabenarten fließen ins Training ein, wobei die Generierungsaufgabe die Embedding-Ausrichtung unterstützt.
3	Visual Encoder + Adapter + LLM	Understanding	23 / 2240 / 5e-5	In der Verständnis-Phase werden die Parameter von Visual Encoder, Adapter und LLM auf Verständnisaufgaben trainiert. Nach dieser Stufe werden die Parameter fixiert, um die Verständnisfähigkeit zu erhalten.
4	Refiner + Visual Decoder	Text-to-Image Generation	275 / 256 / 5e − 5	Beim Generierungs-Lernen werden Refiner und Visual Decoder darauf trainiert, mit verbesserten Text- und Bild-Embeddings zu harmonieren, nachdem die LLM-Parameter in Stage 3 angepasst wurden. Diese Phase liefert eine bessere Text-zu-Bild-Performance.
5	Refiner + Visual Decoder	Text-to-Image Generation, Image Editing	325 / 256 / 5e − 5	Das Generierungs-Feintuning baut auf den Text-zu-Bild-Fähigkeiten auf, indem der Decoder sowohl für Text-zu-Bild als auch für Bildbearbeitungsaufgaben weiter feinjustiert wird.

Datenmix

Schauen wir uns die Daten an, die zum Training des Modells verwendet wurden.

Aufgabe	Verwendete Datensätze	Zusätzliche Informationen
Multimodal understanding	COYO, Wukong, Laion-5B, ShareGPT4V, CC3M	Die Forschenden haben eine Daten-Preprocessing-Pipeline aufgebaut, die verrauschte Daten entfernt, die Caption-Qualität verbessert und Datenverhältnisse ausbalanciert, um die beste Trainingsleistung zu erreichen.
Text-to-Image Generation	Laion-5B, JourneyDB	Auf Basis von Laion5B werden zunächst Samples mit einem ästhetischen Score über 6 ausgewählt. Anschließend nutzt das Team Qwen2-VL, um detaillierte Beschreibungen für jedes gewählte Bild zu erzeugen, wodurch der Laion-aes6-Datensatz entsteht.
Image+Text-to-Image Generation	Image Editing: OmniEdit, UltraEdit, SeedEdit	Datensätze, die gezielt eingesetzt wurden, um die Bildbearbeitungsfähigkeiten des Modells zu verbessern.
Reference-Image-Driven Image Generation	Subjects200K, SynCD, StyleBooth	Subjects200K und SynCD wurden für subjektgetriebene Bildgenerierung genutzt, während StyleBooth für stilgetriebene Bildgenerierung eingesetzt wurde.
Pixel-Level Controlled Image Generation	MultiGen_20M	Zur Unterstützung von canny-to-image (canny = edge detection), depth-to-image, inpainting und outpainting.
	In-House Data	Zusätzliche Datensätze, die unter anderem stilgetriebene Daten, Content-Removal, Style-Translation, De-noise/De-blur-Daten, Colorization-Daten, Text-Rendering-Daten usw. enthalten.

Was ist mit Reinforcement Learning?

Im Fazit der Arbeit halten die Autorinnen und Autoren fest, dass Ovis-U1 derzeit keine Reinforcement-Learning-Phase umfasst, obwohl sich eine solche Phase als entscheidend für die Optimierung großer Modelle erwiesen hat. Zudem betonen sie, dass wirksame Methoden zur Ausrichtung einheitlicher multimodaler Modelle an menschlichen Präferenzen weiterhin eine wichtige offene Forschungsfrage in diesem Bereich sind.

Nachdem wir Modellarchitektur und Trainingsprozess betrachtet haben, lassen wir das Modell nun laufen.

Implementierung

Beginne damit, einen GPU-Server einzurichten (z. B. direkt bei centron). Sobald er bereit ist, klone das Repository und installiere die benötigten Pakete. Das kannst du mit den folgenden Shell-Befehlen im Terminal erledigen. Alternativ kannst du das Modell auch über HuggingFace Spaces ausprobieren.

Copy Code


# Install git-lfs for handling large files
apt install git-lfs

# Clone the Ovis-U1-3B repository from HuggingFace Spaces
git-lfs clone https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B

# Change directory into the cloned repository
cd Ovis-U1-3B

# Install pip for Python package management
apt install python3-pip

# Install required Python packages from requirements.txt
pip install -r requirements.txt

# Install additional Python packages for wheel and spaces
pip install wheel spaces

# Install PyTorch with CUDA 12.8 support and upgrade existing installations
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 --upgrade

# Install xformers for optimized transformer operations
pip install -U xformers

# Install flash_attn for attention mechanism optimization
pip install flash_attn==2.7.4.post1

# Run the main application script
python app.py

Fazit

Wir sind äußerst gespannt auf die weitere Entwicklung multimodaler Large Language Models (MLLMs). Die Kombination aus sorgfältig kuratierten Datensätzen, architektonischen Innovationen und kontinuierlichen Verbesserungen der Fähigkeiten macht diesen Bereich der KI besonders spannend. Es ist faszinierend zu beobachten, wie jede neue Weiterentwicklung diese Modelle näher an vielseitige und praxisnahe Anwendungen im realen Einsatz bringt. Probiere es gerne selber aus!

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Datenbank-Normalisierung verstehen: 1NF, 2NF, 3NF & BCNF im Überblick

Databases, Tutorial

vor 4 Tagen

Vijona7 Mai um 16:12 Uhr Leitfaden zur Datenbank-Normalisierung: Normalformen, Beispiele und wann Normalisierung sinnvoll ist Datenbanknormalisierung ist eine zentrale Methode im relationalen Datenbankdesign. Sie zielt darauf ab, Daten so zu strukturieren,…

Python .pop() einfach erklärt: Listen & Dictionaries sicher entfernen

Python, Tutorial

vor 5 Tagen

Vijona6 Mai um 12:23 Uhr Python verstehen: So funktioniert ».pop()« Die integrierte Python-Funktion .pop() ist eine flexible und effiziente Möglichkeit, Elemente aus Listen und Dictionaries zu entfernen und den entfernten Wert…

Levenshtein-Distanz in Python: Edit Distance, Libraries & Benchmark

Python, Tutorial

vor 2 Wochen

Vijona29 Apr. um 16:55 Uhr Levenshtein-Edit-Distanz in NLP: String-Ähnlichkeit in Python messen In der Natural Language Processing (NLP) ist das Bewerten und Vergleichen der Ähnlichkeit zweier Strings eine zentrale Fähigkeit. Ob…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!