Ovis-U1: Ein Open-Source-MLLM mit 3B Parametern auf dem Weg zu menschlichem Aufgaben-Niveau

Die Weiterentwicklung von Artificial General Intelligence (AGI) hin zu einer menschenähnlichen Aufgabenleistung wird maßgeblich durch multimodale Large Language Models (MLLMs) vorangetrieben. Durch die Kombination mehrerer Modalitäten können diese Systeme eine höhere Informationsdichte in ihre Eingaben bringen und zugleich leistungsfähigere Fähigkeiten während der Inferenz entfalten. In diesem Beitrag betrachten wir Ovis-U1: ein Open-Source-Modell mit 3 Milliarden Parametern, veröffentlicht vom Alibaba-Ovis-Team. Seine Stärken reichen von multimodalem Verständnis über Text-zu-Bild-Generierung bis hin zur Bearbeitung hochgeladener Bilder.

Wichtigste Erkenntnisse

  • Ovis-U1 ist ein multimodales Open-Source-Large-Language-Model mit 3 Milliarden Parametern, das von Alibaba entwickelt wurde.
  • Es unterstützt Funktionen wie multimodales Verständnis, Text-zu-Bild-Generierung und Bildbearbeitung.
  • Das Modell wurde mit einer vielfältigen Mischung aus Datensätzen aus unterschiedlichen Aufgabenbereichen und Domänen trainiert.
  • Du kannst das Modell auf einem GPU-Server ausführen oder direkt über Hugging Face Spaces testen.

Trainingsprozess

Phase Trainierte Parameter Aufgabe Schritte / Batch-Größe / Lernrate Beschreibung
0 Refiner + Visual Decoder Text-to-Image Generation 500 / 1024 / 1e − 4 Das Vortraining des visuellen Decoders startet mit zufälliger Initialisierung, um grundlegende Bildgenerierungsfähigkeiten aufzubauen. Der visuelle Decoder und der Refiner erzeugen Bilder aus LLM-Embeddings mithilfe von Text-zu-Bild-Daten.
1 Adapter Understanding Text-to-Image Generation, Image Editing 1.5k / 8192 / 5e − 4 Im Adapter-Vortraining werden visuelle und textuelle Embeddings aufeinander ausgerichtet. Der Adapter wird zufällig initialisiert und in dieser Phase über Verständnis-, Text-zu-Bild- und Bildbearbeitungsaufgaben hinweg trainiert.
2 Visual Encoder + Adapter Understanding Text-to-Image Generation, Image Editing 2.6k / 8192 / 1e − 4 Bei der Ausrichtung des visuellen Encoders werden sowohl Visual Encoder als auch Adapter feinjustiert, um visuelle und textuelle Repräsentationen besser anzugleichen. Alle drei Aufgabenarten fließen ins Training ein, wobei die Generierungsaufgabe die Embedding-Ausrichtung unterstützt.
3 Visual Encoder + Adapter + LLM Understanding 23 / 2240 / 5e-5 In der Verständnis-Phase werden die Parameter von Visual Encoder, Adapter und LLM auf Verständnisaufgaben trainiert. Nach dieser Stufe werden die Parameter fixiert, um die Verständnisfähigkeit zu erhalten.
4 Refiner + Visual Decoder Text-to-Image Generation 275 / 256 / 5e − 5 Beim Generierungs-Lernen werden Refiner und Visual Decoder darauf trainiert, mit verbesserten Text- und Bild-Embeddings zu harmonieren, nachdem die LLM-Parameter in Stage 3 angepasst wurden. Diese Phase liefert eine bessere Text-zu-Bild-Performance.
5 Refiner + Visual Decoder Text-to-Image Generation, Image Editing 325 / 256 / 5e − 5 Das Generierungs-Feintuning baut auf den Text-zu-Bild-Fähigkeiten auf, indem der Decoder sowohl für Text-zu-Bild als auch für Bildbearbeitungsaufgaben weiter feinjustiert wird.

Datenmix

Schauen wir uns die Daten an, die zum Training des Modells verwendet wurden.

Aufgabe Verwendete Datensätze Zusätzliche Informationen
Multimodal understanding  COYO, Wukong, Laion-5B, ShareGPT4V, CC3M Die Forschenden haben eine Daten-Preprocessing-Pipeline aufgebaut, die verrauschte Daten entfernt, die Caption-Qualität verbessert und Datenverhältnisse ausbalanciert, um die beste Trainingsleistung zu erreichen.
Text-to-Image Generation Laion-5B, JourneyDB Auf Basis von Laion5B werden zunächst Samples mit einem ästhetischen Score über 6 ausgewählt. Anschließend nutzt das Team Qwen2-VL, um detaillierte Beschreibungen für jedes gewählte Bild zu erzeugen, wodurch der Laion-aes6-Datensatz entsteht.
Image+Text-to-Image Generation Image Editing: OmniEdit, UltraEdit, SeedEdit Datensätze, die gezielt eingesetzt wurden, um die Bildbearbeitungsfähigkeiten des Modells zu verbessern.
Reference-Image-Driven Image Generation Subjects200K, SynCD, StyleBooth Subjects200K und SynCD wurden für subjektgetriebene Bildgenerierung genutzt, während StyleBooth für stilgetriebene Bildgenerierung eingesetzt wurde.
Pixel-Level Controlled Image Generation MultiGen_20M Zur Unterstützung von canny-to-image (canny = edge detection), depth-to-image, inpainting und outpainting.
In-House Data Zusätzliche Datensätze, die unter anderem stilgetriebene Daten, Content-Removal, Style-Translation, De-noise/De-blur-Daten, Colorization-Daten, Text-Rendering-Daten usw. enthalten.

Was ist mit Reinforcement Learning?

Im Fazit der Arbeit halten die Autorinnen und Autoren fest, dass Ovis-U1 derzeit keine Reinforcement-Learning-Phase umfasst, obwohl sich eine solche Phase als entscheidend für die Optimierung großer Modelle erwiesen hat. Zudem betonen sie, dass wirksame Methoden zur Ausrichtung einheitlicher multimodaler Modelle an menschlichen Präferenzen weiterhin eine wichtige offene Forschungsfrage in diesem Bereich sind.

Nachdem wir Modellarchitektur und Trainingsprozess betrachtet haben, lassen wir das Modell nun laufen.

Implementierung

Beginne damit, einen GPU-Server einzurichten (z. B. direkt bei centron). Sobald er bereit ist, klone das Repository und installiere die benötigten Pakete. Das kannst du mit den folgenden Shell-Befehlen im Terminal erledigen. Alternativ kannst du das Modell auch über HuggingFace Spaces ausprobieren.

# Install git-lfs for handling large files
apt install git-lfs

# Clone the Ovis-U1-3B repository from HuggingFace Spaces
git-lfs clone https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B

# Change directory into the cloned repository
cd Ovis-U1-3B

# Install pip for Python package management
apt install python3-pip

# Install required Python packages from requirements.txt
pip install -r requirements.txt

# Install additional Python packages for wheel and spaces
pip install wheel spaces

# Install PyTorch with CUDA 12.8 support and upgrade existing installations
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128 --upgrade

# Install xformers for optimized transformer operations
pip install -U xformers

# Install flash_attn for attention mechanism optimization
pip install flash_attn==2.7.4.post1

# Run the main application script
python app.py

Fazit

Wir sind äußerst gespannt auf die weitere Entwicklung multimodaler Large Language Models (MLLMs). Die Kombination aus sorgfältig kuratierten Datensätzen, architektonischen Innovationen und kontinuierlichen Verbesserungen der Fähigkeiten macht diesen Bereich der KI besonders spannend. Es ist faszinierend zu beobachten, wie jede neue Weiterentwicklung diese Modelle näher an vielseitige und praxisnahe Anwendungen im realen Einsatz bringt. Probiere es gerne selber aus!

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren: