Videos aus Text und Bildern mit HunyuanVideo 1.5 erstellen

Videos aus geschriebenen Prompts oder einzelnen Standbildern zu erzeugen, gehört zu den beeindruckendsten und außergewöhnlichsten Einsatzbereichen moderner Deep-Learning-Technologie. Fast alles, was man sich vorstellen kann, von vollständig erfundenen Szenen bis hin zu alltäglichen Handlungen, lässt sich heute mit wenigen Tastatureingaben sichtbar machen.

Video besitzt eine Form von Realitätsnähe, die statische Bilder häufig nicht erreichen. Bewegung, Timing und Kontinuität vermitteln eine Wirkung, die frühere Technologien selbst mit fortgeschrittener CGI oft nur schwer nachbilden konnten. Bildgeneratoren können bereits nahezu alles erzeugen, was sich beschreiben lässt, und diese Ergebnisse lassen sich mit zusätzlichen Bearbeitungswerkzeugen und ausreichend Zeit weiter verfeinern. Videogeneratoren bieten jedoch eine deutlich größere kreative Bandbreite, da sie komplexe Bewegungen, Übergänge, Effekte und sich verändernde Szenen erzeugen können, anstatt nur ein einzelnes statisches Bild auszugeben.

Dieser Beitrag stellt eines der aktuellen State-of-the-Art-Open-Source-Deep-Learning-Modelle für die Videogenerierung vor: HunyuanVideo 1.5. Das kürzlich veröffentlichte Modell erreicht ein Leistungsniveau, das mit geschlossenen Systemen wie Wan2.5 und Sora 2 vergleichbar ist, vermeidet dabei jedoch viele Einschränkungen bei Zugriff und Nutzung, die bei proprietären Modellen auftreten können.

Mit GPU-basierter Cloud-Infrastruktur lässt sich HunyuanVideo 1.5 mit beliebten Werkzeugen wie ComfyUI und DiffSynth-Studio betreiben. In dieser Anleitung wird erklärt, welche Eigenschaften HunyuanVideo 1.5 besonders leistungsfähig machen und wie das Modell auf einer Cloud-GPU-Infrastruktur ausgeführt werden kann. Für die Demonstration wird ein NVIDIA-H200-basierter GPU-Server mit ComfyUI verwendet.

Voraussetzungen

Zugriff auf einen NVIDIA-GPU-Server

Wichtige Erkenntnisse

  • HunyuanVideo 1.5 ist eine Sammlung von Text-zu-Video-, Bild-zu-Video- und Video-Super-Resolution-Modellen, die mit führenden geschlossenen Modellen wie Wan2.5 und Sora 2 konkurrieren kann.
  • Mit nur 8,3 Milliarden Parametern ist das Modell effizient genug, um Inferenz auch auf GPUs der Consumer-Klasse auszuführen.
  • Mit NVIDIA-H200-basierter Cloud-GPU-Infrastruktur lassen sich 720p-Videos innerhalb weniger Minuten generieren.

HunyuanVideo 1.5

HunyuanVideo 1.5 ist ein kompaktes, aber leistungsstarkes System zur Videogenerierung, das mit nur 8,3 Milliarden Parametern eine moderne visuelle Qualität und eine hohe Bewegungskohärenz liefert. Dadurch wird eine effiziente Inferenz selbst auf GPUs der Consumer-Klasse möglich. Die Leistungsfähigkeit basiert auf mehreren zentralen Komponenten: sorgfältiger Datenkuratierung, einer fortschrittlichen DiT-Architektur mit Selective and Sliding Tile Attention, verbesserten zweisprachigen Fähigkeiten durch glyphenbewusste Textkodierung, einem progressiven Pre-Training- und Post-Training-Verfahren sowie einem effizienten Modul für Video-Super-Resolution. Zusammen bilden diese Elemente ein einheitliches Framework für hochwertige Text-zu-Video- und Bild-zu-Video-Generierung über unterschiedliche Längen und Auflösungen hinweg.

Training

Der Trainingsprozess von HunyuanVideo 1.5 wird vor allem durch zwei Merkmale geprägt: eine sorgfältige Kuratierung der Daten und den Einsatz des Muon-Optimierers. Während der Datenerfassung lag der Schwerpunkt sowohl auf Vielfalt als auch auf Qualität. Videomaterial wurde aus unterschiedlichen Quellen gesammelt und anschließend für ein effizientes Training vorbereitet, indem es in Clips mit einer Länge von 2 bis 10 Sekunden aufgeteilt wurde. Danach wurde der Datensatz nach visueller Qualität, Ästhetik und grundlegenden Eigenschaften wie Videorändern gefiltert.

Für die Beschriftung der Videos wurde derselbe Ansatz genutzt, der auch bei HunyuanImage 3.0 verwendet wurde. Dieser Prozess umfasst „(1) a hierarchical schema for structured image description, (2) a compositional synthesis strategy for diverse data augmentation, and (3) specialized agents for factual grounding.” (Source). Zusammen ergeben diese Methoden ein zuverlässiges System, um jedes Video vor dem Training effektiv und effizient zu beschriften.

Das eigentliche Training wurde in drei Phasen durchgeführt. Zunächst wurde das Modell für die Text-zu-Bild-Aufgabe mit 256p und anschließend mit 512p trainiert. Diese Text-zu-Bild-Phase half dem Modell dabei, die semantische Ausrichtung zwischen Texten und Bildern zu erlernen. Die Forschenden stellten fest, dass dieser Schritt die späteren Text-zu-Video- und Bild-zu-Video-Phasen verbessert, indem er die Konvergenz beschleunigt und die Leistung steigert.

Während des Pre-Trainings kommt eine gemischte Trainingsstrategie zum Einsatz, die T2I-, T2V- und I2V-Aufgaben im Verhältnis 1:6:3 kombiniert. Dadurch wird semantisches Verständnis mit videospezifischer Modellierung ausbalanciert. Große T2I-Datensätze werden besonders berücksichtigt, um das visuelle semantische Verständnis des Modells zu stärken und die generative Vielfalt zu erweitern, während T2V- und I2V-Aufgaben robuste Fähigkeiten für die Videogenerierung bereitstellen. Ein strukturierter mehrstufiger Prozess, der als Stages III bis VI in Table 2 dargestellt wird, beginnt bei 256p-Auflösung mit 16 fps und steigert sich schrittweise auf 480p und 720p mit 24 fps. Die Videolängen liegen zwischen 2 und 10 Sekunden. Diese schrittweise Erhöhung der räumlichen und zeitlichen Auflösung unterstützt eine stabile Konvergenz und verbessert die Fähigkeit des Modells, detaillierte und zusammenhängende Videos zu erzeugen. (Source). Für das Post-Training werden mehrere miteinander verbundene Phasen aus weiterführendem Training, Reinforcement Learning und Supervised Fine-Tuning getrennt auf I2V- und T2V-Aufgaben angewendet. Diese Schritte führen schließlich zu den finalen I2V- und T2V-Modellen.

Architektur

Die einheitliche Diffusion-Transformer-Architektur zeigt den Ablauf, dem das Modell während der Inferenz bei der Generierung eines Bildes folgt. Zum Beispiel gilt: „for the I2V task, the reference image is integrated into the model via two complementary strategies: (1) VAE-based encoding, where the image latent is concatenated with the noisy latent along the channel dimension to leverage its exceptional detail reconstruction capacity; and (2) SigLip-based feature extraction, where semantic embeddings are concatenated sequentially to enhance semantic alignment and strengthen instruction adherence in I2V generation. A learnable type embedding is introduced to explicitly distinguish between different types of conditions.” (Source).

Der Variational AutoEncoder, kurz VAE, ist eine „causal 3D transformer architecture designed for joint image-video encoding, which achieves a spatial compression ratio of (16 \times) and a temporal compression ratio of (4 \times), with a latent channel dimension of 32.” Der Text-Encoder ist ein Multimodal LLM, kurz MLLM, das auf Qwen 2.5 VL als multimodalem Encoder basiert. Die zusätzliche Integration von Glyph ByT5 verbessert die Fähigkeit des Modells, Text in verschiedenen Sprachen zu verstehen und darzustellen. Außerdem wird SigLip eingesetzt, um Bilder und Texte in einem gemeinsamen Repräsentationsraum auszurichten, etwa für Aufgaben wie Zero-Shot-Bildklassifikation und Bild-Text-Retrieval.

Um diese Informationen über mehrere Modalitäten hinweg zu verarbeiten, verwendet das Modell einen neuen Attention-Mechanismus namens Selective and Sliding Tile Attention, kurz SSTA. „The SSTA algorithm comprises four key steps: 3D Block Partition, Selective Mask Generation, STA Mask Generation and Block-Sparse Attention. They propose an engineered acceleration toolkit for sparse attention mechanisms, utilizing the ThunderKittens framework to efficiently implement the flex_block_attention algorithm.” (Source).

HunyuanVideo 1.5 auf einem Cloud-GPU-Server ausführen

Um HunyuanVideo 1.5 auf einem Cloud-GPU-Server auszuführen, empfiehlt sich ein Einrichtungsprozess, der erklärt, wie ein GPU-basierter Server mit SSH-Zugriff erstellt wird. Die Einrichtung sollte außerdem beschreiben, wie VS Code oder Cursor so konfiguriert werden, dass die Simple-Browser-Funktion genutzt werden kann, um lokal im Browser auf ComfyUI zuzugreifen, während ComfyUI auf der GPU der entfernten Maschine läuft. Für diese Anleitung wird eine NVIDIA H200 GPU empfohlen.

Nachdem der GPU-Server erstellt wurde, stellen Sie über Ihr lokales Terminal per SSH eine Verbindung her. Wechseln Sie in das gewünschte Arbeitsverzeichnis und fügen Sie anschließend die folgenden Befehle in das Terminal ein. Die Befehle klonen das ComfyUI-Repository, laden die benötigten Modelle herunter und starten ComfyUI.

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
apt install python3-venv python3-pip
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
cd models/clip_vision
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/clip_vision/sigclip_vision_patch14_384.safetensors
cd ../text_encoders
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/text_encoders/byt5_small_glyphxl_fp16.safetensors
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors
cd ../vae
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/vae/hunyuanvideo15_vae_fp16.safetensors
cd ../diffusion_models
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/diffusion_models/hunyuanvideo1.5_720p_t2v_fp16.safetensors
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/diffusion_models/hunyuanvideo1.5_720p_i2v_fp16.safetensors
wget https://huggingface.co/Comfy-Org/HunyuanVideo_1.5_repackaged/resolve/main/split_files/diffusion_models/hunyuanvideo1.5_1080p_sr_distilled_fp16.safetensors
cd ../..
python main.py

Kopieren Sie anschließend die im Terminal ausgegebene URL und fügen Sie sie in den Simple Browser von VS Code oder Cursor ein. Wählen Sie danach die Pfeilschaltfläche oben rechts aus, um ComfyUI im Browser zu öffnen. Laden Sie die Workflow-JSON von der ComfyUI-Beispielseite herunter und öffnen Sie sie in ComfyUI. Für den Bild-zu-Video-Workflow verwenden Sie die entsprechende Workflow-Datei. Wenn die Einrichtung korrekt funktioniert hat, sollte die Oberfläche ungefähr wie im folgenden Beispiel aussehen:

image

Nun können Sie mit der Videogenerierung beginnen, indem Sie Ihren Prompt eingeben. Passen Sie Höhe, Breite, Anzahl der Schritte und Anzahl der Frames an, um das erzeugte Ergebnis zu verändern. Dieser Workflow unterstützt außerdem Video-Super-Resolution-Upscaling, wenn alle violett ausgeblendeten Module im unteren Bereich des Workflows umgangen werden.

Die Qualität ist hervorragend, selbst in der herunterskalierten GIF-Version der ursprünglichen Ausgabe. Insgesamt handelt es sich um ein starkes Modell zur Erstellung von Videos in vielen unterschiedlichen Stilen, darunter 3D, Animation, Realismus und mehr. Auf einer H200-GPU können solche Videos innerhalb weniger Minuten generiert werden. ComfyUI ist für die Videogenerierung mit HunyuanVideo 1.5 besonders empfehlenswert.

Fazit

HunyuanVideo 1.5 ist ein beeindruckendes Modell zur Videogenerierung, dessen Fähigkeiten bei der reinen Videoerzeugung mit Systemen wie Sora 2 konkurrieren können. Aufgrund der innovativen Trainingsstrategie könnten zukünftige Versionen einen noch größeren Einfluss auf das Open-Source-Ökosystem für Videogenerierung haben. Anwender werden dazu ermutigt, das Modell auf GPU-basierter Cloud-Infrastruktur auszuprobieren.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Apache Airflow: Workflow-Orchestrierung erklärt

Python, Tutorial
Vijonavor 4 Minuten Apache Airflow: Workflow-Orchestrierung für Datenpipelines Moderne datengetriebene Organisationen arbeiten mit Pipelines, die Informationen erfassen, umwandeln, anreichern und von einem System in ein anderes übertragen. Solche Datenpipelines bestehen häufig…
Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Schnellere LLM-Workflows mit Python erstellen

AI/ML, Tutorial
Vijonavor 33 Minuten Schnellere agentenbasierte LLM-Workflows mit asynchronen Python-Aufrufen erstellen Große Sprachmodelle können im produktiven Einsatz anspruchsvoll sein, da sie ungenaue Antworten, uneinheitliches Verhalten oder spürbare Verzögerungen verursachen können. Je leistungsfähiger…