Content

1 Worum es in diesem Artikel geht
2 Zentrale Erkenntnisse
3 FaraGen: Datengenerierung für Computer Use Agents
4 Fara-7B
5 Evaluierung von Fara-7B
6 Fara-7B zur Automatisierung von Computeraufgaben ausführen
7 Fazit

Vijona

Gestern um 16:06 Uhr

Wie Fara-7B Computer-Use-Agent-Modelle mit synthetischen Web-Aufgabendaten voranbringt

Das Training von Computer-Use-Agent-Modellen, kurz CUA-Modellen, war bisher eine große Herausforderung. Der wichtigste Grund dafür ist der Datenengpass: Es existiert keine umfangreiche Sammlung realer Mensch-Computer-Interaktionsdaten, auf die Forschende einfach zurückgreifen könnten. Wenn man bedenkt, wie viele Textdaten notwendig waren, um die heutige Leistungsfähigkeit großer Sprachmodelle zu erreichen, und wie der Mangel an hochwertigen Textdaten überwunden wurde, liegt der nächste Schritt für die Weiterentwicklung von CUA-Modellen recht nahe.

Wer dabei an synthetische Datengenerierung denkt, liegt schon ziemlich richtig.

Da bislang nur wenige bestehende CUA-Modelle verfügbar waren, ist die direkte Erzeugung synthetischer Daten schwierig. Eine praktikable Alternative besteht jedoch darin, eine skalierbare Engine zur Generierung synthetischer Daten für mehrstufige Web-Aufgaben aufzubauen. Genau diesen Ansatz haben Forschende von Microsoft verfolgt und im Paper zur Einführung von Fara-7B ausführlich beschrieben.

Worum es in diesem Artikel geht

In diesem Artikel wird erläutert, wie die Forschenden Fara-7B trainiert haben. Zunächst geht es darum, wie sie den Mangel an Computer-Use-Daten mithilfe einer Daten-Engine namens FaraGen gelöst haben. Außerdem wird gezeigt, wie das Modell selbst getestet werden kann, um zu beobachten, wie Fara-7B computerbasierte Aufgaben praktisch ausführt.

Zentrale Erkenntnisse

FaraGen ist eine skalierbare synthetische Daten-Engine für webbasierte Aufgaben. Sie nutzt ein Multi-Agenten-System, um:

Aufgaben auf Basis realer Websites vorzuschlagen,
Aufgaben mithilfe zusammenarbeitender Agenten und Nutzerfeedback zu lösen und dadurch realistische Trajektorien zu erzeugen,
Trajektorien durch LLM-basierte Qualitätsprüfungen zu verifizieren und dadurch hochwertige Daten bereitzustellen.

Fara-7B ist ein Computer-Use-Agent-Modell mit 7 Milliarden Parametern, das mit Daten aus FaraGen trainiert wurde. Es verarbeitet Screenshots als Eingabe und führt komplexe, mehrstufige Web-Aufgaben aus.

Fara-7B erzielt auf Benchmarks wie WebVoyager, Online-Mind2Web und WebTailBench bessere Ergebnisse als andere CUA-Modelle vergleichbarer Größe.

FaraGen: Datengenerierung für Computer Use Agents

Microsoft-Forschende haben mit FaraGen eine neue Daten-Engine vorgestellt, die speziell darauf ausgelegt ist, Trainingsdaten für CUA-Modelle zu erzeugen. Mit Daten sind in diesem Zusammenhang verifizierte mehrstufige Web-Trajektorien gemeint, die FaraGen für ungefähr einen Dollar pro Aufgabe generieren kann. Die FaraGen-Pipeline besteht aus drei zentralen Phasen: Aufgabenvorschlag, Aufgabenlösung und Aufgabenverifizierung.

Aufgabenvorschlag

In der Phase des Aufgabenvorschlags geht es darum, realistische Aufgaben zu erstellen. Dabei steht die Frage im Mittelpunkt, was Nutzer von einem CUA erwarten würden und welche Aufgaben ein CUA tatsächlich ausführen kann. FaraGen nutzt dafür hochwertige URLs aus Datensätzen wie ClueWeb22 und Tranco. ClueWeb22 wurde stärker verwendet, da die Forschenden davon ausgingen, dass dieser Datensatz eine breitere Abdeckung nützlicher Websites bietet und weniger wenig hilfreiche Unternehmens-Landingpages enthält.

Ein Teil der Aufgaben wurde aus gezielten URLs erstellt. Diese machten etwa 28 % der Trainingsdaten aus. Dabei wurden Roh-URLs verwendet und zu konkreten Nutzerabsichten weiterentwickelt, die sowohl erreichbar als auch überprüfbar waren.

Der größte Teil der Aufgaben entstand durch agentische URL-Erkundung, die etwa 67 % der Trainingsdaten ausmachte. In diesem Prozess erkundete ein multimodaler LLM-Agent Websites, indem er Screenshots und Accessibility Trees verarbeitete. Der Agent führte wiederholt Aktionen aus, um eine Aufgabe zu erledigen, und verfeinerte die Aufgabe auf Grundlage der bereits ausgeführten Schritte sowie des aktuellen Seitenzustands.

Die übrigen Aufgaben, etwa 5 % der Trainingsdaten, wurden mithilfe von LLMs erzeugt, indem vorhandene Aufgaben in mehrere ähnliche Varianten umgewandelt wurden.

Aufgabenlösung

FaraGen verwendet ein auf Magnetic-One basierendes Multi-Agenten-Framework, um synthetische Web-Aufgaben zu lösen. Dabei entstehen Trajektorien, die eine vollständige Abfolge von Beobachtungen, Aktionen und Gedanken enthalten. Diese Trajektorien werden anschließend für das überwachte Fine-Tuning genutzt, um Fara-7B zu trainieren. Später in diesem Artikel wird beschrieben, wie das Modell in einer GPU-fähigen Serverumgebung ausgeführt werden kann.

Der Aufgabenlösungsprozess umfasst zwei zentrale Agenten: den Orchestrator und den WebSurfer. Ein dritter Agent, der UserSimulator, wird aktiviert, wenn Nutzereingaben erforderlich sind. Dadurch wird die Bearbeitung von Aufgaben über mehrere Interaktionsschritte hinweg möglich. Zusätzlich enthält das System sogenannte Critical Points, bei denen das Modell stoppt und erst nach Nutzeranweisungen fortfährt.

Orchestrator Agent

Der Orchestrator Agent koordiniert den gesamten Ablauf. Seine Hauptaufgabe besteht darin, den WebSurfer zu steuern, typische Fehlermuster zu vermeiden, Critical Points durchzusetzen und bei Bedarf den UserSimulator Agent einzubeziehen.

Dafür führt der Orchestrator ein Ledger. Auf Basis vergangener und erwarteter zukünftiger Aktionen des WebSurfer prognostiziert der Orchestrator Werte für die Ledger-Felder.

Die Merkmale is_in_loop und last_action_successful sind besonders wichtig, da einer der häufigsten Fehler des WebSurfer Agent darin besteht, in Schleifen wiederholter Aktionen stecken zu bleiben.

Sowohl der Orchestrator als auch der WebSurfer können jederzeit entscheiden, die Ausführung zu stoppen. Dadurch können logische Konflikte entstehen. Wenn die Aufgabe noch nicht abgeschlossen ist, kann der Orchestrator die Stop-Entscheidung des WebSurfer übersteuern.

Tabelle 3 aus dem Paper beschreibt die Entscheidungshierarchie. Critical Points haben die höchste Autorität und überschreiben alle anderen Flags, während Stop-Entscheidungen des WebSurfer die geringste Autorität besitzen. Wenn das System den WebSurfer zum Stoppen zwingt, werden andere Aktionen deaktiviert, anstatt den Agenten programmatisch zu stoppen. Dadurch kann der WebSurfer nachvollziehen, warum er stoppen musste, was Fara-7B dabei unterstützt, auf neue Critical-Point-Szenarien zu generalisieren.

Nach Abschluss einer Aufgabe identifiziert der Orchestrator anhand des Verlaufs die URLs der Zielobjekte, damit Verifizierer bestätigen können, ob die richtigen Ziele erreicht wurden.

WebSurfer Agent

Der WebSurfer erhält seine Anweisungen aus dem Feld next_steps im Ledger, das vom Orchestrator verwaltet wird. Er führt Aktionen wie Klicken, Tippen und Scrollen im Browser über Playwright aus. Die Forschenden nutzten eine verwaltete Browserumgebung, um eine stabile Ausführung sicherzustellen und dafür zu sorgen, dass die Aktionen des WebSurfer auf dynamischen Websites zuverlässig ohne Abstürze oder Timeouts abgeschlossen wurden.

UserSimulator

Der UserSimulator Agent wird aktiviert, wenn die Pipeline einen Critical Point erreicht und eine Nutzereingabe benötigt. Er simuliert menschliche Antworten, etwa das Erteilen einer Zustimmung oder das Bereitstellen persönlicher Angaben, damit der Datengenerierungsprozess fortgesetzt werden kann.

Trajektorien-Verifizierung

Neben den Flags zur Aufgabenfertigstellung, die während der Aufgabenlösungsphase eingesetzt werden, nutzt FaraGen mehrere Verifizierer, die als LLM-Judges fungieren, um Qualität und Korrektheit zu prüfen. Mehrere Verifizierer sind notwendig, weil verschiedene Aufgabentypen unterschiedliche Formen von Nachweisen benötigen. Aktionsorientierte Aufgaben profitieren von multimodalen Evidenzprüfungen, während informationssuchende Aufgaben eine rubrikbasierte Bewertung erfordern, um die Qualität einzuschätzen.

Funktion	Ziel-Fehlermodus	Fehlerbeispiel
Alignment-Verifizierer	Prüft, ob der finale Aktionsverlauf zur Nutzerabsicht passt.	Logikfehler, etwa der Kauf des falschen Artikels.
Rubrik-Verifizierer	Bewertet die Trajektorie anhand einer zuvor definierten Kriterienliste.	Teilweise Fehlleistungen, etwa das Finden eines Hotels, aber für die falschen Reisedaten.
Multimodaler Verifizierer	Überprüft den finalen Screenshot, um sichtbare Hinweise auf den Erfolg zu bestätigen.	Halluzinationen, etwa die Behauptung, eine Aufgabe sei erledigt, obwohl der Bildschirm einen Fehler zeigt.

Um zu zeigen, wie wirksam FaraGen ist, nutzten die Forschenden die damit erzeugten Daten zum Training von Fara-7B. Fara-7B ist ein CUA-Modell, das Computeroberflächen ausschließlich über Screenshots versteht, Aktionen über vorhergesagte Koordinaten ausführt und kompakt genug ist, um auf lokalen Geräten betrieben zu werden.

Fara-7B

Fara-7B lässt sich als Proof-of-Concept-Destillation des Multi-Agenten-Lösungssystems verstehen. Das Modell basiert auf dem Vision-Language-Modell Qwen2.5-VL-7B und wurde mit 145.000 hochwertigen Trajektorien trainiert, die durch die FaraGen-Pipeline erzeugt wurden. Diese Trajektorien verdichten Multi-Agenten-Interaktionen zu vielfältigen Aufgabenbeispielen.

Das Modell nutzt überwachtes Fine-Tuning, um aus diesen Trajektorien zu lernen. Zusätzlich umfasst es Aufgaben wie Grounding, Refusal Training und UI-Frage-Antwort-Aufgaben, um die Lokalisierung von Elementen zu verbessern, schädliche Aktionen zu vermeiden und Halluzinationen zu reduzieren.

Aufgabentyp	Zweck	Methode	Auswirkung auf Fara-7B
Grounding	Verbessert die Lokalisierung von UI-Elementen wie Buttons und Links in Screenshots.	Es wurden mehr als 500.000 Beispiele erzeugt, die natürlichsprachliche Anfragen Bildschirmkoordinaten zuordnen. Omniparser und DOM-Annotationen wurden verwendet, um Elemente zu markieren.	Erhöht die Präzision bei Klick- und Texteingabeaktionen. Verringert Halluzinationen interaktiver Elemente.
Refusal Training	Bringt dem Modell bei, schädliche oder unsichere Aufgaben abzulehnen.	Synthetische schädliche Aufgaben, etwa illegale Aktivitäten und Phishing, wurden gemeinsam mit öffentlichen Datensätzen wie WildGuard verwendet.	Erreicht eine Ablehnungsrate von 94,2 % bei schädlichen Aufgaben. Verbessert Sicherheit und Compliance.
UI Q&A und Captioning	Stärkt das Verständnis von Webseitentexten, Inhalten und Kontext.	Aus Webseiten-Screenshots wurden Frage-Antwort-Paare und Beschreibungen erzeugt, mit Schwerpunkt auf der Extraktion sachlicher Informationen.	Reduziert Halluzinationen in Antworten. Verbessert die Genauigkeit bei der Beantwortung von Nutzerfragen zu Webinhalten.

Fara-7B interpretiert Browserinteraktionen anhand von Screenshots, während interne Schlussfolgerungen und der Zustandsverlauf als Text gespeichert werden. Auf Grundlage der neuesten Screenshots sowie eines vollständigen Verlaufs vorheriger Aktionen bestimmt Fara-7B die nächste Aktion und die dafür notwendigen Argumente, etwa Koordinaten für Klickpositionen.

Mit nur 7 Milliarden Parametern erreicht Fara-7B für seine Modellgröße eine State-of-the-Art-Leistung. Es übertrifft vergleichbare Modelle wie UI-TARS-1.5-7B auf Benchmarks wie WebVoyager, wo es eine Genauigkeit von 73,5 % erreicht, sowie WebTailBench mit 38,4 %. Gleichzeitig bleibt es konkurrenzfähig gegenüber deutlich größeren Modellen wie GPT-4o.

Evaluierung von Fara-7B

Die Forschenden evaluierten Fara-7B auf WebVoyager, Online-Mind2Web und DeepShop. Zusätzlich entwickelten sie einen eigenen Benchmark namens WebTailBench.

WebTailBench

WebTailBench enthält 609 manuell verifizierte Aufgaben aus 11 Kategorien. Dazu gehören Shopping, Flüge, Hotels, Immobilien, Bewerbungen und Einkaufslisten mit mehreren Artikeln. Der Benchmark legt besonderen Wert auf Realitätsnähe, indem stark frequentierte Webseiten genutzt werden. Gleichzeitig erhöht er die Aufgabenvielfalt, indem unterrepräsentierte oder bisher fehlende Szenarien bestehender Benchmarks abgedeckt werden, zum Beispiel Vergleichskäufe.

WebTailBench ermöglicht objektive Bewertungen durch zielorientierte Aufgaben und ein Verifizierungssystem, das mit menschlicher Beurteilung abgestimmt ist. Außerdem berücksichtigt der Benchmark die Aufgabenkomplexität durch mehrstufige und websiteübergreifende Herausforderungen. Er ist für reproduzierbare Evaluationen konzipiert und wird zusammen mit den zugehörigen Verifizierungswerkzeugen veröffentlicht.

Fara-7B zur Automatisierung von Computeraufgaben ausführen

Das Training dieses Modells mit 7 Milliarden Parametern erforderte 64 H100-GPUs und 2,5 Tage. Dieser Artikel erklärt jedoch nicht, wie Fara-7B von Grund auf trainiert wird. Stattdessen wird gezeigt, wie das Modell mit Magnetic-UI ausgeführt werden kann, wobei ein einzelner H100-GPU-Server ausreicht.

Beginnen Sie mit der Einrichtung eines GPU-fähigen Servers.

Sobald der Server bereit ist, kopieren Sie die öffentlichen IPv4-Zugangsdaten und verbinden sich per SSH über Ihren bevorzugten Code-Editor.

Führen Sie im Terminal die folgenden Befehle aus:

Copy Code

python3 -m venv .venv source .venv/bin/activate pip install magentic-ui[fara] vllm serve "microsoft/Fara-7B" --port 5001 --dtype auto

Erstellen Sie in Ihrem Code-Editor eine Datei mit dem Namen fara_config.yaml und fügen Sie die folgende Konfiguration ein:

Copy Code

model_config_local_surfer: &client_surfer provider: OpenAIChatCompletionClient config: model: "microsoft/Fara-7B" base_url: http://localhost:5001/v1 api_key: not-needed model_info: vision: true function_calling: true json_output: false family: "unknown" structured_output: false multiple_system_messages: false orchestrator_client: *client_surfer coder_client: *client_surfer web_surfer_client: *client_surfer file_surfer_client: *client_surfer action_guard_client: *client_surfer model_client: *client_surfer

Starten Sie anschließend Magnetic-UI mit dem Fara-Agenten:

Copy Code

magentic-ui --fara --port 8081 --config fara_config.yaml

Fara-7B lieferte die exakt richtige Antwort.

Fazit

Fara-7B ist ein beeindruckendes Modell. Hochwertige synthetische Daten im großen Maßstab können den Datenmangel wirksam adressieren, der die Entwicklung von Computer Use Agents bislang verlangsamt hat. Dieses Modell mit 7 Milliarden Parametern versteht seine Umgebung über Screenshots und kann komplexe, mehrstufige Web-Aufgaben mit State-of-the-Art-Genauigkeit ausführen, was ihm erhebliches Potenzial verleiht.

Es wird spannend sein zu beobachten, wie Fortschritte in verwandten Bereichen der KI-Forschung, darunter Computer Use, Codegenerierung, Inferenzoptimierung und weitere aktive Forschungsfelder, die Verbreitung skalierbarer und wirkungsstarker Produkte und Anwendungsfälle beeinflussen.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Jetzt loslegen

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Kimi Linear: Effiziente KI-Inferenz für lange Kontexte

AI/ML, Tutorial

vor 6 Stunden

VijonaHeute um 14:12 Uhr Kimi Linear: Eine hardwarebewusste Architektur für effiziente KI-Inferenz mit langen Kontexten Moonshot AI hat erneut eine bemerkenswerte Veröffentlichung vorgestellt. Nachdem Kimi-K2 und der dazugehörige Post-Training-Ansatz bereits einen…

Apache Airflow: Workflow-Orchestrierung erklärt

Python, Tutorial

vor 7 Stunden

VijonaHeute um 13:48 Uhr Apache Airflow: Workflow-Orchestrierung für Datenpipelines Moderne datengetriebene Organisationen arbeiten mit Pipelines, die Informationen erfassen, umwandeln, anreichern und von einem System in ein anderes übertragen. Solche Datenpipelines bestehen…

Schnellere LLM-Workflows mit Python erstellen

AI/ML, Tutorial

vor 7 Stunden

VijonaHeute um 13:20 Uhr Schnellere agentenbasierte LLM-Workflows mit asynchronen Python-Aufrufen erstellen Große Sprachmodelle können im produktiven Einsatz anspruchsvoll sein, da sie ungenaue Antworten, uneinheitliches Verhalten oder spürbare Verzögerungen verursachen können. Je…

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!

Kubernetes Produkt-Vergleiche

Bald verfügbar!

FEATURED PRODUCTS

Kubernetes

ccloud³

Managed Server

Cloud GPU

S3 Object Storage

COMPUTE

MANAGED

STORAGE

NETWORKING

MANAGEMENT TOOLS

BACKUPS & SNAPSHOTS

WEBSITE-HOSTING

HOUSING

FEATURED INDUSTRIES

Enterprise

Saas-Hosting

Startup

INDUSTRIES

MEHR INDUSTRIES

FEATURED USE CASES

Linux-Hosting

VMware Migration

Docker Hosting

USE CASES

MEHR USE CASES

RESSOURCES

Help Center

Trust Center

Glossar

Tutorials

MEHR CENTRON

MEHR INFOS

Anbieter-Vergleiche

centron vs. Hetzner

centron vs. IONOS

centron vs. Azure

GPU Produkt-Vergleiche

Bald verfügbar!