Wie Fara-7B Computer-Use-Agent-Modelle mit synthetischen Web-Aufgabendaten voranbringt
Das Training von Computer-Use-Agent-Modellen, kurz CUA-Modellen, war bisher eine große Herausforderung. Der wichtigste Grund dafür ist der Datenengpass: Es existiert keine umfangreiche Sammlung realer Mensch-Computer-Interaktionsdaten, auf die Forschende einfach zurückgreifen könnten. Wenn man bedenkt, wie viele Textdaten notwendig waren, um die heutige Leistungsfähigkeit großer Sprachmodelle zu erreichen, und wie der Mangel an hochwertigen Textdaten überwunden wurde, liegt der nächste Schritt für die Weiterentwicklung von CUA-Modellen recht nahe.
Wer dabei an synthetische Datengenerierung denkt, liegt schon ziemlich richtig.
Da bislang nur wenige bestehende CUA-Modelle verfügbar waren, ist die direkte Erzeugung synthetischer Daten schwierig. Eine praktikable Alternative besteht jedoch darin, eine skalierbare Engine zur Generierung synthetischer Daten für mehrstufige Web-Aufgaben aufzubauen. Genau diesen Ansatz haben Forschende von Microsoft verfolgt und im Paper zur Einführung von Fara-7B ausführlich beschrieben.
Worum es in diesem Artikel geht
In diesem Artikel wird erläutert, wie die Forschenden Fara-7B trainiert haben. Zunächst geht es darum, wie sie den Mangel an Computer-Use-Daten mithilfe einer Daten-Engine namens FaraGen gelöst haben. Außerdem wird gezeigt, wie das Modell selbst getestet werden kann, um zu beobachten, wie Fara-7B computerbasierte Aufgaben praktisch ausführt.
Zentrale Erkenntnisse
FaraGen ist eine skalierbare synthetische Daten-Engine für webbasierte Aufgaben. Sie nutzt ein Multi-Agenten-System, um:
- Aufgaben auf Basis realer Websites vorzuschlagen,
- Aufgaben mithilfe zusammenarbeitender Agenten und Nutzerfeedback zu lösen und dadurch realistische Trajektorien zu erzeugen,
- Trajektorien durch LLM-basierte Qualitätsprüfungen zu verifizieren und dadurch hochwertige Daten bereitzustellen.
Fara-7B ist ein Computer-Use-Agent-Modell mit 7 Milliarden Parametern, das mit Daten aus FaraGen trainiert wurde. Es verarbeitet Screenshots als Eingabe und führt komplexe, mehrstufige Web-Aufgaben aus.
Fara-7B erzielt auf Benchmarks wie WebVoyager, Online-Mind2Web und WebTailBench bessere Ergebnisse als andere CUA-Modelle vergleichbarer Größe.
FaraGen: Datengenerierung für Computer Use Agents
Microsoft-Forschende haben mit FaraGen eine neue Daten-Engine vorgestellt, die speziell darauf ausgelegt ist, Trainingsdaten für CUA-Modelle zu erzeugen. Mit Daten sind in diesem Zusammenhang verifizierte mehrstufige Web-Trajektorien gemeint, die FaraGen für ungefähr einen Dollar pro Aufgabe generieren kann. Die FaraGen-Pipeline besteht aus drei zentralen Phasen: Aufgabenvorschlag, Aufgabenlösung und Aufgabenverifizierung.
Aufgabenvorschlag
In der Phase des Aufgabenvorschlags geht es darum, realistische Aufgaben zu erstellen. Dabei steht die Frage im Mittelpunkt, was Nutzer von einem CUA erwarten würden und welche Aufgaben ein CUA tatsächlich ausführen kann. FaraGen nutzt dafür hochwertige URLs aus Datensätzen wie ClueWeb22 und Tranco. ClueWeb22 wurde stärker verwendet, da die Forschenden davon ausgingen, dass dieser Datensatz eine breitere Abdeckung nützlicher Websites bietet und weniger wenig hilfreiche Unternehmens-Landingpages enthält.
Ein Teil der Aufgaben wurde aus gezielten URLs erstellt. Diese machten etwa 28 % der Trainingsdaten aus. Dabei wurden Roh-URLs verwendet und zu konkreten Nutzerabsichten weiterentwickelt, die sowohl erreichbar als auch überprüfbar waren.
Der größte Teil der Aufgaben entstand durch agentische URL-Erkundung, die etwa 67 % der Trainingsdaten ausmachte. In diesem Prozess erkundete ein multimodaler LLM-Agent Websites, indem er Screenshots und Accessibility Trees verarbeitete. Der Agent führte wiederholt Aktionen aus, um eine Aufgabe zu erledigen, und verfeinerte die Aufgabe auf Grundlage der bereits ausgeführten Schritte sowie des aktuellen Seitenzustands.
Die übrigen Aufgaben, etwa 5 % der Trainingsdaten, wurden mithilfe von LLMs erzeugt, indem vorhandene Aufgaben in mehrere ähnliche Varianten umgewandelt wurden.
Aufgabenlösung
FaraGen verwendet ein auf Magnetic-One basierendes Multi-Agenten-Framework, um synthetische Web-Aufgaben zu lösen. Dabei entstehen Trajektorien, die eine vollständige Abfolge von Beobachtungen, Aktionen und Gedanken enthalten. Diese Trajektorien werden anschließend für das überwachte Fine-Tuning genutzt, um Fara-7B zu trainieren. Später in diesem Artikel wird beschrieben, wie das Modell in einer GPU-fähigen Serverumgebung ausgeführt werden kann.
Der Aufgabenlösungsprozess umfasst zwei zentrale Agenten: den Orchestrator und den WebSurfer. Ein dritter Agent, der UserSimulator, wird aktiviert, wenn Nutzereingaben erforderlich sind. Dadurch wird die Bearbeitung von Aufgaben über mehrere Interaktionsschritte hinweg möglich. Zusätzlich enthält das System sogenannte Critical Points, bei denen das Modell stoppt und erst nach Nutzeranweisungen fortfährt.
Orchestrator Agent
Der Orchestrator Agent koordiniert den gesamten Ablauf. Seine Hauptaufgabe besteht darin, den WebSurfer zu steuern, typische Fehlermuster zu vermeiden, Critical Points durchzusetzen und bei Bedarf den UserSimulator Agent einzubeziehen.
Dafür führt der Orchestrator ein Ledger. Auf Basis vergangener und erwarteter zukünftiger Aktionen des WebSurfer prognostiziert der Orchestrator Werte für die Ledger-Felder.
Die Merkmale is_in_loop und last_action_successful sind besonders wichtig, da einer der häufigsten Fehler des WebSurfer Agent darin besteht, in Schleifen wiederholter Aktionen stecken zu bleiben.
Sowohl der Orchestrator als auch der WebSurfer können jederzeit entscheiden, die Ausführung zu stoppen. Dadurch können logische Konflikte entstehen. Wenn die Aufgabe noch nicht abgeschlossen ist, kann der Orchestrator die Stop-Entscheidung des WebSurfer übersteuern.
Tabelle 3 aus dem Paper beschreibt die Entscheidungshierarchie. Critical Points haben die höchste Autorität und überschreiben alle anderen Flags, während Stop-Entscheidungen des WebSurfer die geringste Autorität besitzen. Wenn das System den WebSurfer zum Stoppen zwingt, werden andere Aktionen deaktiviert, anstatt den Agenten programmatisch zu stoppen. Dadurch kann der WebSurfer nachvollziehen, warum er stoppen musste, was Fara-7B dabei unterstützt, auf neue Critical-Point-Szenarien zu generalisieren.
Nach Abschluss einer Aufgabe identifiziert der Orchestrator anhand des Verlaufs die URLs der Zielobjekte, damit Verifizierer bestätigen können, ob die richtigen Ziele erreicht wurden.
WebSurfer Agent
Der WebSurfer erhält seine Anweisungen aus dem Feld next_steps im Ledger, das vom Orchestrator verwaltet wird. Er führt Aktionen wie Klicken, Tippen und Scrollen im Browser über Playwright aus. Die Forschenden nutzten eine verwaltete Browserumgebung, um eine stabile Ausführung sicherzustellen und dafür zu sorgen, dass die Aktionen des WebSurfer auf dynamischen Websites zuverlässig ohne Abstürze oder Timeouts abgeschlossen wurden.
UserSimulator
Der UserSimulator Agent wird aktiviert, wenn die Pipeline einen Critical Point erreicht und eine Nutzereingabe benötigt. Er simuliert menschliche Antworten, etwa das Erteilen einer Zustimmung oder das Bereitstellen persönlicher Angaben, damit der Datengenerierungsprozess fortgesetzt werden kann.
Trajektorien-Verifizierung
Neben den Flags zur Aufgabenfertigstellung, die während der Aufgabenlösungsphase eingesetzt werden, nutzt FaraGen mehrere Verifizierer, die als LLM-Judges fungieren, um Qualität und Korrektheit zu prüfen. Mehrere Verifizierer sind notwendig, weil verschiedene Aufgabentypen unterschiedliche Formen von Nachweisen benötigen. Aktionsorientierte Aufgaben profitieren von multimodalen Evidenzprüfungen, während informationssuchende Aufgaben eine rubrikbasierte Bewertung erfordern, um die Qualität einzuschätzen.
| Funktion | Ziel-Fehlermodus | Fehlerbeispiel |
|---|---|---|
| Alignment-Verifizierer | Prüft, ob der finale Aktionsverlauf zur Nutzerabsicht passt. | Logikfehler, etwa der Kauf des falschen Artikels. |
| Rubrik-Verifizierer | Bewertet die Trajektorie anhand einer zuvor definierten Kriterienliste. | Teilweise Fehlleistungen, etwa das Finden eines Hotels, aber für die falschen Reisedaten. |
| Multimodaler Verifizierer | Überprüft den finalen Screenshot, um sichtbare Hinweise auf den Erfolg zu bestätigen. | Halluzinationen, etwa die Behauptung, eine Aufgabe sei erledigt, obwohl der Bildschirm einen Fehler zeigt. |
Um zu zeigen, wie wirksam FaraGen ist, nutzten die Forschenden die damit erzeugten Daten zum Training von Fara-7B. Fara-7B ist ein CUA-Modell, das Computeroberflächen ausschließlich über Screenshots versteht, Aktionen über vorhergesagte Koordinaten ausführt und kompakt genug ist, um auf lokalen Geräten betrieben zu werden.
Fara-7B
Fara-7B lässt sich als Proof-of-Concept-Destillation des Multi-Agenten-Lösungssystems verstehen. Das Modell basiert auf dem Vision-Language-Modell Qwen2.5-VL-7B und wurde mit 145.000 hochwertigen Trajektorien trainiert, die durch die FaraGen-Pipeline erzeugt wurden. Diese Trajektorien verdichten Multi-Agenten-Interaktionen zu vielfältigen Aufgabenbeispielen.
Das Modell nutzt überwachtes Fine-Tuning, um aus diesen Trajektorien zu lernen. Zusätzlich umfasst es Aufgaben wie Grounding, Refusal Training und UI-Frage-Antwort-Aufgaben, um die Lokalisierung von Elementen zu verbessern, schädliche Aktionen zu vermeiden und Halluzinationen zu reduzieren.
| Aufgabentyp | Zweck | Methode | Auswirkung auf Fara-7B |
|---|---|---|---|
| Grounding | Verbessert die Lokalisierung von UI-Elementen wie Buttons und Links in Screenshots. | Es wurden mehr als 500.000 Beispiele erzeugt, die natürlichsprachliche Anfragen Bildschirmkoordinaten zuordnen. Omniparser und DOM-Annotationen wurden verwendet, um Elemente zu markieren. | Erhöht die Präzision bei Klick- und Texteingabeaktionen. Verringert Halluzinationen interaktiver Elemente. |
| Refusal Training | Bringt dem Modell bei, schädliche oder unsichere Aufgaben abzulehnen. | Synthetische schädliche Aufgaben, etwa illegale Aktivitäten und Phishing, wurden gemeinsam mit öffentlichen Datensätzen wie WildGuard verwendet. | Erreicht eine Ablehnungsrate von 94,2 % bei schädlichen Aufgaben. Verbessert Sicherheit und Compliance. |
| UI Q&A und Captioning | Stärkt das Verständnis von Webseitentexten, Inhalten und Kontext. | Aus Webseiten-Screenshots wurden Frage-Antwort-Paare und Beschreibungen erzeugt, mit Schwerpunkt auf der Extraktion sachlicher Informationen. | Reduziert Halluzinationen in Antworten. Verbessert die Genauigkeit bei der Beantwortung von Nutzerfragen zu Webinhalten. |
Fara-7B interpretiert Browserinteraktionen anhand von Screenshots, während interne Schlussfolgerungen und der Zustandsverlauf als Text gespeichert werden. Auf Grundlage der neuesten Screenshots sowie eines vollständigen Verlaufs vorheriger Aktionen bestimmt Fara-7B die nächste Aktion und die dafür notwendigen Argumente, etwa Koordinaten für Klickpositionen.
Mit nur 7 Milliarden Parametern erreicht Fara-7B für seine Modellgröße eine State-of-the-Art-Leistung. Es übertrifft vergleichbare Modelle wie UI-TARS-1.5-7B auf Benchmarks wie WebVoyager, wo es eine Genauigkeit von 73,5 % erreicht, sowie WebTailBench mit 38,4 %. Gleichzeitig bleibt es konkurrenzfähig gegenüber deutlich größeren Modellen wie GPT-4o.
Evaluierung von Fara-7B
Die Forschenden evaluierten Fara-7B auf WebVoyager, Online-Mind2Web und DeepShop. Zusätzlich entwickelten sie einen eigenen Benchmark namens WebTailBench.
WebTailBench
WebTailBench enthält 609 manuell verifizierte Aufgaben aus 11 Kategorien. Dazu gehören Shopping, Flüge, Hotels, Immobilien, Bewerbungen und Einkaufslisten mit mehreren Artikeln. Der Benchmark legt besonderen Wert auf Realitätsnähe, indem stark frequentierte Webseiten genutzt werden. Gleichzeitig erhöht er die Aufgabenvielfalt, indem unterrepräsentierte oder bisher fehlende Szenarien bestehender Benchmarks abgedeckt werden, zum Beispiel Vergleichskäufe.
WebTailBench ermöglicht objektive Bewertungen durch zielorientierte Aufgaben und ein Verifizierungssystem, das mit menschlicher Beurteilung abgestimmt ist. Außerdem berücksichtigt der Benchmark die Aufgabenkomplexität durch mehrstufige und websiteübergreifende Herausforderungen. Er ist für reproduzierbare Evaluationen konzipiert und wird zusammen mit den zugehörigen Verifizierungswerkzeugen veröffentlicht.
Fara-7B zur Automatisierung von Computeraufgaben ausführen
Das Training dieses Modells mit 7 Milliarden Parametern erforderte 64 H100-GPUs und 2,5 Tage. Dieser Artikel erklärt jedoch nicht, wie Fara-7B von Grund auf trainiert wird. Stattdessen wird gezeigt, wie das Modell mit Magnetic-UI ausgeführt werden kann, wobei ein einzelner H100-GPU-Server ausreicht.
Beginnen Sie mit der Einrichtung eines GPU-fähigen Servers.
Sobald der Server bereit ist, kopieren Sie die öffentlichen IPv4-Zugangsdaten und verbinden sich per SSH über Ihren bevorzugten Code-Editor.
Führen Sie im Terminal die folgenden Befehle aus:
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui[fara]
vllm serve "microsoft/Fara-7B" --port 5001 --dtype auto
Erstellen Sie in Ihrem Code-Editor eine Datei mit dem Namen fara_config.yaml und fügen Sie die folgende Konfiguration ein:
model_config_local_surfer: &client_surfer
provider: OpenAIChatCompletionClient
config:
model: "microsoft/Fara-7B"
base_url: http://localhost:5001/v1
api_key: not-needed
model_info:
vision: true
function_calling: true
json_output: false
family: "unknown"
structured_output: false
multiple_system_messages: false
orchestrator_client: *client_surfer
coder_client: *client_surfer
web_surfer_client: *client_surfer
file_surfer_client: *client_surfer
action_guard_client: *client_surfer
model_client: *client_surfer
Starten Sie anschließend Magnetic-UI mit dem Fara-Agenten:
magentic-ui --fara --port 8081 --config fara_config.yaml
Fara-7B lieferte die exakt richtige Antwort.
Fazit
Fara-7B ist ein beeindruckendes Modell. Hochwertige synthetische Daten im großen Maßstab können den Datenmangel wirksam adressieren, der die Entwicklung von Computer Use Agents bislang verlangsamt hat. Dieses Modell mit 7 Milliarden Parametern versteht seine Umgebung über Screenshots und kann komplexe, mehrstufige Web-Aufgaben mit State-of-the-Art-Genauigkeit ausführen, was ihm erhebliches Potenzial verleiht.
Es wird spannend sein zu beobachten, wie Fortschritte in verwandten Bereichen der KI-Forschung, darunter Computer Use, Codegenerierung, Inferenzoptimierung und weitere aktive Forschungsfelder, die Verbreitung skalierbarer und wirkungsstarker Produkte und Anwendungsfälle beeinflussen.


