Microsoft SkillOpt optimiert KI-Agenten automatisch ohne Modelltraining

Viele Unternehmen setzen inzwischen auf KI-Agenten, die Aufgaben ausführen, Dokumente analysieren, Daten extrahieren oder mit Software interagieren. Die eigentliche Herausforderung beginnt jedoch oft erst nach der Einführung: Wie verbessert man einen Agenten dauerhaft, ohne ständig Prompts anzupassen oder das zugrunde liegende Modell neu zu trainieren?

Microsoft glaubt, dafür eine Antwort gefunden zu haben. Mit SkillOpt hat das Unternehmen ein Open-Source-Framework vorgestellt, das die Fähigkeiten eines Agenten automatisch weiterentwickeln kann – ohne Änderungen an den Gewichten des verwendeten KI-Modells.

Skills statt Modellgewichte

Moderne Agentensysteme bestehen häufig nicht nur aus einem Sprachmodell. Sie erhalten zusätzliche sogenannte Skills. Dabei handelt es sich meist um Textdateien, die Regeln, Arbeitsabläufe, Formatvorgaben oder Tool-Nutzungsrichtlinien beschreiben.

Diese Skill-Dateien bestimmen beispielsweise:

wie ein Agent Werkzeuge verwendet,
welche Prüfungen vor einer Antwort durchgeführt werden,
welche Formatregeln einzuhalten sind,
wie mit Fehlerfällen umzugehen ist.

Bislang wurden solche Skills überwiegend manuell gepflegt. Entwickler passten Anweisungen an, testeten die Ergebnisse und hofften auf Verbesserungen. Microsoft beschreibt diesen Prozess als eine Art Ratespiel.

SkillOpt behandelt Text wie ein trainierbares System

SkillOpt verfolgt einen anderen Ansatz. Das Framework betrachtet die Skill-Datei selbst als optimierbares Objekt. Dabei wird nicht das KI-Modell verändert, sondern ausschließlich die Anweisungen, die dem Agenten vor der Ausführung bereitgestellt werden.

Der Ablauf erinnert an klassisches maschinelles Lernen:

Der Agent bearbeitet Aufgaben.
Die Ergebnisse werden bewertet.
SkillOpt analysiert Fehler und Erfolge.
Neue Änderungen an der Skill-Datei werden vorgeschlagen.
Diese Änderungen müssen sich auf einem separaten Validierungsdatensatz bewähren.
Nur nachweislich bessere Versionen werden übernommen.

Microsoft überträgt damit bekannte Konzepte aus dem Deep Learning auf Textdokumente. Dazu gehören Lernraten, Validierungsschritte und Mechanismen, die verhindern sollen, dass sich Fehler wiederholen.

Deutliche Leistungssteigerungen in den Tests

In den veröffentlichten Benchmarks zeigte SkillOpt durchgehend Verbesserungen. Besonders stark profitierten Agenten in komplexen Arbeitsabläufen, bei denen mehrere Schritte, Werkzeuge oder Prüfungen erforderlich sind.

Bei GPT-5.5 erreichte Microsoft durchschnittlich eine Verbesserung von 23,5 Prozentpunkten gegenüber einer Variante ohne optimierte Skills. Kleinere Modelle legten teilweise noch stärker zu und konnten ihre Ergebnisse in einzelnen Szenarien nahezu verdoppeln oder sogar verdreifachen.

Die größten Fortschritte wurden bei typischen Unternehmensaufgaben beobachtet:

Dokumentenextraktion
Vertragsanalyse
Formularverarbeitung
Compliance-Prüfungen
strukturierte Datenausgabe

Microsoft betont dabei, dass die Verbesserungen nicht durch das Auswendiglernen von Antworten entstehen. Stattdessen lernt der Agent bessere Verfahren und Arbeitsabläufe.

Warum das für Unternehmen interessant ist

Viele Unternehmen können oder wollen keine eigenen Modelle trainieren. Die Kosten sind hoch, der Aufwand beträchtlich und regulatorische Anforderungen nehmen zu.

SkillOpt verfolgt deshalb einen deutlich pragmatischeren Weg. Statt Milliarden von Parametern anzupassen, optimiert das System nur einige hundert oder tausend Token in einer Skill-Datei.

Die daraus entstehenden Artefakte bleiben überschaubar, nachvollziehbar und auditierbar. Laut Microsoft lag die mittlere Größe der finalen Skills bei weniger als 1.000 Token.

Damit entsteht eine Art Zwischenschicht zwischen klassischem Prompt Engineering und teurem Fine-Tuning.

Ein möglicher Blick in die Zukunft der Agenten

Die eigentliche Bedeutung von SkillOpt liegt möglicherweise nicht in den Benchmark-Ergebnissen. Interessanter ist die Richtung, in die sich Agentensysteme entwickeln.

Statt Menschen dauerhaft Prompts und Regeln anpassen zu lassen, könnten Agenten ihre Arbeitsweise künftig selbst verbessern. Zunächst über optimierte Skill-Dateien, später möglicherweise über komplexere Formen der Selbstanpassung.

Microsoft beschreibt Skills dabei als den schnellsten, günstigsten und am leichtesten rückgängig zu machenden Weg zur kontinuierlichen Verbesserung von KI-Systemen.

Für Unternehmen könnte genau das entscheidend werden. Nicht jedes neue Modell sorgt für einen Produktivitätssprung. Oft entstehen die größten Gewinne dort, wo Arbeitsabläufe präziser, zuverlässiger und reproduzierbarer werden.

SkillOpt ist deshalb weniger ein neues KI-Modell als vielmehr ein Werkzeug, das Agenten beibringen soll, aus ihren eigenen Fehlern zu lernen – ohne dass dafür die eigentliche KI neu trainiert werden muss.

Microsoft will Agenten selbst trainieren lassen – ohne das KI-Modell anzufassen

Skills statt Modellgewichte

SkillOpt behandelt Text wie ein trainierbares System

Deutliche Leistungssteigerungen in den Tests

Warum das für Unternehmen interessant ist

Ein möglicher Blick in die Zukunft der Agenten

Weitere Artikel in „KI”

AMDs Anthropic-Deal ist ein Compute-Stack in vier Schichten

Open Weights: Warum Nvidia gegen zu frühe KI-Verbote drängt

OpenAI und das Bilanzrisiko des KI-Gedächtnisses