KI schreibt Code. Jetzt kommt die Rechnung im Betrieb

Rohtext Redaktion

· 21. Mai 2026 · 6 Min. Lesezeit

KI schreibt Code. Jetzt kommt die Rechnung im Betrieb

← Alle Beiträge

Der bequemste Mythos des KI-Coding-Booms lautet: Wenn Software schneller entsteht, wird auch die Entwicklung besser. Genau diese Erzählung bekommt jetzt Risse. Denn Code ist nicht fertig, wenn er generiert wurde. Er ist fertig, wenn er in Produktion läuft, sich überwachen lässt, bei Fehlern erklärbar bleibt und jemand versteht, warum ein System gerade ausfällt.

Resolve AI setzt genau an dieser Bruchstelle an. Das Unternehmen, unterstützt von Greylock und Lightspeed Venture Partners, hat eine deutliche Erweiterung seiner Plattform angekündigt: dauerhaft laufende Hintergrund-Agenten, eine neu entworfene Untersuchungsarchitektur und einen gemeinsamen Arbeitsraum, in dem Ingenieure und KI-Agenten in Echtzeit an laufenden Incidents arbeiten sollen. Im Zentrum steht ein Multi-Agenten-System, das Produktionsfehler nicht mehr mit einem einzelnen Agenten untersuchen soll, sondern mit mehreren spezialisierten Agenten, die parallel Hypothesen verfolgen, gegenseitig Ergebnisse überprüfen und Kausalketten vom Symptom bis zur Ursache aufbauen.

Das klingt zunächst wie die nächste Schicht Automatisierungsrhetorik über einem ohnehin überhitzten KI-Markt. Interessant ist aber nicht der Produktname. Interessant ist der Zeitpunkt. Die Branche hat sich in den vergangenen Monaten daran gewöhnt, KI beim Schreiben, Umbauen und Reparieren von Code als Beschleuniger zu betrachten. Resolve AI dreht die Perspektive um: Wenn KI mehr Code in kürzerer Zeit in Systeme drückt, wird der Betrieb nicht automatisch einfacher. Er wird unübersichtlicher.

Der Engpass wandert vom Editor in die Produktion

KI-Coding-Agenten werden gern als fleißige Junior-Entwickler beschrieben: schnell, ausdauernd, manchmal erstaunlich nützlich, aber ohne echtes Systemgedächtnis. Diese Metapher ist grob, trifft aber den Kern. Ein Agent kann Code schreiben, Tests ergänzen oder einen Bugfix vorschlagen. Was er damit nicht automatisch liefert, ist organisatorische Verantwortung. Produktionssysteme bestehen nicht aus isolierten Funktionen, sondern aus Abhängigkeiten, Laufzeitverhalten, Logs, Konfigurationen, Deployments, Datenflüssen und historisch gewachsenen Entscheidungen.

Genau hier verschiebt sich der Markt. Die erste Welle der KI-Entwicklung zielte auf den Moment der Code-Erzeugung: schneller prototypisieren, schneller Features bauen, schneller Fehler finden. Die nächste Welle richtet sich auf das, was nach dem Merge passiert. Denn die Kosten von Software entstehen nicht nur beim Schreiben. Sie entstehen beim Verstehen.

Resolve AI beschreibt seine neue Architektur als Antwort auf dieses Problem. Statt einen einzelnen Agenten wie einen menschlichen Bereitschaftsdienst auf einen Incident loszulassen, sollen mehrere spezialisierte Agenten gleichzeitig arbeiten. Der Vergleich kommt vom Unternehmen selbst: Ein einzelner Agent sei wie eine einzelne Person im On-Call-Dienst. Die neue Architektur verteilt die Untersuchung auf mehrere Rollen. Ein Agent kann einer Hypothese nachgehen, ein anderer eine Gegenprüfung versuchen, ein weiterer die Kette zwischen Ursache und Symptom rekonstruieren.

Das ist eine wichtige Verschiebung. Nicht weil Multi-Agenten automatisch besser sind. Sondern weil der Ansatz anerkennt, dass Produktionsdiagnose kein Frage-Antwort-Spiel ist. Ein Ausfall hat selten eine sauber beschriftete Ursache. Er besteht aus Indizien, Zeitverläufen, Nebenwirkungen und falschen Fährten. Wer das automatisieren will, braucht mehr als einen Chatbot mit Zugriff auf Logs.

Die eigentliche Plattformfrage: Wer versteht das System?

Resolve AI behauptet, die neue Architektur liefere auf internen Evaluationsbenchmarks mehr als eine Verdopplung der Genauigkeit bei der Ursachenanalyse gegenüber früheren Versionen der eigenen Plattform. Diese Zahl ist nützlich, aber begrenzt. Interne Benchmarks sind keine unabhängige Realität. Sie zeigen, was ein Anbieter messen will und messen kann. Trotzdem markiert die Aussage, worum der Wettbewerb künftig geführt wird: nicht mehr nur um Code-Vervollständigung, sondern um Betriebskompetenz.

Das ist für Entwicklerteams unbequem. Denn viele Organisationen haben KI bislang vor allem als Produktivitätswerkzeug im Entwicklungsprozess betrachtet. Mehr Output, weniger Wartezeit, geringere Reibung. Aber jedes zusätzliche Stück Code erhöht auch die Angriffsfläche für Komplexität. Nicht zwingend sicherheitstechnisch, nicht automatisch dramatisch, aber operativ. Je schneller Änderungen entstehen, desto wichtiger wird die Fähigkeit, ihre Folgen zu erklären.

Hier entsteht ein neuer Kontrollpunkt. Wer den Editor kontrolliert, beeinflusst, wie Code geschrieben wird. Wer die Produktionsanalyse kontrolliert, beeinflusst, wie Vorfälle verstanden werden. Das ist strategisch mindestens genauso relevant. Denn im Ernstfall zählt nicht, wer die schönste Autovervollständigung liefert. Im Ernstfall zählt, welches System den Zusammenhang zwischen Änderung, Verhalten und Ausfall plausibel rekonstruieren kann.

Ein gemeinsamer Arbeitsraum für Ingenieure und Agenten klingt harmlos. Tatsächlich geht es um die Frage, wo das operative Gedächtnis eines Softwareunternehmens liegt. In den Köpfen erfahrener Entwickler? In Runbooks? In Chatverläufen? In Observability-Tools? Oder künftig in einer Plattform, die Incidents beobachtet, Hypothesen bildet und Erklärungen anbietet?

KI verschiebt Verantwortung, sie ersetzt sie nicht

Die gefährliche Lesart wäre: Agenten lösen den On-Call-Schmerz, also kann Betrieb weiter beschleunigt und personell ausgedünnt werden. Dafür liefert die Ankündigung keine Grundlage. Resolve AI spricht von Zusammenarbeit zwischen Ingenieuren und KI-Agenten, nicht von vollautomatischer Verantwortungsübernahme. Das ist der entscheidende Unterschied.

Produktionssysteme sind keine Demo-Umgebungen. Wer dort falsche Schlüsse zieht, verschlimmert Vorfälle. Ein Agent, der eine plausible, aber falsche Ursache präsentiert, ist nicht nur nutzlos. Er kostet Zeit. Deshalb ist die gegenseitige Verifikation innerhalb eines Multi-Agenten-Systems mehr als ein technisches Detail. Sie ist ein Eingeständnis, dass einzelne KI-Agenten bei komplexen Untersuchungen anfällig für vorschnelle Erklärungen sind.

Die größere Frage bleibt aber offen: Wie gut funktionieren solche Systeme außerhalb der eigenen Benchmarks, mit chaotischen Altsystemen, unvollständigen Telemetriedaten, widersprüchlichen Deployments und Teams, die ihre Architektur selbst nicht mehr vollständig überblicken? Genau dort entscheidet sich, ob KI im Betrieb ein Werkzeug wird oder nur ein weiterer Layer, der Aufmerksamkeit bindet.

Viele Debatten über KI-Coding bleiben an der Oberfläche hängen. Sie zählen generierte Zeilen, diskutieren, ob Agenten halbe Codebasen schreiben können, oder feiern Prototypen, die in kurzer Zeit entstehen. Das ist die falsche Metrik. Software scheitert selten daran, dass nicht genug Code existiert. Sie scheitert daran, dass niemand mehr sicher sagen kann, warum sich ein System so verhält, wie es sich verhält.

Der Markt sortiert sich neu

Resolve AIs Vorstoß zeigt, wohin sich die Infrastruktur rund um KI-Entwicklung bewegt. Die Coding-Schicht war nur der sichtbare Anfang. Danach kommen Test, Review, Deployment, Monitoring, Incident Response und Ursachenanalyse. Wer dort sitzt, rückt näher an die Schaltstellen moderner Softwareorganisationen.

Das ist kein kleiner Zusatzmarkt. Es ist die logische Folge einer Entwicklung, die Codeproduktion billiger und schneller macht. Wenn Erstellungskosten sinken, verlagert sich Wert auf Kontrolle, Qualitätssicherung und Betrieb. Genau das passiert gerade. Die Frage lautet nicht mehr nur, welcher Agent am besten programmiert. Die Frage lautet, welcher Agent die Folgen des Programmierens versteht.

Für Plattformanbieter ist das attraktiv. Für Unternehmen ist es ambivalent. Einerseits können solche Systeme helfen, Incidents schneller einzugrenzen und Wissen verfügbarer zu machen. Andererseits entsteht eine neue Abhängigkeit: Wenn eine Plattform nicht nur beobachtet, sondern interpretiert, wird sie Teil der Entscheidungsstruktur. Dann ist sie nicht mehr bloß Werkzeug, sondern Deutungsschicht über der eigenen Produktion.

Die klare Bewertung

Resolve AI verkauft keine Antwort auf das Ende der Softwarekrise. Das wäre Unsinn. Aber die Ankündigung trifft einen realen Nerv: Die Branche hat sich beim KI-Coding zu lange auf Geschwindigkeit berauscht und zu wenig auf Betrieb geschaut. Schneller Code ist kein Fortschritt, wenn er die Systeme schwerer erklärbar macht.

Der eigentliche Punkt ist deshalb nicht, ob Resolve AIs Multi-Agenten-Ansatz besser ist als die vorige Version. Das muss sich außerhalb interner Benchmarks beweisen. Der Punkt ist, dass der KI-Markt die nächste Front gefunden hat: Produktion. Dort endet die Demo. Dort treffen KI-generierte Änderungen auf reale Abhängigkeiten, reale Ausfälle und reale Verantwortung.

Wer den KI-Coding-Boom verstehen will, sollte weniger auf die Menge des erzeugten Codes schauen und mehr auf die Werkzeuge, die danach entstehen. Denn sie verraten, wo der Schmerz wirklich sitzt. Nicht im leeren Editor. Sondern nachts im Incident, wenn das System steht und jemand herausfinden muss, welcher scheinbar harmlose Change die Kette ausgelöst hat.

📂

Kategorie

Künstliche Intelligenz, große Sprachmodelle, Bildgeneratoren und was sie wirklich können – und was nicht.

Über den Autor

Jens Könnig

Jens analysiert seit Jahren digitale Märkte, Preisbewegungen und Plattform-Strategien. Als Betreiber mehrerer datengetriebener Systeme wertet er täglich große Mengen an Produkt- und Trenddaten aus. Sein Fokus liegt auf Einordnung statt Hype: Was bedeutet eine Entwicklung wirklich für Nutzer, Preise und Märkte?

Alle Artikel von Jens Könnig →