Wann agentische KI tatsächlich ROI liefert · codestra

1. Die Frage, die wir inzwischen zuerst stellen

Wenn ein Kunde zum ersten Mal auf uns zukommt, hören wir meistens zwei Varianten desselben Satzes: „Wir wollen agentische KI einführen“ oder „Wir haben schon einen Piloten, der funktioniert nicht richtig.“Unsere Antwort ist in beiden Fällen die gleiche Gegenfrage, und sie ist nicht rhetorisch gemeint:

An welcher Stelle Ihres Prozesses verlieren Sie heute reproduzierbar Zeit oder Geld - und woran erkennen Sie das?

Wer darauf keine präzise Antwort hat, sollte keinen Agenten bauen. Wer eine Antwort hat, hat in neun von zehn Fällen auch schon den Use Case identifiziert - er nennt ihn bloß noch nicht so. Diese Asymmetrie ist der Grund, warum wir im ersten Gespräch mehr über Zeiterfassungssysteme, Ticketzyklen und Stückzahlen reden als über Modelle, Tools oder Frameworks.

Was folgt, ist die Destillation aus vierzehn Projekten zwischen März 2024 und März 2026. Sieben sind in Produktion, vier in Evaluation, zwei wurden eingestellt, eines lief nie an. Die Verteilung ist ungefähr repräsentativ für das, was wir in unseren Gesprächen mit anderen Beratungen hören - wer eine deutlich höhere Erfolgsquote ausweist, zählt entweder Demos mit oder filtert vor dem Vertrag stark.

2. Die drei Bedingungen, unter denen Agenten wirtschaftlich werden

Ein Agent - im hier verwendeten Sinn: ein KI-System, das mehrschrittige Aufgaben mit Werkzeugzugriff autonom bearbeitet - rechnet sich verlässlich nur, wenn drei Bedingungen gleichzeitig erfüllt sind. Das ist keine theoretische Herleitung, sondern das Filterkriterium, mit dem wir seit Anfang 2025 Anfragen sortieren.

Reversibilität

Jede Aktion, die der Agent ausführt, muss folgenlos rückgängig gemacht werden können - entweder weil sie nur lesend ist, weil ein Mensch sie gegenzeichnet, oder weil ein günstiger Roll-back existiert. Ein Agent, der Produktionsbestellungen auslöst, ist kein Agent, sondern ein Single-Point-of-Failure in Sakko.

Frequenz

Der Prozessabschnitt muss in Stückzahlen vorkommen, die Fixkosten amortisieren. Unsere Faustregel: ab ca. 5.000 vergleichbaren Fällen pro Monatrechnet sich ein maßgeschneiderter Agent gegenüber Standardsoftware plus Mensch. Darunter: fast nie. Ausnahmen bestätigen die Regel, nicht das Gegenteil.

Menschen-Taktung

Der heutige Flaschenhals muss menschliche Bearbeitungszeitsein - nicht Daten, nicht Freigaben, nicht Systemintegration. Agenten lösen das Problem, dass qualifizierte Mitarbeitende zu teuer für repetitive Triage sind. Sie lösen nicht das Problem, dass Ihr ERP 40 Jahre alt ist.

Die ehrliche Beobachtung: Unter hundert Anfragen, die wir im letzten Jahr erhalten haben, erfüllten etwa achtundzwanzig alle drei Bedingungen. Zweiundzwanzig davon wurden zu Projekten. Fünf scheiterten aus Gründen, die nichtan der KI lagen - zweimal an Datenverfügbarkeit, zweimal an fehlenden Stakeholdern auf Kundenseite, einmal an einer Reorganisation.

3. Eine Rechnung, die wir jedem Kunden im ersten Workshop machen

Bevor wir über Architekturen reden, ziehen wir gemeinsam mit dem Kunden eine Tabelle hoch. Sie passt auf eine Seite und entscheidet, ob wir weitermachen.

Parameter	Heute	Mit Agent (konservativ)	Δ p. a.
Fälle / Monat	8.400	8.400	-
Bearbeitungszeit Ø	14 min	3 min*	–79 %
FTE-Bedarf	11,7	4,1	–7,6 FTE
Personalkosten	€ 1.052.000	€ 369.000	–€ 683.000
Betriebskosten System	€ 38.000	€ 214.000	+€ 176.000
Netto-Effekt	-	-	–€ 507.000

* Bearbeitungszeit nur der verbleibenden menschlichen Schritte. Einmalige Implementierung in dieser Rechnung linear auf drei Jahre verteilt. Realer Kunde, anonymisiert - Versicherungsbranche.

Zwei Dinge sind an dieser Tabelle wichtiger als die Zahlen selbst. Erstens: der Betriebskosten-Eintrag. Wer ihn weglässt - und wir sehen in der Praxis, dass viele Berater das tun - verkauft eine Illusion. Laufende Modellkosten, Infrastruktur, Weiterentwicklung und eine kontinuierliche Evaluationspipeline addieren sich zu einer substanziellen Summe. Die Rechnung trägt trotzdem. Aber sie trägt weniger deutlich, als die PowerPoints suggerieren.

Zweitens: wir arbeiten bewusst mit konservativen Einsparannahmen. Bei diesem Kunden haben wir die Bearbeitungszeit mit 3 min kalkuliert, obwohl 1,8 min technisch machbar gewesen wären. Der Grund: Die Quote der Fälle, die der Agent nichtautonom abschließt, ist die entscheidende Größe. Wer sie zu niedrig ansetzt, muss nachverhandeln. Das ist das Schlimmste, was einem Projekt passieren kann.

4. Was wir messen, statt „funktioniert das?“ zu fragen

Die Frage funktioniert das? ist für agentische Systeme nicht sinnvoll beantwortbar. Sie funktionieren immer irgendwie - die Frage ist, ob sie gut genug funktionieren, damit sich der Betrieb lohnt. Wir messen, nach einigem Ausprobieren, drei Kennzahlen und nur diese drei im ersten Jahr:

Kennzahl 01

Durchsatz pro Bearbeiter

Fälle pro FTE-Stunde, gemessen an realen Fällen, nichtan Testdatensätzen. Wir etablieren diesen Wert zunächst sechs Wochen im Alt-Prozess, dann sechs Wochen parallel, dann als Steady-State.

Kennzahl 02

Fehlerquote je 1.000 Fälle

Kritisch ist nicht der Mittelwert, sondern die Verteilung. Ein Agent mit 0,3 % Fehlerquote, der einmal im Monat eine Fehlentscheidung mit hohem Schaden produziert, ist wirtschaftlich schlechter als einer mit 1,2 %, die gleichmäßig harmlos streut.

Kennzahl 03

Time-to-First-Reply

Die Zeit bis zur ersten, für den Endkunden sichtbaren Reaktion. Diese Kennzahl korreliert in unseren Projekten stärker mit NPS-Verbesserungen als die absolute Bearbeitungszeit.

Drei Kennzahlen, nicht dreißig. Wir haben frühe Projekte mit Dashboards begonnen, die 47 Metriken zeigten; keine davon wurde am Ende zur Entscheidungsgrundlage. Dashboards erzeugen die Illusionvon Steuerung, wenn niemand die Zahlen mit Konsequenz verbindet. Dreißig Kennzahlen ohne Konsequenz sind schlechter als drei mit.

5. Die fünf Muster, bei denen wir inzwischen sofort abraten

Nicht jeder Use Case, der technisch machbar ist, ist es wirtschaftlich. Die folgenden fünf Muster führen in unserer Datenlage überdurchschnittlich zu eingestellten oder verschleppten Projekten - und sie tauchen in Anfragen wiederholt auf.

„Wir wollen einen Agenten für alles, was unsere Mitarbeitenden nicht gerne machen.“ Ein Agent braucht einen umrissenen Prozess mit klaren Inputs und klarer Abschlussbedingung. „Alles, was wir nicht gerne machen“ ist kein Prozess, sondern ein Wunschzettel.
Fälle mit regulatorisch geforderter Vier-Augen-Freigabe, bei denen der Agent die erste und der Mensch die zweite sein soll. Hier entsteht kein Durchsatzgewinn, nur verschobener Aufwand - und schlimmstenfalls ein Genehmigungs-Reflex, weil „die KI hat ja schon geprüft“.
Entscheidungen mit Irreversibilitätskosten > ca. € 50.000 im Einzelfall.Selbst bei hoher Modellgenauigkeit ist der seltene Fehlentscheid betriebswirtschaftlich so teuer, dass die Varianz den Erwartungswert zerstört.
Prozesse, in denen der Mensch heute weniger als drei Minuten pro Fall benötigt. Der Sprung von 3 min auf 30 Sekunden rechnet sich selten - der Mensch bleibt ohnehin im Loop, und der Overhead des Systems frisst die Ersparnis.
Anfragen mit dem Nebensatz: „Wir wollen damit auch gleich unsere Datenqualität verbessern.“Agenten sind Konsumenten von Datenqualität, keine Produzenten. Wer das umdreht, baut zwei Projekte parallel und liefert keines.

Diese fünf Muster sind kein absolutes Ausschlusskriterium - für jedes haben wir Ausnahmen gesehen. Aber die Ausnahmen waren jedes Mal begleitet von einem ungewöhnlich reifen internen Team, einer klaren Governance-Struktur und einem Budget, das nicht auf ein einzelnes Quartal optimiert war. Wer diese drei Zutaten hat, darf die fünf Muster ignorieren. Wer keine davon hat, sollte es nicht tun.

6. Was 2026 anders ist als 2024

Vieles von dem, was wir oben schreiben, hätten wir 2024 ähnlich formuliert. Drei Dinge haben sich aber verschoben und sind für die Investitionsentscheidung relevant:

Der Preis pro Tausend Token ist nicht mehr der limitierende Faktor. Inferenzkosten für gemischt lokal/cloud betriebene Modelle sind in unseren Projekten zwischen 2024 und 2026 um etwa 87 Prozent gefallen, bei gleichzeitig besserer Qualität. Was früher teuer war, ist heute im Budget-Rauschen. Teuer sind inzwischen Evaluation, Datenarbeit und Integrationsaufwand - also die menschliche Arbeit am System, nicht das System selbst.

Die Qualität von Tool-Use ist produktionsreif geworden. 2024 mussten wir Tool-Aufrufe hart validieren, weil Halluzinationen in Parameter-Payloads häufig waren. 2026 ist das Problem lösbar, aber anders: Die Tool-Aufrufe sind korrekt, aber die Reihenfolge, in der ein Agent mehrere Tools kombiniert, bleibt die Hauptfehlerquelle. Wer hier investiert - in Traces, in Golden-Datasets, in Eval-Harnesses - holt die größten Qualitätssprünge.

Der EU AI Act ist kein Gedankenspiel mehr. Seit dem ersten Quartal 2026 reden wir mit Kunden nicht mehr darüber, ob High-Risk-Klassifizierungen dokumentiert werden müssen, sondern wie. Für Beratungen wie uns bedeutet das: Was früher optional war (Model-Registry, Audit-Trail, Datenherkunft), ist heute Teil der minimalen Lieferung. Projekte, die das nicht mitdenken, werden teurer im Zweitwurf.

7. Drei Fragen vor der nächsten Investitionsentscheidung

Falls Sie einen Piloten planen oder einen laufenden Piloten hinterfragen, sind dies die drei Fragen, die wir Ihnen als Diskussionsgrundlage anbieten. Sie sind nicht erschöpfend - aber wer sie klar beantwortet, hat den schwierigsten Teil der Entscheidung bereits getan.

Welche drei Kennzahlen müssen sich in welcher Richtung bewegen, damit wir in neun Monaten von einem Erfolg sprechen - und wer misst sie?
Was genau passiert, wenn der Agent eine falsche Entscheidung trifft - wer merkt es, wann, und was kostet die Korrektur?
Wenn wir das Projekt einstellen müssten: Zu welchem Kalenderdatum wäre das noch ohne größere Folgekosten möglich?

Die dritte Frage ist uns die wichtigste. Projekte ohne definiertes Abbruchkriterium tendieren dazu, mit dem Gravitationsfeld des schon investierten Aufwands weiterzuwachsen. Wir halten ein explizit benanntes Stop-Datum für eine professionelle Selbstverständlichkeit - nicht für einen Misstrauensbeweis.

Nichts von dem, was oben steht, ist gegen agentische KI gerichtet. Im Gegenteil: Wir bauen diese Systeme, weil wir überzeugt sind, dass sie in einem klar umrissenen Segment der Wertschöpfung den größten produktiven Sprung seit Jahren ermöglichen. Aber der Markt ist voll von Angeboten, die die Begrenzungen dieses Segments überblenden. Das Ziel dieses Textes ist, eine nüchterne Verortung anzubieten - und die Fragen zu nennen, die wir Ihnen, und uns selbst, als erstes stellen würden.

Wann agentische KI tatsächlich ROI liefert - und wann sie Budget verbrennt.

1. Die Frage, die wir inzwischen zuerst stellen

2. Die drei Bedingungen, unter denen Agenten wirtschaftlich werden

3. Eine Rechnung, die wir jedem Kunden im ersten Workshop machen

4. Was wir messen, statt „funktioniert das?“ zu fragen

5. Die fünf Muster, bei denen wir inzwischen sofort abraten

6. Was 2026 anders ist als 2024

7. Drei Fragen vor der nächsten Investitionsentscheidung

Ein konkreter Use Case im Kopf?

1. Die Frage, die wir inzwischen zuerst stellen

2. Die drei Bedingungen, unter denen Agenten wirtschaftlich werden

3. Eine Rechnung, die wir jedem Kunden im ersten Workshop machen

4. Was wir messen, statt „funktioniert das?“ zu fragen

5. Die fünf Muster, bei denen wir inzwischen sofort abraten

6. Was 2026 anders ist als 2024

7. Drei Fragen vor der nächsten Investitionsentscheidung

Ein konkreter Use Case im Kopf?

Drei weitere Texte aus der Reihe.

Outlook für Sprach-Agenten über Microsoft Graph.

76 Tools für die Buchhaltung als MCP-Server.

MCP-Server für MOCO als Open Source.