Warum aktuelle KI‑Agenten beim Denken und Handeln an Grenzen stoßen
Die Vision autonomer KI‑Agenten klingt verlockend. Sie sollen planen, recherchieren, rechnen, Dateien bewegen, Browser steuern und daraus verlässliche Ergebnisse ableiten. Zwei im August 2025 veröffentlichte Paper prüfen diese Versprechen unter realitätsnahen Bedingungen durch den Einsatz des Model Context Protocols (MCP) und liefern eine klare Botschaft: Es gibt substanzielle Lücken im Denken über mehrere Schritte und in der robusten Tool‑Orchestrierung.
Was die Duke University zeigt
Paper: LiveMCP‑101: Stress Testing and Diagnosing MCP‑enabled Agents on Challenging Queries
Die Autor:innen stellen 101 sorgfältig kuratierte, dynamische Anfragen zusammen. Jede Aufgabe verlangt abgestimmte Nutzung mehrerer MCP‑Tools wie Websuche, Dateioperationen, Rechnen und Datenanalyse. Bewertet wird nicht bloß die Rückgabe, sondern auch die Planung der Ausführung. So lässt sich messen, ob ein Agent den richtigen Plan erstellt und tatsächlich ausführt. Selbst moderne Modelle bleiben unter 60 Prozent Erfolgsrate. Die Fehlermuster betreffen vor allem Tool‑Orchestrierung und ineffiziente Token‑Nutzung.
Was Salesforce AI Research zeigt
Paper: MCP‑Universe: Benchmarking Large Language Models with Real‑World Model Context Protocol Servers
Dieses Benchmark setzt auf elf reale MCP‑Server in sechs Domänen wie Navigation, Repository‑Management, Finanzanalyse, 3D‑Design, Browser‑Automation und Websuche. Es kombiniert Format‑Evaluatoren, statische Evaluatoren und dynamische Evaluatoren, die zur Laufzeit Ground Truth beschaffen. Die Ergebnisse sind deutlich. GPT‑5 erreicht 43,72 Prozent, Grok‑4 33,33 Prozent, Claude‑4.0‑Sonnet 29,44 Prozent. Zudem treten zwei Querschnittsprobleme auf. Erstens wachsen Kontexte schnell mit der Schrittzahl. Zweitens sind unbekannte Tools ein systematischer Stolperstein. Auffällig ist, dass Enterprise‑Agenten wie Cursor keinen Vorsprung gegenüber soliden ReAct‑Baselines zeigen.
Gemeinsame Muster beider Benchmarks
- Langhorizon‑Denken bleibt fragil. Je mehr Interaktionsschritte nötig sind, desto eher driftet die Kette aus Teilzielen, Zwischenprüfungen und Aktionen auseinander.
- Tool‑Nutzung ist fehleranfällig. Modelle wählen falsche Tools, rufen sie in nicht zielführender Reihenfolge auf oder integrieren die Ergebnisse inkonsistent in den Plan.
- Eval‑Design ist entscheidend. Erfolgsmetriken, die an Plänen und Ausführungen ansetzen, zeigen Schwächen, die reine API‑Antworten verschleiern würden.
Was das für die Praxis bedeutet
Wer heute Agenten auf echte Prozesse loslässt, sollte mit moderaten Erfolgsquoten, hoher Variabilität und Aufsichtsbedarf rechnen. Sinnvoll sind überschaubare Einsatzfelder mit klaren Toolketten, harte Erfolgskriterien entlang des Plans, Logging und Re‑Try‑Strategien sowie menschliche Kontrolle an kritischen Stellen.
Diese Limitierungen überraschen niemanden, der sich mit agentenbasierten Systemen ernsthaft beschäftigt. Doch genau diese strukturellen Schwächen finden in der breiten allgemeinen Kommunikation kaum statt.
Im Marketing und Medien entsteht ein Bild scheinbarer Reife, nur hat dies mit der realen Einsatzfähigkeit wenig zu tun.
Und was heute schon funktioniert
Es gibt Anwendungsfelder, in denen KI heute zuverlässig Nutzen stiftet. Ein Beispiel ist strukturierte Begleitung und Reflexion im Coaching. Statt autonomer Fremdsteuerung geht es um klar geführte Prozesse, nachvollziehbare Übungen und den Aufbau von Stressresistenz, Resilienz und psychischer Flexibilität.
Sapericus setzt genau hier an. Das System arbeitet mit strukturierten Sessions, nutzt wissenschaftlich fundierte Modelle der Selbstentwicklung und hilft Menschen, konkrete Herausforderungen zu klären und tragfähige Handlungspläne zu entwickeln. Der Fokus liegt auf verlässlicher Prozessführung und nachvollziehbarer Wirkung statt auf vermeintlicher Autonomie um jeden Preis.
02.09.2025
Über den Autor:
Daniel Leinfelder
CTO & Founder
Daniel ist seit über 10 Jahren im Bereich der Künstlichen Intelligenz und neuronalen Netze tätig.
Bei Sapericus leitet er die technische Innovation. Ein besonderes Augenmerk legt er dabei auf Datenschutz und Datenminimierung.
„Wir sind mit Sapericus angetreten um möglichst vielen Menschen zu helfen und nicht um den Datenhunger unserer Zeit zu stillen.“