KI-Agents bauen: Das Anthropic-Framework, übersetzt für den Großhandel

14 Min. Lesezeit
Handwerker bauen einen KI-Agent aus Modulen auf einer Werkbank

Warum gerade jetzt jeder über KI-Agents redet

2026 ist das Jahr, in dem aus dem Wort Agent in Pitchdecks endlich produktive Systeme werden. Aber zwischen LinkedIn-Demos und einem laufenden Agent in deinem ERP liegt ein Graben, der mit Hype-Sprache nicht überbrückbar ist. Die meisten Implementierungen scheitern nicht an der Technologie, sondern an einem grundlegenden Missverständnis, was ein Agent eigentlich ist und wann du gar keinen brauchst.

Genau da setzt das Framework von Anthropic an. Anthropic hat in seinem Engineering-Beitrag "Building Effective Agents" eine Sprache vorgeschlagen, die in der Industrie aktuell die einzige ist, die nicht beim ersten harten Praxiseinsatz auseinanderbricht. Sechs konkrete Patterns, eine harte Definition von Workflow vs. Agent, vier nicht verhandelbare Engineering-Regeln. Klingt trocken. Spart aber sechsstellige Beträge, wenn du es einmal verstanden hast.

Dieser Beitrag tut zwei Dinge. Erstens, er übersetzt das Anthropic-Framework ohne Buzzword-Filter ins Deutsche. Zweitens, er mappt jeden Pattern auf einen konkreten Großhandelsprozess, damit du nach dem Lesen sagen kannst, welche deiner heutigen Probleme ein Workflow lösen würde und welche tatsächlich einen Agent rechtfertigen. Wenn du danach noch der Meinung bist, dein Bestelleingang sei ein Agent-Problem, hast du wenigstens einen sauberen Bauplan.

Workflow vs. Agent: die harte Definition

Anthropic zieht den Strich an einer ungewöhnlichen Stelle, und genau dieser Strich ist der ganze Trick. Ein Workflow ist ein System, in dem LLM und Tools über vordefinierte Code-Pfade orchestriert werden. Du kennst die Schritte vorher. A geht nach B, B geht nach C. Das LLM ist eine Komponente in deiner Pipeline, kein Dirigent.

Ein Agent ist ein System, in dem das LLM seinen eigenen Prozess dynamisch in einer Schleife steuert. Es entscheidet selbst, welches Tool als nächstes drankommt, wann es aufhört und ob das Ergebnis gut genug ist. Du gibst ihm ein Ziel, nicht eine Schrittfolge.

Evolution vom Einzel-LLM über Workflow zum Agent bis zur offenen Zukunft

Warum diese Trennung wichtig ist

Vier Konsequenzen, die du sofort spürst, sobald du den Unterschied ignorierst:

  • Kosten: Ein Agent kann auf eine einzige Anfrage hin dreißig LLM-Calls aneinanderreihen. Ein Workflow weiß vorher, was kommt.
  • Debuggability: Bei einem Workflow weißt du, an welchem Schritt es geknallt hat. Bei einem Agent musst du den gesamten Reasoning-Trace lesen, manchmal auf gut Glück.
  • Vorhersagbarkeit: Workflows tun jedes Mal das Gleiche. Agents tun bei nominell identischem Input mal das eine, mal das andere.
  • Compliance: Auditoren wollen wissen, was passiert ist. "Das LLM hat sich entschieden" ist keine Antwort.

Die einzige Faustregel, die du brauchst

Wenn du den Ablauf auf einem Whiteboard skizzieren kannst, baue einen Workflow. Wenn der Ablauf vom Input abhängt und du keine sinnvolle Skizze hinbekommst, ohne in Wenn-Dann-Bäume zu verfallen, baue einen Agent.

Das klingt simpel und ist es auch. Der Grund, warum die meisten Teams trotzdem in die falsche Richtung laufen, ist FOMO. Agent klingt nach 2026, Workflow nach 2018. Das ist Buzzword-Trauma, kein Engineering-Argument.

Die fünf Workflow-Patterns von Anthropic

Anthropic argumentiert, dass fünf Patterns bereits 80 Prozent der realen Anwendungsfälle abdecken, bevor du überhaupt einen Agent brauchst. Diese Patterns sind keine theoretischen Konstrukte. Sie sind das, was sich bei Tausenden von Implementierungen als robust herausgestellt hat.

1. Prompt Chaining

Du zerlegst eine Aufgabe in eine Sequenz von LLM-Calls, bei der jeder Output zum Input des nächsten Calls wird. Klassisches Beispiel: ein Mail-Entwurf wird in einem ersten Call geschrieben, in einem zweiten gegen Stil und Compliance geprüft, in einem dritten in HTML gepackt. Drei Schritte, jeder mit einem klaren Auftrag.

Wann du das nimmst: wenn die Aufgabe sich sauber in unabhängige Subaufgaben zerlegen lässt und jede Stufe von der vorherigen profitiert. Wann nicht: wenn die Subaufgaben parallel laufen könnten, dann nimm Parallelization.

2. Routing

Ein Klassifizierer-LLM liest den Input und entscheidet, an welchen spezialisierten Downstream-Prompt es weitergeht. Eine Mail mit "Rechnung falsch" landet beim Billing-Prompt, eine mit "Bug" beim Tech-Support-Prompt, eine mit "Kündigung" bei der Retention-Pipeline.

Wann du das nimmst: wenn du sehr unterschiedliche Eingaben hast, die je eigene Spezialprompts brauchen, und ein einziger generischer Prompt schlechter wäre als spezialisierte. Bonus: du kannst pro Klasse Modelle unterschiedlicher Größe einsetzen.

3. Parallelization

Anthropic unterscheidet zwei Varianten. Sectioning zerlegt eine große Aufgabe in unabhängige Sub-Tasks, die parallel laufen. Beispiel: fünf Kapitel eines Berichts gleichzeitig schreiben statt nacheinander. Schneller und oft besser, weil jeder Call nur auf seinen Teil fokussiert ist.

Voting lässt denselben Prompt drei oder fünf Mal laufen und nutzt einen Judge-LLM, der die beste Antwort wählt. Klingt verschwenderisch, ist aber bei kritischen Entscheidungen die Differenz zwischen 80 und 98 Prozent Trefferquote. Klassiker bei OCR und Zahlenextraktion.

4. Orchestrator-Workers

Ein Lead-Agent zerlegt eine komplexe Aufgabe, delegiert die Teile an Worker-LLMs und synthetisiert deren Ergebnisse zu einer Antwort. Das klingt nach Agent-Pattern und ist es im Lead auch, aber die Worker selbst sind oft simple, spezialisierte Prompts mit klaren Aufträgen.

Wann du das nimmst: wenn du nicht vorher weißt, wie viele Sub-Tasks anfallen werden. Beispiel: eine eingehende Reklamation kann zwei oder zwölf Lieferpositionen betreffen, du weißt es erst nach dem Parsen.

5. Evaluator-Optimizer

Ein LLM generiert eine Antwort. Ein zweites bewertet sie. Beim Nicht-Bestanden geht es in die Schleife: der Generator bekommt das Feedback und schreibt neu. Bis bestanden oder Reißleine.

Wann du das nimmst: wenn es einen objektivierbaren Quality-Check gibt. Brand-Voice-Compliance, gesetzliche Pflichtangaben, Übersetzungsqualität. Wann nicht: wenn der Critic genauso unsicher ist wie der Generator. Dann kreisen beide ratlos.

Faustregel über alle fünf: Starte mit dem einfachsten Pattern, das deinen Anwendungsfall abdeckt. Wenn ein Prompt reicht, nimm ein Prompt. Wenn eine Sequenz reicht, nimm Chaining. Wenn du erst bei den späteren Patterns landen müsstest, frage dich noch einmal, ob du es wirklich brauchst.

Der autonome Agent-Loop

Wenn du nach den fünf Workflow-Patterns immer noch keinen sauberen Bauplan hast, bist du im Agent-Territorium gelandet. Der autonome Loop ist der Ort, an dem ein System komplexe Aufgaben übernimmt, deren Schrittfolge sich erst zur Laufzeit entscheidet.

Loop-Diagramm Mensch zu LLM-Aufruf zu Umwelt mit Aktion und Feedback

Die Schleife in vier Schritten

Anthropic beschreibt den Loop als ein simples, fast banales Konstrukt:

  1. Plan: Das LLM überlegt, was als Nächstes zu tun ist.
  2. Tool nutzen: Es ruft ein konkretes Werkzeug auf, das mit der Außenwelt spricht (ERP-Lesezugriff, Web-Suche, Datei-Lesen).
  3. Ergebnis beobachten: Das Ergebnis kommt zurück, idealerweise inklusive eindeutiger Erfolgs- oder Fehlersignale.
  4. Neu planen: Auf Basis des Beobachteten entscheidet das LLM, ob das Ziel erreicht ist oder ein weiterer Tool-Aufruf nötig wird.

Repeat bis Stopp-Bedingung. Mehr ist da formal nicht.

Isometrischer Agent-Loop mit Brain Tool Beobachten Re-Plan

Ground Truth ist die Lebensader

Der Punkt, an dem 90 Prozent der Agent-Implementierungen scheitern, ist nicht die Loop-Mechanik, sondern die Frage: woher weiß der Agent, ob seine letzte Aktion funktioniert hat?

Anthropic nennt das Ground Truth. Ein echter Code-Compiler, der Fehler in Zeile 23 zurückgibt. Ein Datenbank-Query, der wirklich zwölf Zeilen liefert oder eine echte Constraint-Exception wirft. Ein Lieferanten-API, das mit 404 antwortet, wenn die Artikelnummer ungültig ist.

Was passiert, wenn Ground Truth fehlt: der Agent halluziniert sich selbst in eine plausibel klingende, aber falsche Lösung. Er bestätigt seine eigene Annahme, weil ihn niemand widerlegt. Anthropic hat dafür ein hartes Bild: ein Agent ohne Ground Truth ist eine sehr eloquente Endlosschleife.

Wann der Loop wirklich sinnvoll ist

Drei Voraussetzungen müssen zusammenkommen, sonst ist der Agent-Loop die falsche Wahl:

  • Hohe Variabilität des Pfads: Du kannst die Schrittfolge nicht vorher festschreiben, weil sie vom Zwischenergebnis abhängt.
  • Klare Stopp-Bedingung: Es gibt ein erkennbares Fertig (Tests grün, Produkt gefunden, Reklamation gelöst).
  • Verfügbare Ground Truth: Die Umgebung kann ehrliches Feedback geben, nicht nur Alles okay als Default.

Fehlt eine dieser drei, baust du einen Workflow. Mit Patterns aus dem vorherigen Kapitel. Ohne Agent. Ohne Loop.

Vier Engineering-Regeln, die nicht verhandelbar sind

Anthropic schließt sein Framework mit vier Punkten ab, die wie Plattitüden klingen, aber in der Praxis den Unterschied zwischen einem stabilen System und einer Demo-Ruine ausmachen. Wer sie ignoriert, baut entweder zu kompliziert oder zu fragil.

Drei Kernprinzipien: Restriktion Einfachheit Empathie

1. Halte es einfach

Starte mit einem einzigen Prompt. Einem. Erst wenn du einen konkreten Schmerzpunkt benennen kannst, das Modell verliert die Reihenfolge, die Klassifizierung ist falsch wenn beides drinsteht, die Bewertung schwankt zu stark, baust du ein Pattern dazu.

Die Versuchung, gleich mit einem Orchestrator-Worker-Setup zu starten, weil es nach echtem Engineering aussieht, ist groß. Sie ist trotzdem fast immer falsch. Jeder zusätzliche Pattern bringt eigene Fehlerquellen, Latenz und Debugging-Aufwand. Wenn ein Prompt ausreicht, nimm einen Prompt.

2. Poka-Yoke deine Tools

Poka-Yoke ist ein Begriff aus dem Toyota-Produktionssystem. Er bedeutet Mistake-Proofing: gestalte ein Werkzeug so, dass es schwer ist, es falsch zu benutzen. USB-C statt USB-A. Ein Stecker, der nur in eine Richtung passt.

Für LLM-Tools heißt das: klare Funktionsnamen ohne Doppeldeutigkeit, streng typisierte Schemas, sinnvolle Default-Werte und vor allem Fehler, die erklären, was schiefgegangen ist. Wenn dein bestellung_anlegen-Tool bei fehlender Kundennummer einfach null zurückgibt, hast du verloren. Wenn es einen MissingField-Fehler wirft, hat das Modell eine Chance, sich zu korrigieren.

Checkliste Workflow oder Agent mit vier Filterfragen

3. Transparenz statt Black Box

Verstecke nie die Gedanken des Agents. Jeder Reasoning-Schritt, jeder Tool-Call mit seinen Parametern, jedes Ergebnis muss geloggt sein, durchsuchbar und nachvollziehbar. Sonst kannst du nicht debuggen, warum der Agent gestern eine andere Entscheidung getroffen hat als heute.

Praktisch heißt das, du brauchst von Tag eins ein Observability-Setup: Traces pro Anfrage, strukturierte Logs der Tool-Aufrufe, Versionierung der Prompts. Ohne diese Basis ist jeder Agent in Produktion ein Lotteriespiel.

4. Human-in-the-Loop bei riskanten Aktionen

Lass den Agent nicht alleine eine Mail an einen Kunden rausschicken. Lass ihn nicht alleine eine Datenbank-Zeile löschen. Lass ihn nicht alleine eine Bestellung ans ERP übergeben.

Bei jeder Aktion, deren Reversibilität fragwürdig ist oder deren Wirkung außerhalb deines Sandkastens liegt, muss der Agent stoppen und freigeben lassen. Das ist keine Schwäche, das ist Produkt-Engineering. Anthropic formuliert es so: Reversibel oder Mensch.

Coding ist die Killer-App. Warum?

Es gibt einen guten Grund, warum die meisten erfolgreichen Agent-Implementierungen 2026 im Coding-Umfeld zu finden sind, nicht im Marketing oder im Vertrieb. Coding ist die Domäne, in der die drei Bedingungen für einen funktionierenden Agent perfekt zusammenkommen.

Drei Agent-Domänen: Coding Computer Suche im Vergleich

Drei Eigenschaften, die Coding besonders machen

  • Die Umgebung liefert eindeutige Signale. Ein Compiler sagt "Syntaxfehler in Zeile 17" oder "Build erfolgreich". Eine Testsuite sagt "12 Tests grün, 1 rot". Das ist Ground Truth in Reinkultur.
  • Der State ist in Text serialisierbar. Code ist Text. Logs sind Text. Diffs sind Text. Ein LLM kann den kompletten Zustand seines Projekts lesen, ohne dass etwas in Bilder, Video oder analoge Welt übersetzt werden müsste.
  • Iteration bis Grün ist nativ. Der Agent kann hundert Mal versuchen, einen Bug zu fixen. Solange am Ende die Tests grün sind, ist die Aufgabe erledigt. Niemand muss bewerten, ob es schön genug gemacht wurde.

Anthropic nennt das den Tests-grün-Effekt. Coding hat ein eingebautes Pass/Fail-Signal, das in den meisten anderen Domänen erst aufwendig konstruiert werden müsste.

Was das für andere Domänen heißt

Die spannende Frage ist nicht warum funktioniert Coding so gut, sondern wie reproduziere ich diese drei Eigenschaften in meiner Domäne. Wenn du es schaffst, in deinem Prozess ein klares Pass/Fail-Signal zu definieren, einen serialisierbaren Zustand zu finden und Iterationen ohne menschliches Eingreifen zu erlauben, hast du dort dieselben Bedingungen wie beim Coding.

Genau das ist die Brücke ins nächste Kapitel: was ist im Großhandel das Äquivalent zur grünen Testsuite? Welche Prozesse haben dieses Pass/Fail-Signal eingebaut, welche nicht? Wo musst du die Ground Truth selbst bauen, bevor ein Agent überhaupt eine Chance hat?

Agents im Großhandel: die Use-Case-Matrix

Jetzt der eigentliche Praxisteil. Die sechs Patterns von Anthropic, jeweils auf einen typischen Großhandelsprozess gemappt, mit klarer Aussage darüber, welche Ground Truth den Agent erst überhaupt arbeitsfähig macht.

PatternGroßhandels-Use-CaseKonkretes BeispielGround Truth
Prompt ChainingAngebot aus Anfrage erzeugenMail-Klassifizierung → Preis-Lookup im ERP → Angebotstext → PDF-RenderAngebot trifft Marge und Lieferzeit
RoutingMail-Triage im VertriebspostfachBestellung vs. Reklamation vs. Lieferanfrage → spezialisiertes Folge-PromptVorgang landet beim richtigen Sachbearbeiter
Parallelization (Sectioning)Lieferanten-Stammdaten anreichernUSt-ID, Adresse, Branche, Bonität parallel ziehenFelder gegen externe Quellen validieren
Parallelization (Voting)OCR auf EingangsrechnungenDrei OCR-Passes, Judge entscheidet bei KonfliktRechnungssumme passt zur Bestellung
Orchestrator-WorkersMulti-Channel-BestelleingangLead verteilt ERP-Check, Verfügbarkeit, Bonität, Versandweg auf WorkerAuftrag steht buchungsbereit im ERP
Evaluator-OptimizerPIM-ProduktbeschreibungenGenerator schreibt, Critic prüft Brand-Voice und Pflichtangaben, Loop bis PassText besteht Compliance-Checkliste
Autonomer Agent-LoopSonderteil-Recherche, ReklamationAgent iteriert über PIM, ERP, Lieferanten-Portale bis TrefferTrefferquote im Retrospektiv-Audit

Drei Use-Cases zum Mitdenken

Angebotserstellung als Prompt Chaining

Eine Kundenanfrage kommt per Mail rein. Schritt eins klassifiziert, ob es eine Angebotsanfrage ist und welche Artikelnummern erwähnt sind. Schritt zwei holt die aktuellen Preise und Lieferzeiten aus dem ERP. Schritt drei formuliert den Angebotstext im euren Stil. Schritt vier rendert das PDF und legt es im DMS ab. Vier saubere LLM-Calls in Reihe, kein Loop nötig. Ground Truth: das System validiert am Ende, dass Marge und Lieferzeit innerhalb der freigegebenen Range liegen, sonst geht es in die Freigabe-Schleife. Mehr dazu in unserem Artikel zur automatischen Angebotserstellung im Großhandel.

OCR-Belegerkennung als Voting

Eingangsrechnungen kommen als PDFs rein, oft schlecht gescannt. Ein einziger OCR-Pass liegt bei 80 bis 85 Prozent Trefferquote auf den kritischen Feldern (Betrag, USt-ID, Lieferantennummer). Drei parallele Passes mit unterschiedlichen Modellen plus ein Judge-LLM, der bei Konflikten die plausibelste Variante wählt, schiebt die Genauigkeit über 97 Prozent. Ground Truth: am Ende muss die Rechnungssumme exakt zur dazugehörigen Bestellung passen, sonst wird geflaggt.

Bestelleingang als Orchestrator-Workers

Eine Bestellung kommt per EDI, Mail oder Telefonnotiz rein. Ein Lead-Prompt parst sie und entscheidet, was alles geprüft werden muss: Artikelverfügbarkeit, Kundenbonität, passender Versandweg, Sonderkonditionen. Diese Checks laufen parallel als Worker-Prompts. Der Lead synthetisiert die Ergebnisse zu einer Buchungs-Empfehlung. Wenn alle vier Worker grün geben, wandert die Bestellung automatisch ins ERP. Wenn einer rot meldet, kommt sie in die Inbox der Sachbearbeitung mit klarer Begründung. Vertieft in unserem Beitrag Bestellungen erfassen automatisieren.

Das Anti-Pattern, vor dem du dich hüten musst

Der häufigste Fehler in Großhandelsprojekten: Wir bauen einen Universal-Agent, der alles im Bestelleingang macht. Das klingt elegant, ist aber fast immer der falsche Bauplan. Du verlierst die Debuggability, weil jeder Fehler in einem dreißig-Schritte-Loop versickert. Du verlierst die Kosten-Kontrolle, weil ein Agent gerne zehn Mal nachfragt, wo ein Workflow zwei Calls braucht. Und du verlierst die Compliance, weil deine Auditoren keine Antwort auf warum wurde diese Bestellung gebucht bekommen.

Die richtige Antwort ist fast immer eine Komposition: für die meisten Schritte ein Workflow-Pattern, an einer oder zwei klar abgegrenzten Stellen ein kleiner Agent-Loop. Nicht ein großer Agent für alles.

Fazit und drei Fragen, die du vor dem Bauen beantworten musst

Wer das Anthropic-Framework einmal verinnerlicht hat, baut anders. Statt wir machen einen Agent steht am Anfang die Frage, ob die Aufgabe überhaupt einen Agent rechtfertigt oder ob ein simples Pattern reicht. Statt schau wie smart das System ist steht am Ende die Frage, ob es nachvollziehbar, debugbar und stoppbar ist.

Drei offene Fragen Budget Self-Evolving Tools Multi-Agent

Drei Take-aways auf einen Bierdeckel

  • Workflow zuerst. Bevor du einen Agent baust, hast du fünf einfachere Patterns. Greife sie der Reihe nach durch.
  • Pattern statt Magic. Jeder funktionierende Agent lässt sich auf ein bekanntes Muster zurückführen. Wer den Pattern-Namen nicht nennen kann, hat den Bauplan nicht verstanden.
  • Ground Truth ist Pflicht. Ohne ehrliches Feedback aus der Umgebung halluziniert sich jeder Agent in eine plausible, aber falsche Lösung.

Selbst-Test vor dem ersten Sprint

Drei Fragen, die du vor dem ersten Code-Commit beantworten können musst. Wenn eine davon nein oder unklar ist, gehe zurück ans Whiteboard.

  1. Kannst du den gewünschten Ablauf auf einem A4-Blatt skizzieren? Wenn ja, baue einen Workflow.
  2. Hast du eine eindeutige Stopp-Bedingung, die nicht der Mensch sagt fertig lautet?
  3. Liefert die Umgebung ein Pass/Fail-Signal, das nicht das Modell selbst erzeugt?

Wer alle drei mit ja beantwortet, hat einen Agent-Bauplan. Wer nicht, hat einen Workflow-Bauplan. Beides ist okay. Nur das Vermischen ist teuer.

Wir helfen beim Mappen

Du hast einen konkreten Prozess im Großhandel, bei dem du nicht sicher bist, ob er ein Workflow oder ein Agent werden soll? 30 Minuten Erstgespräch, wir nehmen das Pattern auseinander, du nimmst eine begründete Empfehlung mit, ohne Verkaufsdruck. Einfach Termin buchen oder weiter lesen in unserem Beitrag zu Agentic AI im Großhandel.