Ein KI-Agent in n8n ist kein Chatbot im klassischen Sinn. Er ist ein Sprachmodell mit Werkzeugkasten. Der Unterschied zu einem normalen LLM-Node: Der Agent entscheidet selbst, welches Werkzeug er in welcher Reihenfolge benutzt, um eine Aufgabe zu lösen. Er kann eine Datenbank abfragen, eine Rechnung prüfen, eine API aufrufen oder eine Berechnung anstoßen, ohne dass jemand den genauen Ablauf vorgibt.
Technisch basiert das auf dem AI-Agent-Node, den n8n seit der LangChain-Integration mitbringt. Der Node bündelt drei Bausteine: ein Sprachmodell (Chat Model), eine Liste von Tools und optional einen Memory-Speicher. Die eigentliche Entscheidungslogik übernimmt das LLM, n8n liefert die Infrastruktur drumherum. Wer die Grundlagen von n8n noch nicht kennt, findet in unserem Einsteigerartikel zu n8n den passenden Kontext.
Warum das Ganze in n8n und nicht im Python-Notebook? Weil n8n-Agenten in bestehende Workflows eingebettet werden. Ein Trigger startet den Workflow, der Agent arbeitet die Aufgabe ab, ein nachgelagerter Node schreibt die Entscheidung zurück ins ERP. Die Plattform kümmert sich um Credentials, Logging, Fehlerbehandlung und Retry-Logik. Alles, was in einem Python-Skript mühselig zusammengebaut werden müsste, ist hier Standard.
Bevor der erste Agent läuft, brauchen drei Dinge ihren Platz: eine n8n-Instanz mit Zugriff auf den AI-Agent-Node, ein Sprachmodell mit API-Key und eine saubere Trennung von produktiven Credentials und Test-Setups.
In der Praxis haben sich drei Modell-Familien durchgesetzt: OpenAI (GPT-4, GPT-4o), Anthropic (Claude Sonnet, Claude Opus) und Open-Source-Modelle via Ollama oder einem eigenen vLLM-Setup. Für die meisten Use Cases im Mittelstand ist Claude Sonnet oder GPT-4o die richtige Wahl: gutes Preis-Leistungs-Verhältnis, sehr ordentliche Tool-Nutzung und stabile JSON-Ausgaben. Open Source lohnt sich dann, wenn Daten die eigene Infrastruktur nicht verlassen dürfen.
API-Keys gehören nicht in die Workflow-Definition, sondern in den Credential-Store von n8n. Für jede Umgebung (Entwicklung, Staging, Produktion) ein eigener Credential. Wer die Trennung ernst nimmt, richtet sich für produktive Agenten eine eigene n8n-Instanz ein, sodass Experimente nicht versehentlich Produktivdaten anfassen. Hinweise zum Aufbau einer stabilen Instanz finden sich in der Anleitung zum Self-Hosting von n8n.
Der AI-Agent-Node steht ab n8n 1.19 zur Verfügung und wird seit dem seit fast jeder Minor-Version erweitert. Wer auf einer alten Version sitzt, sollte vor dem Agent-Projekt das Update einplanen. Besonders wichtig: Die Tool-Integration wurde in den letzten Versionen mehrfach umgebaut, und ältere Tutorials zeigen teils veraltete Node-Strukturen. Teams, die ihre n8n-Kompetenz formalisieren wollen, finden im n8n Zertifizierungs-Guide den passenden Lernpfad.
Ein KI-Agent-Workflow in n8n folgt fast immer demselben Muster. Sobald dieses Muster sitzt, lassen sich neue Agenten in wenigen Stunden aufbauen.

Dieses Schichtmodell hat einen Vorteil: Die eigentliche KI-Logik bleibt austauschbar. Wer morgen von GPT-4o auf Claude Sonnet wechselt, tauscht nur den Chat-Model-Node aus. Die restlichen Nodes laufen unverändert weiter. Die theoretischen Grundlagen hinter diesem Schichtmodell beschreibt unser Artikel KI-Agents bauen: Das Anthropic-Framework.
Der Klassiker zum Einstieg: Ein Agent, der Fragen zu Unternehmensdaten beantwortet und dafür Zugriff auf eine oder zwei Datenquellen bekommt. Zum Beispiel: Ein Vertriebsmitarbeiter fragt per Slack, wie hoch der Jahresumsatz eines bestimmten Kunden ist. Der Agent darf die ERP-Datenbank lesen und formuliert die Antwort.
Das Setup dauert, sauber getestet, etwa einen halben Tag. Die eigentliche Arbeit steckt danach im Feintuning des Prompts: Wie detailliert soll der Agent antworten, wie geht er mit Mehrdeutigkeiten um, wann schlägt er eine Rückfrage vor statt einer Antwort.
Der erste Agent war stateless. Der zweite Agent soll sich merken, was er schon entschieden hat. Ein typisches Beispiel: Eingehende Bestellungen werden vom Agent bewertet (Standard, Prüffall, Eskalation). Der Agent nutzt die Historie früherer Entscheidungen als Referenz.

Für Memory bietet n8n mehrere Optionen: Buffer Memory (nur der aktuelle Dialog), Postgres-Memory (persistente Chat-Historie) und Vector-Memory (semantische Suche über frühere Entscheidungen). Für eine Triage mit Lerneffekt ist Vector-Memory der richtige Ansatz: Der Agent bekommt zu jeder neuen Bestellung die drei ähnlichsten Fälle aus der Vergangenheit als Kontext.
Wichtig: Vector-Memory braucht eine Datenbank mit Vektorunterstützung. pgvector auf Postgres ist der unkomplizierteste Weg, Qdrant oder Pinecone eignen sich für größere Setups. Was konkret an Bestellungen automatisch erfassbar ist, zeigt unser Artikel zu ERP-Workflows.
Drei Dinge entscheiden darüber, ob ein n8n-Agent zuverlässig arbeitet: die Auswahl der Tools, die Qualität des Prompts und die Schranken, innerhalb derer der Agent entscheidet.

Weniger ist mehr. Ein Agent mit drei klar benannten Tools trifft bessere Entscheidungen als einer mit fünfzehn. Jedes Tool bekommt einen präzisen Namen (kein "fetch_data", sondern "get_customer_revenue") und eine klare Beschreibung, wann es eingesetzt werden soll. Die Beschreibung ist das, was das LLM sieht, nicht der Code. Kleine Unterschiede im Wording führen zu großen Unterschieden in der Trefferquote.
Ein guter Agent-Prompt hat drei Abschnitte: Rolle, Vorgehensweise, Grenzen. Die Rolle beschreibt, wer der Agent ist ("Du bist ein Buchhaltungsassistent"). Die Vorgehensweise erklärt, in welchen Schritten er arbeiten soll ("Zuerst prüfe die Rechnung auf formale Fehler, dann vergleiche mit dem Auftrag"). Die Grenzen definieren, was nicht passieren darf ("Keine Rechnungen über 10.000 Euro ohne menschliche Freigabe").
Harte Grenzen gehören nicht nur in den Prompt, sondern in den Workflow selbst. Ein IF-Node, der nach dem Agent prüft, ob die vorgeschlagene Aktion unter dem Schwellwert liegt. Ein Approval- Schritt, der bei Grenzfällen auf ein menschliches OK wartet. Ein Rate-Limit-Node, der verhindert, dass ein fehlgeleiteter Agent tausende Aktionen in Minuten ausführt. Prompts sind weich, Workflow-Logik ist hart. Beide zusammen machen einen produktionsreifen Agenten.
Wer die ersten eigenen Agenten baut, läuft in dieselben Stolpersteine wie alle davor. Eine kurze Liste der teuersten Fehler.
Wer den strategischen Blick auf das Gesamtthema sucht, findet im Beitrag zu Agentic AI im Großhandel den größeren Kontext, warum sich der Aufbau von Agenten überhaupt lohnt.
Ein erster KI-Agent in n8n entsteht in einem halben Tag. Ein produktiver Agent, dem man wirklich Entscheidungen überlässt, braucht zwei bis vier Wochen: Prompt-Tuning, Guardrails, Monitoring, Schulung der Kollegen, die mit ihm arbeiten.
Wer heute anfängt, hat einen klaren Vorteil gegenüber allen, die noch warten. Nicht, weil die Technologie irgendwann verschwindet, sondern weil die Datengrundlage, auf der ein guter Agent läuft, Zeit zum Wachsen braucht. Jede Entscheidung, die der Agent heute trifft und die geloggt wird, ist morgen Trainingsmaterial für den nächsten, besseren Agent.
Ihr wollt einen eigenen KI-Agenten auf eurer n8n-Instanz bauen und sucht einen Partner, der den Weg von der ersten Idee bis zum produktiven Setup kennt? Sprecht uns an, und wir skizzieren gemeinsam den passenden Einstieg.