n8n KI-Agenten erstellen: Praxisanleitung mit AI-Agent-Node und Tools

Was ist ein KI-Agent in n8n?

Ein KI-Agent in n8n ist kein Chatbot im klassischen Sinn. Er ist ein Sprachmodell mit Werkzeugkasten. Der Unterschied zu einem normalen LLM-Node: Der Agent entscheidet selbst, welches Werkzeug er in welcher Reihenfolge benutzt, um eine Aufgabe zu lösen. Er kann eine Datenbank abfragen, eine Rechnung prüfen, eine API aufrufen oder eine Berechnung anstoßen, ohne dass jemand den genauen Ablauf vorgibt. Wie KI-Agenten grundsätzlich aufgebaut sind und welche Bauwege es jenseits von n8n gibt, zeigt unser tool-agnostischer Leitfaden zum KI-Agenten erstellen.

Technisch basiert das auf dem AI-Agent-Node, den n8n seit der LangChain-Integration mitbringt. Der Node bündelt drei Bausteine: ein Sprachmodell (Chat Model), eine Liste von Tools und optional einen Memory-Speicher. Die eigentliche Entscheidungslogik übernimmt das LLM, n8n liefert die Infrastruktur drumherum. Wer die Grundlagen von n8n noch nicht kennt, findet in unserem Einsteigerartikel zu n8n den passenden Kontext.

Warum das Ganze in n8n und nicht im Python-Notebook? Weil n8n-Agenten in bestehende Workflows eingebettet werden. Ein Trigger startet den Workflow, der Agent arbeitet die Aufgabe ab, ein nachgelagerter Node schreibt die Entscheidung zurück ins ERP. Die Plattform kümmert sich um Credentials, Logging, Fehlerbehandlung und Retry-Logik. Alles, was in einem Python-Skript mühselig zusammengebaut werden müsste, ist hier Standard. Wer dagegen tief im Microsoft-365-Stack sitzt, baut Agenten oft lieber direkt in der gewohnten Umgebung und kann mit Copilot Studio einen Copilot-Agenten erstellen.

Voraussetzungen: LLM, Credentials und eine n8n-Instanz

Bevor der erste Agent läuft, brauchen drei Dinge ihren Platz: eine n8n-Instanz mit Zugriff auf den AI-Agent-Node, ein Sprachmodell mit API-Key und eine saubere Trennung von produktiven Credentials und Test-Setups.

LLM-Auswahl

In der Praxis haben sich drei Modell-Familien durchgesetzt: OpenAI (GPT-4, GPT-4o), Anthropic (Claude Sonnet, Claude Opus) und Open-Source-Modelle via Ollama oder einem eigenen vLLM-Setup. Für die meisten Use Cases im Mittelstand ist Claude Sonnet oder GPT-4o die richtige Wahl: gutes Preis-Leistungs-Verhältnis, sehr ordentliche Tool-Nutzung und stabile JSON-Ausgaben. Open Source lohnt sich dann, wenn Daten die eigene Infrastruktur nicht verlassen dürfen.

Credentials und Umgebung

API-Keys gehören nicht in die Workflow-Definition, sondern in den Credential-Store von n8n. Für jede Umgebung (Entwicklung, Staging, Produktion) ein eigener Credential. Wer die Trennung ernst nimmt, richtet sich für produktive Agenten eine eigene n8n-Instanz ein, sodass Experimente nicht versehentlich Produktivdaten anfassen. Hinweise zum Aufbau einer stabilen Instanz finden sich in der Anleitung zum Self-Hosting von n8n.

Version und Nodes

Der AI-Agent-Node steht ab n8n 1.19 zur Verfügung und wird seit dem seit fast jeder Minor-Version erweitert. Wer auf einer alten Version sitzt, sollte vor dem Agent-Projekt das Update einplanen. Besonders wichtig: Die Tool-Integration wurde in den letzten Versionen mehrfach umgebaut, und ältere Tutorials zeigen teils veraltete Node-Strukturen. Teams, die ihre n8n-Kompetenz formalisieren wollen, finden im n8n Zertifizierungs-Guide den passenden Lernpfad.

Architektur eines n8n-Agent-Workflows

Ein KI-Agent-Workflow in n8n folgt fast immer demselben Muster. Sobald dieses Muster sitzt, lassen sich neue Agenten in wenigen Stunden aufbauen.

Architektur eines n8n KI-Agent-Workflows

Trigger: Webhook, Cron, Queue-Event oder ein eingehender Datensatz aus ERP oder CRM.
Kontext-Loader: Daten, die der Agent zur Entscheidung braucht, werden vorher eingesammelt, damit das LLM nicht in jedem Schritt nachfragen muss.
AI-Agent-Node: Das Herz des Workflows. Verbindet Chat Model, Tools und Memory und führt die Agent-Loop aus.
Output-Parser: Verwandelt die Agent-Antwort in ein strukturiertes JSON, das nachgelagerte Nodes sauber verarbeiten können.
Aktions-Nodes: ERP-Write, E-Mail, Ticket-Update oder was auch immer das Ergebnis in der realen Welt sichtbar macht.
Audit-Log: Jede Agent-Entscheidung wird mit Input, genutzten Tools und Output in einer Datenbank oder einem Log-Service dokumentiert.

Dieses Schichtmodell hat einen Vorteil: Die eigentliche KI-Logik bleibt austauschbar. Wer morgen von GPT-4o auf Claude Sonnet wechselt, tauscht nur den Chat-Model-Node aus. Die restlichen Nodes laufen unverändert weiter. Die theoretischen Grundlagen hinter diesem Schichtmodell beschreibt unser Artikel KI-Agents bauen: Das Anthropic-Framework.

Erster Agent: Frage-Antwort-Bot mit Tool-Zugriff

Der Klassiker zum Einstieg: Ein Agent, der Fragen zu Unternehmensdaten beantwortet und dafür Zugriff auf eine oder zwei Datenquellen bekommt. Zum Beispiel: Ein Vertriebsmitarbeiter fragt per Slack, wie hoch der Jahresumsatz eines bestimmten Kunden ist. Der Agent darf die ERP-Datenbank lesen und formuliert die Antwort.

Setup in sechs Schritten

Webhook-Trigger anlegen, der Slack-Events empfängt.
AI-Agent-Node platzieren und ein Chat Model verbinden. Für den Start: GPT-4o mini oder Claude Haiku, weil die Latenz wichtig ist.
Ein Tool vom Typ "HTTP Request Tool" oder "Postgres Tool" anhängen, das eine read-only-Abfrage auf die Umsatzdaten erlaubt.
System-Prompt schreiben: "Du bist ein Vertriebsassistent. Nutze das Umsatz-Tool, um Fragen zu Kundenumsätzen zu beantworten. Wenn die Frage nichts mit Umsatz zu tun hat, sage es klar."
Die Agent-Antwort zurück an Slack senden.
Ein Audit-Log-Node schreibt Input, genutzte Tools und Output in eine Logging-Tabelle.

Das Setup dauert, sauber getestet, etwa einen halben Tag. Die eigentliche Arbeit steckt danach im Feintuning des Prompts: Wie detailliert soll der Agent antworten, wie geht er mit Mehrdeutigkeiten um, wann schlägt er eine Rückfrage vor statt einer Antwort.

Zweiter Agent: Daten-Triage mit Memory

Der erste Agent war stateless. Der zweite Agent soll sich merken, was er schon entschieden hat. Ein typisches Beispiel: Eingehende Bestellungen werden vom Agent bewertet (Standard, Prüffall, Eskalation). Der Agent nutzt die Historie früherer Entscheidungen als Referenz.

Für Memory bietet n8n mehrere Optionen: Buffer Memory (nur der aktuelle Dialog), Postgres-Memory (persistente Chat-Historie) und Vector-Memory (semantische Suche über frühere Entscheidungen). Für eine Triage mit Lerneffekt ist Vector-Memory der richtige Ansatz: Der Agent bekommt zu jeder neuen Bestellung die drei ähnlichsten Fälle aus der Vergangenheit als Kontext.

Struktur des Triage-Workflows

Eingehende Bestellung trifft als Webhook ein.
Ein Embedding-Node wandelt Kunde, Artikel und Menge in einen Vektor.
Ein Vector-Store-Node holt die drei ähnlichsten Fälle aus dem Memory.
Der AI-Agent-Node bekommt die aktuelle Bestellung plus die Referenzfälle und trifft eine Entscheidung.
Der neue Fall inklusive Entscheidung wird ins Vector-Memory geschrieben, damit der Agent bei der nächsten Bestellung daraus lernt.

Wichtig: Vector-Memory braucht eine Datenbank mit Vektorunterstützung. pgvector auf Postgres ist der unkomplizierteste Weg, Qdrant oder Pinecone eignen sich für größere Setups. Was konkret an Bestellungen automatisch erfassbar ist, zeigt unser Artikel zu ERP-Workflows.

Tools, Prompts und Guardrails

Drei Dinge entscheiden darüber, ob ein n8n-Agent zuverlässig arbeitet: die Auswahl der Tools, die Qualität des Prompts und die Schranken, innerhalb derer der Agent entscheidet.

Tool-Auswahl

Weniger ist mehr. Ein Agent mit drei klar benannten Tools trifft bessere Entscheidungen als einer mit fünfzehn. Jedes Tool bekommt einen präzisen Namen (kein "fetch_data", sondern "get_customer_revenue") und eine klare Beschreibung, wann es eingesetzt werden soll. Die Beschreibung ist das, was das LLM sieht, nicht der Code. Kleine Unterschiede im Wording führen zu großen Unterschieden in der Trefferquote.

Prompt-Struktur

Ein guter Agent-Prompt hat drei Abschnitte: Rolle, Vorgehensweise, Grenzen. Die Rolle beschreibt, wer der Agent ist ("Du bist ein Buchhaltungsassistent"). Die Vorgehensweise erklärt, in welchen Schritten er arbeiten soll ("Zuerst prüfe die Rechnung auf formale Fehler, dann vergleiche mit dem Auftrag"). Die Grenzen definieren, was nicht passieren darf ("Keine Rechnungen über 10.000 Euro ohne menschliche Freigabe").

Guardrails

Harte Grenzen gehören nicht nur in den Prompt, sondern in den Workflow selbst. Ein IF-Node, der nach dem Agent prüft, ob die vorgeschlagene Aktion unter dem Schwellwert liegt. Ein Approval- Schritt, der bei Grenzfällen auf ein menschliches OK wartet. Ein Rate-Limit-Node, der verhindert, dass ein fehlgeleiteter Agent tausende Aktionen in Minuten ausführt. Prompts sind weich, Workflow-Logik ist hart. Beide zusammen machen einen produktionsreifen Agenten.

Häufige Fehler beim Agent-Bau

Wer die ersten eigenen Agenten baut, läuft in dieselben Stolpersteine wie alle davor. Eine kurze Liste der teuersten Fehler.

Zu vage Tool-Beschreibungen: Wenn das LLM nicht weiß, wofür ein Tool da ist, ruft es das falsche auf oder keins. Immer mit einem Satz beschreiben, welche Frage das Tool beantwortet.
Kein Audit-Log: Wenn eine Agent-Entscheidung später erklärt werden muss (Kundenreklamation, interne Audit), steht man ohne Log blank da. Jeder Agent braucht ein Entscheidungslog mit Input, Tool-Calls und Output.
Kein Limit für Tool-Calls: Ein Agent kann in einer Schleife hängen bleiben und dasselbe Tool hundertmal aufrufen. Der AI-Agent-Node erlaubt ein Limit für Iterationen. Ohne Limit wird ein Bug schnell teuer.
Schreibender Zugriff zu früh: Ein Agent, der direkt in produktive Systeme schreibt, ist ein Risiko. Die ersten Wochen sollte der Agent nur Vorschläge machen, die ein Mensch freigibt. Erst wenn das Verhalten stabil ist, gehen die Schreibzugriffe direkt durch.
Zu großes Modell: Viele greifen reflexhaft zum teuersten Modell. Oft reicht ein kleineres (GPT-4o mini, Claude Haiku) vollkommen aus. Erst messen, dann skalieren.

Wer den strategischen Blick auf das Gesamtthema sucht, findet im Beitrag zu Agentic AI im Großhandel den größeren Kontext, warum sich der Aufbau von Agenten überhaupt lohnt.

Fazit: Vom ersten Agent zum produktiven Setup

Ein erster KI-Agent in n8n entsteht in einem halben Tag. Ein produktiver Agent, dem man wirklich Entscheidungen überlässt, braucht zwei bis vier Wochen: Prompt-Tuning, Guardrails, Monitoring, Schulung der Kollegen, die mit ihm arbeiten.

Wer heute anfängt, hat einen klaren Vorteil gegenüber allen, die noch warten. Nicht, weil die Technologie irgendwann verschwindet, sondern weil die Datengrundlage, auf der ein guter Agent läuft, Zeit zum Wachsen braucht. Jede Entscheidung, die der Agent heute trifft und die geloggt wird, ist morgen Trainingsmaterial für den nächsten, besseren Agent.

Ihr wollt einen eigenen KI-Agenten auf eurer n8n-Instanz bauen und sucht einen Partner, der den Weg von der ersten Idee bis zum produktiven Setup kennt? Sprecht uns an, und wir skizzieren gemeinsam den passenden Einstieg.

Mit euch wachsen

Das Team

Kontakt

n8n Hosting

Workflow-Wartung

Custom Nodes

Schulungen

Performance Scaling

Zertifizierung

n8n

Make

Zapier

Power Automate

Alle Tools

Großhandel

Steuerberater

n8n KI-Agenten erstellen: Von der Idee zum lauffähigen Agent-Workflow