Die Preise für KI-Modelle sind 2026 so niedrig wie nie — und trotzdem sprengen KI-Projekte regelmäßig ihr Budget. Der Grund: Wer „KI-Kosten“ mit „Token-Preis“ gleichsetzt, plant an rund 80 Prozent der Rechnung vorbei. Dieser Artikel zerlegt die Kosten in ihre echten Bestandteile, nennt belegte Preise — und rechnet an zwei konkreten Beispielen vor, wo das Geld wirklich hingeht.
Die kurze Antwort: Der reine Modell-Preis (Token) ist bei den meisten Anwendungen der kleinste Kostenblock — oft nur wenige Euro im Monat. Das Budget verschlingen Integration, Wartung, menschliche Prüfung und Datenarbeit. Faustregel: Rechne den Token-Preis, dann multipliziere die Gesamtkosten des ersten Jahres mit dem Zehn- bis Fünfzigfachen — je nachdem, wie tief die KI in Deine Prozesse eingreift.
Drei Ebenen, auf denen KI Geld kostet
Bevor wir Zahlen ansehen: KI-Kosten fallen auf drei Ebenen an — und nur die erste steht auf der Preisliste des Anbieters.
1. Nutzungskosten (Token). Was Du pro Anfrage an den Modell-Anbieter zahlst. Transparent, pro Million Token abgerechnet, gut kalkulierbar — und der Teil, über den alle reden.
2. Aufbaukosten (einmalig). Integration, Entwicklung, Datenaufbereitung, Einrichtung — der Aufwand, bis die KI überhaupt sinnvoll in Deinem Prozess arbeitet.
3. Betriebskosten (laufend). Wartung, menschliche Prüfung, Hosting, Monitoring, Fehlerkorrektur, Einarbeitung. Diese Ebene läuft weiter, solange das System läuft — und wird fast immer unterschätzt.
Was Token wirklich kosten
Fangen wir mit dem sichtbaren Teil an. Alle Preise unten sind Listenpreise pro einer Million Token (Input / Output), Stand 2026 — teils Einführungspreise. Wichtig vorab: Output-Token kosten ein Vielfaches der Input-Token. Bei Aufgaben, die viel Text erzeugen, dominiert deshalb der Output-Preis die Rechnung.
| Modell | Preis In / Out (je 1 Mio.) | Klasse |
|---|---|---|
| Google Gemini 3.5 Flash | $1,50 / $9 | Sparklasse (Masse, Routine) |
| Claude Sonnet 5 | $3 / $15 1 | Arbeitspferd (Großteil der Arbeit) |
| Google Gemini 3.1 Pro | $2 / $12 2 | Reasoning & Multimodal |
| Claude Opus 4.8 | $5 / $25 | Spitzenklasse (letzte Prozentpunkte) |
| OpenAI GPT-5.5 | $5 / $30 | Allround-Flaggschiff |
1 Sonnet 5: Einführungspreis $2 / $10 bis 31.08.2026, danach $3 / $15. 2 Gemini 3.1 Pro: Standard-Tarif bis 200K Kontext; darüber $4 / $18. Alle Angaben laut Anbieter-Docs bzw. Preis-Trackern (siehe Quellen).
Zwei Dinge fallen sofort auf. Erstens: Zwischen der günstigsten (Flash) und der teuersten Ausgabe (GPT-5.5) liegt beim Output mehr als das Dreifache — die Modellwahl ist ein echter Hebel. Zweitens, und wichtiger: Selbst das teuerste Modell kostet pro Anfrage meist nur Bruchteile eines Cents. Wer daraus schließt, KI sei „quasi umsonst“, übersieht die zwei anderen Ebenen. Genau die sehen wir uns jetzt an.
Die versteckten Kosten — wo das Budget wirklich hingeht
Der Token-Preis ist die Spitze des Eisbergs. Darunter liegen sechs Posten, die in Summe fast immer den Löwenanteil ausmachen.
Integration & Entwicklung
Ein Modell über eine Schnittstelle (API) anzusprechen ist einfach. Es sinnvoll an Deine Systeme anzubinden — Posteingang, CRM, Warenwirtschaft, Wissensdatenbank — ist der eigentliche Aufwand. Prompts entwerfen und testen, Schnittstellen bauen, Sonderfälle abfangen: Das sind schnell mehrere Personentage bis -wochen. Bei einem externen Dienstleister landest Du hier je nach Umfang im vier- bis fünfstelligen Bereich — einmalig, aber fällig, bevor der erste produktive Token fließt.
Menschliche Prüfung (Mensch-im-Loop)
Für alles, was nach außen geht oder Entscheidungen trifft, brauchst Du einen Menschen, der gegenprüft — mindestens in der Anfangsphase. Diese Prüfzeit ist ein laufender Kostenblock und oft der größte von allen: Kontrolliert ein Mitarbeiter 100 KI-Entwürfe pro Monat je fünf Minuten, sind das über acht Arbeitsstunden — Monat für Monat. Die KI erledigt die Arbeit schneller; unbeaufsichtigt erledigt sie sie nicht.
Wartung & Betrieb
Modelle werden abgekündigt, Preise ändern sich, Anbieter veröffentlichen im Quartalstakt neue Versionen. Prompts, die gestern funktionierten, liefern nach einem Modellwechsel andere Ergebnisse. Wer ein KI-System produktiv betreibt, braucht jemanden, der es pflegt, überwacht und anpasst — kein einmaliges Projekt, sondern ein Dauerposten.
Infrastruktur & Hosting
Rund um das Modell läuft Software: ein Server für Deine Anwendung, eine Datenbank, Logging, Monitoring, oft eine Vektordatenbank für die Dokumentensuche. Wer aus DSGVO-Gründen in der EU hostet oder ein Modell selbst betreibt, zahlt hier spürbar mehr als für die reinen Token. Für die meisten Setups sind das monatlich zweistellige bis niedrige dreistellige Beträge — planbar, aber real.
Daten & DSGVO
KI ist nur so gut wie die Daten, mit denen sie arbeitet. Diese Daten zu sammeln, zu bereinigen und rechtssicher bereitzustellen kostet Zeit. Dazu kommt der Compliance-Aufwand: Auftragsverarbeitungsverträge, gegebenenfalls eine Datenschutz-Folgenabschätzung, Kennzeichnungspflichten. Das erzeugt selten große Rechnungen — aber es kostet Vorlauf und Sorgfalt, und wer es überspringt, zahlt später drauf.
Fehlerkosten & Einarbeitung
Zwei Posten, die keine Rechnung erzeugen und trotzdem zählen: Erstens die Fehlerkosten — eine falsche KI-Antwort, die niemand prüft, kann teurer werden als ein ganzes Jahr Token. Zweitens die Einarbeitung: Dein Team muss lernen, mit dem Werkzeug umzugehen, ihm zu vertrauen und seine Grenzen zu kennen. Beides gehört ehrlich ins Budget.
Zwei transparente Rechenbeispiele
Genug Theorie — rechnen wir zwei typische Fälle durch. Die Token-Zahlen sind bewusst konservativ angenommen und dienen der Größenordnung, nicht der Nachkommastelle.
Beispiel 1: 1.000 Support-Anfragen pro Monat vorsortieren
Angenommen, ein Agent liest jede eingehende Anfrage (rund 500 Token Eingabe) und gibt Kategorie plus Priorität aus (rund 50 Token Ausgabe). Auf der Sparklasse (Gemini 3.5 Flash, $1,50 / $9) kostet das: 0,5 Mio. Input-Token × $1,50 = $0,75, plus 0,05 Mio. Output-Token × $9 = $0,45 — rund 1,20 $ im Monat. Selbst auf Opus 4.8 läge es bei rund 4 $. Die Token sind hier praktisch kostenlos. Das Budget steckt in der einmaligen Anbindung an den Posteingang und in der Person, die anfangs stichprobenartig prüft, ob die Einsortierung stimmt.
Beispiel 2: 100 Angebotsentwürfe pro Monat erstellen
Hier erzeugt die KI echten Text: pro Entwurf grob 2.000 Token Eingabe (Anfrage + Vorlagen + Produktdaten) und 1.500 Token Ausgabe. Auf einem starken Arbeitspferd (Sonnet 5 zum Standardpreis $3 / $15) sind das 0,2 Mio. Input × $3 = $0,60 plus 0,15 Mio. Output × $15 = $2,25 — knapp 3 $ im Monat. Auf Opus 4.8 wären es rund 5 $. Doch bevor auch nur einer dieser 100 Entwürfe zum Kunden geht, prüft ihn ein Mensch — sagen wir fünf Minuten je Entwurf. Das sind gut acht Arbeitsstunden monatlich. Die Prüfzeit kostet ein Vielfaches der Token, jeden einzelnen Monat.
Die Kernlektion aus beiden Beispielen: Der Token-Preis ist der kleinste und am besten planbare Posten. Wer KI-Kosten realistisch schätzen will, rechnet zuerst die menschliche Prüfzeit und den einmaligen Aufbau — und behandelt die Token fast wie einen Rundungsfehler.
Wie Du die Kosten wirklich senkst
Wenn die Token kaum ins Gewicht fallen, liegt der Spar-Hebel woanders. Drei Prinzipien bringen am meisten.
Gestuftes Modell-Routing
Setz nicht überall das teuerste Modell ein. Routine — klassifizieren, taggen, vorsortieren — läuft auf der Sparklasse. Das Arbeitspferd (Sonnet-5-Klasse) übernimmt den Großteil. Das teure Spitzenmodell (Opus 4.8) hebst Du Dir für die letzten Prozentpunkte Präzision auf. Welches Modell wofür taugt, haben wir im Modell-Vergleich 2026 im Detail aufgeschlüsselt. Dieser abgestufte Ansatz senkt die Nutzungskosten oft um mehr als die Hälfte — ohne spürbaren Qualitätsverlust.
Caching nutzen
Wenn immer derselbe System-Prompt oder dieselbe Wissensbasis vorne steht, reduziert Prompt-Caching die Kosten für diesen Teil um bis zu rund 90 Prozent. Für Agenten mit festem Kontext ist das einer der größten und am leichtesten zu holenden Hebel.
Klein starten, dann skalieren
Der teuerste Fehler ist, groß zu bauen, bevor der Nutzen bewiesen ist. Nimm einen wiederkehrenden Prozess, automatisiere ihn sauber, miss das Ergebnis — und erweitere erst dann. So bleiben die Aufbaukosten überschaubar, und Du zahlst nicht für Funktionen, die niemand nutzt.
Was kostet KI also wirklich?
Ehrliche Antwort: Die Token kosten fast nichts — die Integration in Deinen Alltag kostet Geld. Ein KI-Projekt, das ein paar Euro Token im Monat verbraucht, kann im ersten Jahr trotzdem einen vier- bis fünfstelligen Gesamtaufwand haben, sobald Aufbau, Prüfung und Betrieb ehrlich eingerechnet sind. Das ist keine schlechte Nachricht — es heißt nur, dass Du an den richtigen Stellen planen musst.
Genau so gehen wir bei FORGE vor: Wir routen abgestuft nach Aufgabe, statt pauschal das teuerste Modell zu wählen, cachen feste Kontexte und bauen jeden Anwendungsfall erst klein und messbar, bevor er skaliert. Wer die konkreten Schritte selbst nachbauen will, findet sie in unserem Praxis-Playbook zu KI-Agenten. Die Modell-Preise werden weiter fallen — die versteckten Kosten bleiben. Wer sie von Anfang an einplant, trifft die besseren Entscheidungen.
Quellen
- Primär Anthropic — Claude Sonnet 5 (Preis $2/$10 → $3/$15, Positionierung günstiger als Opus/GPT-5.5/Gemini 3.1 Pro): anthropic.com/news/claude-sonnet-5
- Primär Claude Platform Docs — Opus 4.8 ($5/$25 pro 1 Mio. Token; Prompt-Caching ca. 90 % günstiger): platform.claude.com/docs
- Primär OpenAI API Docs — GPT-5.5 ($5/$30, Cached-Input $0,50, ~1 Mio. Kontext): developers.openai.com
- OpenRouter — Google Gemini 3.1 Pro (Preis $2/$12; Stufe >200K: $4/$18): openrouter.ai/google/gemini-3.1-pro-preview
- OpenRouter — Google Gemini 3.5 Flash (Preis $1,50/$9): openrouter.ai/google/gemini-3.5-flash
- TechCrunch — Anthropic launches Claude Sonnet 5 (Preis-Vergleich, Positionierung): techcrunch.com