Governance · Operating Model Juni 2026 · ca. 7 Minuten

Token sind die
Währung von KI

Lange war KI-Nutzung vor allem eine Frage des Mutes. Ausprobieren, experimentieren, schauen was geht. Token-Limits waren kein echtes Thema, Kosten auch nicht wirklich. Das ändert sich gerade.

Und wie bei jeder Währung lohnt es sich, zu verstehen, wie sie funktioniert.

Einordnung

Vom technischen Detail zum Führungsthema

Nicht dramatisch, nicht von heute auf morgen. Aber die Richtung ist klar. Je leistungsfähiger die Modelle werden, desto mehr verbrauchen sie. Und je tiefer KI in Workflows eingebaut wird, desto weniger siehst du noch, was eigentlich wo verbraucht wird.

Das ist der Moment, in dem Token aufhören, ein technisches Detail zu sein, und anfangen, ein Führungsthema zu werden.

01 · Grundlagen

Was ein Token ist und wie er entsteht

Ein Token ist die kleinste Einheit, in der ein Sprachmodell Text verarbeitet. Kein Wort, kein Buchstabe, irgendwas dazwischen. Sprachmodelle zerlegen Text in Fragmente, sogenannte Tokens, bevor sie ihn verarbeiten. Das Wort „Transformation“ ist ein Token. „KI-Transformation“ sind wahrscheinlich drei. Im Deutschen entstehen durch zusammengesetzte Wörter und Umlaute schnell mehr Tokens als im Englischen.

Als Faustregel entsprechen 1.000 Tokens etwa 750 englischen Wörtern, im Deutschen eher 600.

Bezahlt wird in zwei Richtungen. Input-Tokens sind alles, was du dem Modell schickst, also Prompt, Kontext, Dokumente, Chatverlauf, System-Prompt. Output-Tokens sind alles, was zurückkommt. Output ist dabei meist drei bis vier Mal teurer als Input.

Der Verbrauch wächst nicht linear mit der Nutzung. Er wächst mit der Komplexität.

Solange KI bedeutete, eine Frage zu stellen und eine Antwort zu bekommen, war das überschaubar. Heute laufen Agenten, die im Hintergrund recherchieren, sich selbst überprüfen, Werkzeuge aufrufen, Ergebnisse einordnen und dabei jedes Mal den gesamten Kontext mitschleppen. Eine Gartner-Analyse aus März 2026 zeigt, dass Agentic-AI-Anwendungen pro Aufgabe 5 bis 30 Mal mehr Tokens verbrauchen als ein klassischer Chatbot (Gartner via oplexa).

02 · Marktbewegung

Die Preise fallen, die Rechnungen steigen

Wer früh mit KI angefangen hat, kennt das Gefühl. Es war günstig, es war großzügig, man konnte viel ausprobieren. Das war kein Zufall. Die Preise sind in den letzten 18 Monaten von rund 10 Euro auf 0,07 Euro pro Million Tokens gefallen, ein Rückgang um über 99 Prozent (Multiplye). Gartner erwartet bis 2030 noch einmal über 90 Prozent weniger (Gartner).

Und trotzdem. Laut Bitkom-Studie 2026 berichtet ein Drittel der befragten Unternehmen, dass KI teurer ist als erwartet (Bitkom via mybusinessfuture). Gartner schätzt, dass 65 Prozent der Unternehmen mit generativer KI ihre Budgetprojektionen 2026 überschreiten (Gartner via xpert.digital).

−99 %
Token-Preis
in 18 Monaten
−90 %
erwartet bis 2030
Gartner-Prognose
1 von 3
Unternehmen
KI teurer als gedacht
65 %
über Budget
GenAI 2026

Beides stimmt. Die Preise fallen, die Rechnungen steigen. Weil wir mehr nutzen, komplexer nutzen, und weil die Modelle, die wir nutzen, leistungsfähiger und damit hungriger werden.

Ich bin in der glücklichen Lage, in meiner Position immer genug Token zur Verfügung zu haben. Trotzdem frage ich mich manchmal, ob Token zur neuen Handelsware werden.

Hey, wenn du diese Woche gut arbeitest, gibt es noch eine Extraportion Token.

Klingt lustig, hat aber einen ernsten Kern. Wer ans Nutzungslimit stößt, merkt es sofort, weil ein Workflow plötzlich nicht mehr läuft. Genau deshalb lohnt es sich, den Verbrauch im Blick zu behalten. Für jede und jeden im Team, und für die IT, die die Kosten über alle Systeme hinweg zusammenhalten muss.

Wer jetzt versteht, was hinter dem Verbrauch steckt, hat einen echten Vorsprung. Genau darum lohnt sich der Blick auf die Token.
03 · Modellwahl

Nicht jede Aufgabe braucht das stärkste Modell

Einer der größten Hebel, den Unternehmen gerade noch nicht ziehen, ist die bewusste Modellwahl. Nicht jeder Use Case braucht das leistungsfähigste Modell. Und der Preisunterschied ist nicht marginal.

Am Beispiel von Claude, einem der meistgenutzten Modelle in Unternehmensumgebungen:

ModellStärkenInput / 1MOutput / 1M
Claude Haiku 4.5Schnell und günstig, gut für einfache Aufgaben1,00 $5,00 $
Claude Sonnet 4.6Ausgewogen aus Intelligenz, Kosten und Tempo3,00 $15,00 $
Claude Opus 4.8Für komplexe agentische und Enterprise-Aufgaben5,00 $25,00 $
Claude Fable 5Stärkste Stufe, für langlaufende Agenten10,00 $50,00 $

Preise laut Anthropic Pricing-Seite, Stand Juni 2026. Zwischen dem günstigsten und dem stärksten Modell liegt der Faktor zehn, auf Input wie auf Output.

Wer für eine einfache Zusammenfassung oder eine Kategorisierungsaufgabe das stärkste Modell einsetzt, zahlt das Zehnfache ohne messbaren Qualitätsunterschied. Das passiert gerade in vielen Unternehmen täglich, weil niemand eine Modell-Policy hat und das stärkste Modell als Default läuft.

Ich gebe zu, das fällt mir selbst manchmal schwer. Es ist verlockend, einfach das stärkste Modell zu nehmen, weil es sich nach der sichersten Wahl anfühlt. Aus Kostensicht ist es das selten. Die stärksten Modelle gehören zu den komplexen Aufgaben, nicht zu jeder Routine.

04 · Hebel

Was wirklich hilft, von Prompts bis Governance

Token-Effizienz ist kein reines IT-Thema. Sie entsteht im Arbeitsalltag, bei jedem Prompt, der geschrieben wird, bei jedem Workflow, der gebaut wird, bei jeder Entscheidung, welches Modell für welche Aufgabe läuft.

Hebel 01
Gute Prompts verbrauchen weniger

Wer weiß, was er haben will, bevor er den Prompt schreibt, spart Tokens. Nicht weil kurze Prompts besser sind, sondern weil präzise Prompts weniger Korrekturrunden brauchen. Das ist eine Fähigkeit, die man trainieren kann. Und die in Unternehmen kaum jemand systematisch aufbaut.

Hebel 02
Erst Struktur, dann Visual

Texte und Präsentationen erarbeite ich zuerst als schlichte Markdown-Datei. Erst im letzten Schritt lasse ich das Visual bauen, etwa eine pptx in Langdock oder ein Design mit Claude. Genau diese Schritte fressen viele Token und brauchen ein starkes Modell. Wer die Denkarbeit vorher in einfachem Text erledigt, zahlt den teuren Teil nur einmal.

Hebel 03
Wiederkehrenden Kontext cachen

Wenn derselbe lange Kontext immer wieder mitgeht, etwa ein System-Prompt oder ein Referenzdokument, lohnt sich Prompt-Caching. Gecachte Inhalte liest das Modell zum Bruchteil des Preises, bei Claude für rund ein Zehntel des normalen Input-Preises.

Hebel 04
Stapeln statt einzeln

Aufgaben, die nicht sofort beantwortet sein müssen, lassen sich als Stapel verarbeiten. Anthropic gibt darauf 50 Prozent Rabatt. Für nächtliche Auswertungen oder Massenaufgaben ist das ein einfacher Hebel, den kaum jemand nutzt.

Hebel 05
Token-Limits als Steuerung

In Plattformen wie Langdock lassen sich Limits pro Nutzer, Team oder Use Case setzen. Das klingt nach Sparzwang, ist aber Transparenz. Wer ein Limit hat, merkt, wann er es erreicht. Wer keins hat, merkt es erst auf der Rechnung. Für wen du Budget freigibst, ist eine Governance-Entscheidung, keine IT-Entscheidung.

Hebel 06
Workflows wirklich anschauen

Je mehr Automatisierung, desto unsichtbarer der Verbrauch. Ein Workflow, der täglich läuft, kann tausende Tokens pro Durchlauf verbrauchen, ohne dass jemand das aktiv entschieden hat. Welches Modell arbeitet darin? Wie lang ist der mitgeschleppte Kontext? Wann wurde das zuletzt angeschaut?

Noch radikaler wird es mit der Caveman-Skill, einer Open-Source-Technik, die das Modell anweist, wie ein Höhlenmensch zu antworten. Keine Füllwörter, nur das Wesentliche. In Tests sank der Output-Verbrauch um 45 bis 75 Prozent. Für Präzisionsaufgaben stark, für Erklär-Texte weniger. Das Prinzip ist universell, dem Modell sagen, wie es antwortet, nicht nur was. Mehr dazu bei Better Stack und Medium, kritisch bei PCWorld. Caching, Batching und Modell-Routing fasst Redis gut zusammen, die Details zu Caching und Stapelverarbeitung stehen in der Anthropic-Dokumentation.

05 · Haltung

Die größere Frage dahinter

Token-Kosten sind auch ein Spiegel für etwas anderes. Ob KI wirklich Mehrwert bringt oder ob sie genutzt wird, weil sie da ist.

Das ist keine Kritik an Experimentierfreude. Ausprobieren war richtig und wichtig. Aber je mehr Token kosten, desto klarer wird die Frage. Brauche ich hier KI, oder reicht eine saubere Prozessoptimierung? Manchmal ist die Antwort KI. Manchmal ist sie ein besseres Formular, eine klarere Übergabe, eine Checkliste.

Wer diese Frage stellt, bevor er einen Agenten baut, spart nicht nur Tokens. Er baut bessere Lösungen.

06 · AI Enablement

Was das fürs AI Enablement bedeutet

Im AI Enablement geht es um mehr als Adoption. Adoption ist ein wichtiger Schritt, vielleicht der erste. Aber es hilft wenig, wenn ein Großteil der Mitarbeitenden den Chat nur wie eine bessere Google-Suche nutzt. Der eigentliche Hebel liegt in den richtigen, wichtigen Use Cases und darin, die stärksten Modelle für die wirklich komplexen Aufgaben zu reservieren. Wirkung statt reiner Nutzung. Von Adoption zu Impact.

In meiner Arbeit beim Aufbau einer AI-Enablement-Funktion sehe ich, wie Token-Governance genau dazugehört. Nicht die glamouröseste Aufgabe, aber eine der wirkungsvollsten.

Das heißt konkret: Use Cases transparent machen, nicht nur genehmigen. Workflows regelmäßig prüfen, nicht nur einmalig aufsetzen. Trainings anbieten, die nicht nur zeigen, wie man KI nutzt, sondern wie man sie effizient nutzt. Die Kosten über alle Systeme hinweg zusammenführen, statt je Lösung einzeln draufzuschauen. Und eine Modell-Policy entwickeln, die erklärt, welches Modell wofür gedacht ist und wer entscheidet, wenn jemand mehr braucht.

Quellen

Bitkom, KI in Deutschland 2026, ein Drittel der Unternehmen berichtet höhere Kosten als erwartet.

Gartner, Inference Cost Forecast 2026 bis 2030, über 90 Prozent günstigere Inferenz bis 2030.

Gartner, Agentic AI Token Consumption Analysis, März 2026, 5 bis 30 Mal höherer Verbrauch pro Aufgabe.

Gartner-Schätzung zu GenAI-Budgetüberschreitungen, 65 Prozent über Budget 2026.

Multiplye, Preisentwicklung KI-Tokens, von rund 10 Euro auf 0,07 Euro pro Million Tokens.

Caveman-Skill: Better Stack, Medium, PCWorld, GitHub.

Anthropic, Claude Pricing, Modell- und Token-Preise.

Anthropic, Prompt Caching, gecachte Reads zu rund einem Zehntel des Input-Preises.

Anthropic, Batch Processing, 50 Prozent Rabatt auf Stapelverarbeitung.

Redis, LLM Token Optimization 2026, Überblick zu Caching, Batching und Routing.

Schaust du dir an, was deine Workflows verbrauchen?

Token-Governance ist bei mir gerade ein großes Thema. Wenn du an der gleichen Frage sitzt, tausche ich mich gern aus, am einfachsten auf LinkedIn.

Nach oben scrollen