Kurz erklärt
Das Context Window ist die maximale Textmenge (gemessen in Tokens), die ein Sprachmodell gleichzeitig verarbeiten kann. Es umfasst sowohl die Eingabe als auch die Ausgabe.
Aktuelle Context-Window-Größen (2025)
| Modell | Context Window | ≈ Seiten Text |
|---|
| Claude (Sonnet/Opus) | 200.000 Tokens | 150-750 |
| GPT-4 | 128.000 Tokens | ~100 |
| Gemini 2.5 Pro | 1.000.000 Tokens | ~750 |
Was passiert bei Überschreitung
Die KI ‘vergisst’ stillschweigend den Anfang der Konversation – älteste Informationen werden abgeschnitten, ohne Warnung.
Dies ist besonders kritisch bei langen Debugging-Sessions oder Dokumentenanalysen: Die KI kann plötzlich den ursprünglichen Kontext nicht mehr berücksichtigen.
Lost in the Middle-Phänomen
Studien zeigen, dass LLMs Informationen am Anfang und Ende des Kontexts besser erinnern als in der Mitte.
Praktische Konsequenz: Kritische Daten sollten an den Anfang oder das Ende des Prompts platziert werden, nicht in die Mitte langer Dokumente.
Für lange Dokumente
Context Engineering und RAG (Retrieval Augmented Generation) helfen, auch mit begrenztem Context Window effektiv zu arbeiten:
- Chunking: Dokumente in kleinere Abschnitte aufteilen
- Summarization: Lange Texte zusammenfassen
- RAG: Nur relevante Abschnitte dem Prompt hinzufügen
Business-Relevanz
Große Context Windows ermöglichen:
- Analyse ganzer Verträge oder technischer Dokumentationen in einem Durchgang
- Debugging mit vollständiger Codebase-Sicht
- Multi-Turn-Konversationen ohne Kontextverlust
Für die meisten Business-Anwendungen reichen 32.000-128.000 Tokens aus – extreme Context Windows (1M+ Tokens) sind nur für spezielle Use Cases nötig.