11.05.20264 Min. Lesezeit

Neue KI-Modelle sind keine Updates: System Prompts anpassen

Opus 4.7 und GPT-5.5 sind keine Drop-in-Updates. Was ich an meinem Requirements-Analyst-Prompt geändert habe und warum das kein Einzelfall ist (oder bleiben wird).

Innerhalb von zwei Wochen sind Claude Opus 4.7 (16. April) und GPT-5.5 (23. April) erschienen. Beide Releases haben eine ungewöhnliche Gemeinsamkeit: Die Hersteller empfehlen ausdrücklich, alte Prompts nicht einfach mitzuziehen.

OpenAI schreibt im Migration Guide zu GPT-5.5:

Treat it as a new model family to tune for, not a drop-in replacement.

Anthropic formuliert es in den Release Notes zu Opus 4.7 anders, führt dort aber u. a. Task Budgets und einen neuen Tokenizer ein. Für mich ist die technische Konsequenz gleich: Wenn du einen alten System Prompt unverändert weiterverwendest, verschenkst du einen Teil des Potenzials der neuen Modellfamilie.

Modellnummern lesen wir oft wie Library-Versionen: höher ist besser, sonst bleibt alles ähnlich. Bei diesen Modellwechseln war das für meine Agent-Prompts nicht der Fall.

Warum System Prompts der Engpass sind

Kurze, kontextabhängige Prompts korrigierst du nebenbei. Wenn ein Ergebnis schlechter ist, passt du den Prompt im nächsten Lauf an.

System Prompts für Agenten sind anders: Sie steuern Verhalten über längere Sitzungen, definieren Rollen, Gesprächsphasen und Ausgabeformate. Genau dort stecken viele harte Annahmen über Modellverhalten: wie viel Struktur nötig ist, wann Rückfragen sinnvoll sind, wie stark Widersprüche eskaliert werden sollen.

Wenn sich diese Defaults mit einer neuen Modellfamilie verschieben, werden alte Anweisungen schnell zu viel oder zu wenig. Dann bekommst du entweder zähe, überstrukturierte Antworten oder vorschnelle, schlecht geprüfte Ergebnisse.

Beispiel: mein Requirements Analyst

Ich arbeite seit einigen Monaten mit einem System Prompt, den ich hier vorgestellt habe: ein Requirements Analyst, der vor Greenfield-Projekten 15 bis 30 Minuten Fragen stellt und danach ein REQUIREMENTS.md erstellt.

Die Originalfassung (ANALYST.md) ist mit Claude Opus 4.5 entstanden. Mit Opus 4.7 und GPT-5.5 habe ich denselben Prompt erneut getestet – in Claude Code und Codex. Die Ergebnisse waren weiter brauchbar, aber das Verhalten war erkennbar anders.

Änderungen für Opus 4.7

Ich habe für Opus 4.7 eine eigene Variante gebaut: nimm den alten Prompt, aktualisier mal nach Angaben von Anthropic selbst auf die neueste Version.

Die wichtigste Eingriffe:

Task Budgets aktiv nutzen. Opus 4.7 kann in agentischen Loops sehr ausführlich planen. Zusätzlich zur Regel „2–4 fokussierte Fragen pro Phase“ habe ich deshalb den Planungsanteil pro Phase explizit begrenzt und Rückfragen priorisiert.

Reasoning gezielt an den richtigen Stellen fördern. Bei Konsistenzprüfungen zwischen Antworten habe ich die Anweisung präzisiert („prüfe Widersprüche vor der Zusammenfassung, frage bei Konflikten nach“), statt das implizit zu lassen.

Wiederholungen reduzieren. In der 4.5-Version war die gleiche Phasenmechanik mehrfach ausgeschrieben. Für 4.7 hat eine zentrale Verhaltensregel plus kurze Referenzen pro Phase stabilere Ergebnisse geliefert.

Die neun Phasen sind gleich geblieben. Auch die Struktur des REQUIREMENTS.md blieb gleich. Geändert hat sich nur die Verhaltenssteuerung.

Änderungen für GPT-5.5

Die GPT-5.5-Variante wurde an OpenAIs Outcome-first-Empfehlung angepasst. Dafür habe ich codex benutzt, weil ich gelesen habe, dass dort bei Bedarf die Migrationsanweisungen mit einbezogen werden.

Outcome zuerst. Der Prompt startet mit dem erwarteten Zieldokument und klaren Qualitätskriterien. Erst danach kommt der Weg über die Phasen.

Weniger Scaffolding. Prozessregeln, die vorher in jeder Phase wiederholt wurden, habe ich in eine kompakte globale Gesprächsregel verschoben.

Explizite Eskalation bei Widersprüchen. GPT-5.5 war in meinen Tests stärker auf Konsens ausgerichtet. Eine klare Rückfrage-Regel bei Konflikten hat die Qualität des Enddokuments verbessert.

Auch hier gilt: Fachliche Struktur gleich, Verhaltensanweisungen angepasst.

Das Muster dahinter

Nach beiden Migrationen ist mein Fazit:

Die fachliche Struktur eines Agenten (Rolle, Phasen, Output) ist oft modell-agnostisch.
Verhaltensanweisungen (Planungstiefe, Rückfragen, Eskalation, Dichte der Anleitung) sind modell-spezifisch.

Deshalb hilft eine klare Trennung im Prompt:

Abschnitt A: Rolle und Output
Abschnitt B: Verhaltensregeln

Beim nächsten Modellwechsel migrierst du primär Abschnitt B. Der Diff bleibt klein und nachvollziehbar.

Es gibt aber keinen Grund zur Panik. Nicht jeder Prompt braucht sofort eine Überarbeitung. Gleich bleiben beispielsweise:

kurze, kontextabhängige Prompts in Editor-Shortcuts,
einmalige Skripte oder Extraktionen,
Checklisten-Prompts für menschliche Reviews.

Relevant sind vor allem Prompts, die lange leben, Verhalten steuern und in mehrstufigen Workflows hängen. System prompts würde ich auch eher anschauen als irgendein kleines Template. Aber es lohnt vielleicht, sich alle wichtigen Skills noch mal neu bauen zu lassen, um Token zu sparen.

Im ursprünglichen Requirements-Analyst-Post liegen aktuell drei Fassungen:

ANALYST.md – modell-agnostische Baseline
ANALYST-opus47.md – Variante für Claude Code mit Opus 4.7
ANALYST-gpt55.md – Variante für Codex mit GPT-5.5

Wenn du sie nebeneinanderlegst, siehst du die Trennung aus Struktur und Verhalten direkt im Diff.