Modell-Temperatur verstehen: Praxisleitfaden von Metamorfon

Die Temperatur — in zwei Sätzen

Wenn ein Sprachmodell einen Text erzeugt, wählt es das nächste Wort nicht deterministisch. Bei jedem Schritt bewertet es eine Wahrscheinlichkeitsverteilung über die möglichen nächsten Tokens und zieht daraus eine Stichprobe. Die Temperatur ist der Parameter, der diese Verteilung abflacht oder schärft.

Bei niedriger Temperatur (nahe 0) bevorzugt das Modell systematisch die wahrscheinlichsten Tokens. Es wird vorhersehbar, präzise, kaum geneigt zu improvisieren. Die Geisteshaltung eines Juristen, der jedes Wort abwägt.
Bei hoher Temperatur (Richtung 1, je nach Modell bis 2) akzeptiert das Modell weniger wahrscheinliche Alternativen. Es wird explorativer, kreativer — aber auch instabiler. Die Geisteshaltung eines Brainstormers, der Ideen wirft, bevor er sortiert.

Es gibt keine „richtige“ Temperatur im Absoluten. Es gibt eine Temperatur, die der Aufgabe angemessen ist.

Warum Metamorfon sie zu einem zentralen Parameter macht

Metamorfon organisiert kein Gespräch, sondern eine epistemische Architektur: mehrere Modelle debattieren, widersprechen sich, ergänzen einander, und ein drittes Modell zieht daraus eine Analyse. Je nach Moment der Debatte — und je nach Rolle der jeweiligen Etappe — erwarten wir nicht dasselbe von den Modellen.

Wenn ein Modell im Modus Refutativ arbeitet, soll es dekonstruieren. Also abwägen, präzise sein, rhetorische Flucht nach vorn vermeiden. → Niedrige Temperatur.
Wenn ein Modell im Modus Konvergent arbeitet, soll es gemeinsame Basis schaffen, begriffliche Brücken vorschlagen, sich synthetische Freiheiten erlauben. → Hohe Temperatur.
Für eine Spannungskartografie verlangen wir eine chirurgische, fast taxonomische Lesart. → Niedrige Temperatur.
Für einen Horizont der Möglichkeiten soll das Modell wagen, projizieren, extrapolieren. → Hohe Temperatur.

Diese Logik — logische Strenge unten, kreative Erkundung oben — trägt sämtliche Standardwerte von Metamorfon.

Zwei Familien von Einstellungen, zwei Logiken

Metamorfon unterscheidet klar zwei Momente, in denen die Temperatur ins Spiel kommt, und wendet auf jeden ein anderes Raster an.

1. Temperatur im Debattenmodus (Modell-zu-Modell-Dialog)

Das ist die Temperatur, die jedes debattierende Modell verwendet — angepasst an den aktiven Debattenmodus: Refutativ, Kritisch, Ausgewogen, Konstruktiv, Konvergent. Sie ändert sich dynamisch, wenn die Nutzerin oder der Nutzer in den adaptiven Strategien zwischen zwei Runden den Modus wechselt.

Siehe Tabelle 1 weiter unten für die Standardwerte je Modell und Debattenmodus.

2. Temperatur im Analysemodus (Synthesen des Drittmodells)

Das ist die Temperatur, die das Modell verwendet, das die Analyse des Austauschs erzeugt. Sie hängt vom gewählten Analysemodus ab: Spannungskartografie, Argumentative Bewertung, Integrative Synthese, Meta-Analyse, Kritische Archäologie, Emergenzanalyse, Horizont der Möglichkeiten. Die Logik bleibt dieselbe: je mehr deskriptive Strenge eine Analyse verlangt, desto niedriger; je mehr sie zum Projizieren einlädt, desto höher.

Siehe Tabelle 2 weiter unten für die Standardwerte je Analysemodus.

Warum unsere Standardwerte je Modell unterschiedlich sind

Die Werte in den Tabellen sind keine vom Himmel gefallenen runden Zahlen. Sie tragen drei Realitäten Rechnung, die jedem Anbieter eigen sind:

1. Die operativen Bandbreiten variieren. Mistral-Modelle etwa liefern ihre besten Ergebnisse im Bereich 0.0–0.7. Darüber hinaus verschlechtern sich ihre Ausgaben rasch. Bei OpenAI, Anthropic oder Google ist der nutzbare Bereich breiter (0–1, manchmal darüber). Die Standardwerte von Metamorfon respektieren diese Ergonomie: 0.68 im Modus Konvergent bei Mistral Large ≈ 0.85 bei Claude oder GPT-4o, für eine subjektiv vergleichbare Wirkung.

2. Manche Modelle lehnen jede Personalisierung ab. Zwei Modelle sind in Metamorfon derzeit in gesperrter Temperatur:

gemini-3-flash — Google empfiehlt für dieses Modell ausdrücklich 1.0 in allen Modi. Jeder andere Wert schadet nur der Kohärenz der Ausgaben.
gpt-5.5 — In der Produktion liefert dieses Modell einen HTTP-400-Fehler, sobald eine personalisierte Temperatur übergeben wird. Der Server-Standardwert (1.0) ist der einzige akzeptierte Wert.

Für beide Modelle lässt Metamorfon den Parameter weg in seinen API-Aufrufen. Eine etwaige manuelle Eingabe in der Oberfläche wird ignoriert (mit einer Warnung in den Server-Logs). Das ist keine Marotte, sondern eine nicht verhandelbare Anbieter-Vorgabe.

Zu beachten: die GPT-5.x-Familie ist in diesem Punkt nicht homogen. gpt-5.1 akzeptiert personalisierte Temperaturen problemlos (in der Produktion bei 0.40 getestet). Eine Verallgemeinerung nach Präfix ist also nicht möglich.

3. Die offiziellen Standardwerte der Anbieter unterscheiden sich. AI21 (Jamba) liefert einen Server-Standardwert von 0.4 auf einer Bandbreite 0–2.0; OpenAI peilt häufig 0.7 an; Mistral ebenfalls 0.7, aber auf einer engeren Bandbreite. Unsere modus-spezifischen Standardwerte nehmen diese Konventionen als Ausgangspunkt und modulieren von dort aus.

Wann die Standardtemperatur ändern?

Die Standardwerte sind so kalibriert, dass sie die meisten Anwendungsfälle abdecken. Es gibt jedoch mindestens vier Situationen, in denen sich eine Anpassung lohnt.

1. Wenn Sie an einem Thema arbeiten, das auf faktische Präzision angewiesen ist. Bei juristischen, medizinischen oder datenintensiven Debatten verbessert eine Absenkung der Temperatur um 0.05 bis 0.10 in allen Modi in der Regel die Stabilität der Ausgaben. Sie verlieren etwas Flüssigkeit, gewinnen aber deutlich an Nachvollziehbarkeit.

2. Wenn Ihre Debatten sich im Kreis drehen. Typisches Symptom: nach 3 oder 4 Runden formulieren die Modelle um, ohne voranzukommen. Eine leichte Erhöhung der Temperatur in den Modi Konstruktiv und Konvergent (z. B. +0.05 bis +0.10) genügt oft, um das Gespräch zu entriegeln. Umgekehrt: wenn die Ausgaben zerfallen, senken Sie sie.

3. Wenn Sie ein Argument einer Stressprobe unterziehen. Setzen Sie die Modi Kritisch und Refutativ auf den Boden (0.10–0.15), um maximale Strenge zu erzwingen. Unbequem zu lesen, analytisch verheerend.

4. Wenn Sie eine wirklich explorative prospektive Analyse wollen. Für den Modus Horizont der Möglichkeiten eröffnet ein Anheben der Temperatur auf 0.75 oder 0.80 (statt des Standardwerts 0.65) gewagtere Projektionen. Einsetzbar bei offenen Fragen, nicht bei deskriptiven.

Wie Sie diese Werte in Metamorfon anpassen

In jeder Metamorfon-Strategie mit adaptivem Modus (Adaptiver Wechseldialog, Adaptiver Kreuzdialog, Adaptiver Kreuztrilog) finden Sie in den Erweiterten Einstellungen zwei einklappbare Blöcke:

«Temperaturkonfiguration pro Modell» — ein Raster über die fünf Debattenmodi (Refutativ → Konvergent) für jedes ausgewählte Modell.
«Temperaturkonfiguration (Analysen)» — ein Raster über alle Analysemodi für das Synthesemodell.

In beiden Blöcken finden Sie:

den Standardwert unterhalb jedes Feldes angezeigt, damit der Referenzpunkt nie verloren geht;
einen Eingabebereich von 0 bis 2, in Schritten von 0.05.

Ihre Überschreibungen werden in den Sessionsparametern gespeichert und greifen dynamisch, sobald Sie zwischen zwei Runden den Debattenmodus wechseln.

Wenn das Modell, das Sie konfigurieren, eines der beiden temperatur-gesperrten Modelle ist (gemini-3-flash, gpt-5.5), wird Ihre Eingabe zwar angezeigt, zur Laufzeit aber ignoriert. Das ist kein Bug, sondern strikte Befolgung der Anbieter-Vorgaben.

Die Standardwerte auf einen Blick

Tabelle 1 — Temperaturen je Debattenmodus

Modell	Anbieter	Refutativ	Kritisch	Ausgewogen	Konstruktiv	Konvergent	Hinweise
gemini-3-flash	Google	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	Gesperrte Temperatur (Anbieter-Vorgabe) — topP: 0.95 in allen Modi
gemini-3-pro	Google	0.20	0.30	0.50	0.70	0.85	topP: 0.95 in allen Modi
gemini-2.5-pro	Google	0.20	0.30	0.50	0.70	0.85	topP: 0.95 in allen Modi
gpt-4o	OpenAI	0.20	0.30	0.50	0.70	0.85
gpt-4o-mini	OpenAI	0.15	0.30	0.50	0.70	0.85
gpt-4-turbo	OpenAI	0.20	0.30	0.50	0.70	0.85
gpt-5.5	OpenAI	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	Gesperrte Temperatur — HTTP-400-Ablehnung in der Produktion beobachtet
claude-opus-4-5	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-sonnet-4-6	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-sonnet-4-5	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-haiku-4-5	Anthropic	0.15	0.30	0.50	0.70	0.85
mistral-tiny / tiny-latest	Mistral AI	0.12	0.22	0.35	0.50	0.62	Optimaler Bereich 0.0–0.7
mistral-small-latest	Mistral AI	0.15	0.25	0.40	0.55	0.67
mixtral-8x7b / 8x7b-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
mistral-medium / medium-3-5 / medium-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
mistral-large-latest	Mistral AI	0.15	0.30	0.42	0.55	0.68
magistral-small-latest	Mistral AI	0.15	0.28	0.40	0.53	0.65
magistral-medium-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
kimi-k2.6	Moonshot AI	0.15	0.30	0.50	0.70	0.85	topP: 0.95 in allen Modi
kimi-k2.5	Moonshot AI	0.15	0.30	0.50	0.70	0.85	topP: 0.95 in allen Modi
jamba-large	AI21 Labs	0.20	0.35	0.50	0.70	0.90	AI21-API-Standardwert: 0.4 — Bereich: 0–2.0 — topP: 1.0 in allen Modi
jamba-mini	AI21 Labs	0.20	0.35	0.50	0.70	0.90	AI21-API-Standardwert: 0.4 — Bereich: 0–2.0 — topP: 1.0 in allen Modi
Sonstige Modelle (Fallback)	—	0.20	0.30	0.50	0.70	0.85	Generische Standardwerte

Tabelle 2 — Temperaturen je Analysemodus

Standardwerte — alle Modelle außer den genannten Ausnahmen.

Analysemodus	Semantische Absicht	Standardtemperatur	gemini-3-flash	gpt-5.5
Spannungskartografie	Maximale Strenge, analytische Präzision	0.30	1.0 🔒	1.0 🔒
Argumentative Bewertung	Strukturierte Analyse der Argumente	0.35	1.0 🔒	1.0 🔒
Integrative Synthese	Gleichgewicht zwischen Kohärenz und Nuance	0.40	1.0 🔒	1.0 🔒
Meta-Analyse	Analytischer Abstand zur Debatte	0.40	1.0 🔒	1.0 🔒
Kritische Archäologie	Erkundung der Vorannahmen	0.50	1.0 🔒	1.0 🔒
Emergenzanalyse	Neue Ideen, unerwartete Verbindungen	0.55	1.0 🔒	1.0 🔒
Horizont der Möglichkeiten	Kreativität, Projektion, Erkundung	0.65	1.0 🔒	1.0 🔒

Kurz gesagt

Die Temperatur ist kein kosmetischer Regler: sie ist eine epistemische Einstellung. Sie entscheidet, ob ein Modell eine Frage mit der Vorsicht eines Archivars oder mit der Freiheit eines Essayisten angeht. Metamorfon hat sich dafür entschieden, diesen Wert an die Absicht des Augenblicks auszurichten — den Debattenmodus oder den Analysemodus — statt an eine globale Konstante. Die Standardwerte sind für 95 % der Anwendungsfälle vernünftig. Die verbleibenden 5 % gehören Ihnen — und wir haben dafür gesorgt, dass das lesbar, nachvollziehbar und reversibel bleibt.