Comprender la temperatura de los modelos: guía práctica de Metamorfon

La temperatura, en dos palabras

Cuando un modelo de lenguaje genera un texto, no elige su siguiente palabra de forma determinista. En cada paso, evalúa una distribución de probabilidades sobre los tokens posibles y muestrea uno. La temperatura es el parámetro que aplana o endurece esa distribución.

A temperatura baja (próxima a 0), el modelo privilegia sistemáticamente los tokens más probables. Se vuelve predecible, riguroso, poco proclive a improvisar. Es la mentalidad del jurista que sopesa cada palabra.
A temperatura alta (cerca de 1, hasta 2 según el modelo), el modelo acepta alternativas menos probables. Se vuelve más exploratorio, más creativo — pero también menos estable. Es la mentalidad del brainstormer que lanza ideas antes de filtrarlas.

No hay una temperatura «correcta» en abstracto. Hay una temperatura adecuada a la tarea.

Por qué Metamorfon la convierte en un parámetro central

Metamorfon no organiza una conversación: organiza una arquitectura epistémica. Varios modelos dialogan, se contradicen, se complementan, y un modelo tercero extrae un análisis del intercambio. Según el momento del debate — y según el rol asignado a cada etapa —, no esperamos lo mismo de los modelos.

Cuando un modelo está en modo Refutativo, queremos que deconstruya. Que pese sus palabras, que sea preciso, que evite la huida hacia adelante retórica. → Temperatura baja.
Cuando un modelo está en modo Convergente, queremos que construya un terreno común, que proponga puentes conceptuales, que se permita libertades sintéticas. → Temperatura alta.
Para una Cartografía de tensiones, queremos una lectura quirúrgica, casi taxonómica. → Temperatura baja.
Para un Horizonte de posibilidades, queremos que el modelo se atreva, proyecte, extrapole. → Temperatura alta.

Esta lógica — rigor lógico abajo, exploración creativa arriba — sustenta el conjunto de los valores por defecto de Metamorfon.

Dos familias de ajustes, dos lógicas

Metamorfon distingue claramente dos momentos en los que la temperatura entra en juego, y aplica a cada uno una rejilla distinta.

1. La temperatura en modo de debate (diálogo entre modelos)

Es la temperatura utilizada por cada uno de los modelos que debaten, ajustada en función del modo de debate activo — Refutativo, Crítico, Equilibrado, Constructivo, Convergente. Cambia dinámicamente cuando el usuario alterna de modo entre dos turnos, en las estrategias adaptativas.

Véase la Tabla 1 más abajo para los valores por defecto por modelo y modo de debate.

2. La temperatura en modo de análisis (síntesis del modelo tercero)

Es la temperatura utilizada por el modelo que produce el análisis de los intercambios. Depende del modo de análisis elegido — Cartografía de tensiones, Evaluación argumentativa, Síntesis integrativa, Meta-análisis, Arqueología crítica, Análisis de la emergencia, Horizonte de posibilidades. La lógica sigue siendo la misma: cuanto más exige rigor descriptivo el análisis, más bajamos; cuanto más invita a proyectar, más subimos.

Véase la Tabla 2 más abajo para los valores por defecto por modo de análisis.

Por qué nuestros valores por defecto no son los mismos según el modelo

Los valores presentados en las tablas no son cifras redondas caídas del cielo. Reflejan tres realidades propias de cada proveedor:

1. Los rangos de operación varían. Los modelos Mistral, por ejemplo, dan sus mejores resultados en el rango 0.0–0.7. Más allá, sus salidas se degradan rápidamente. En OpenAI, Anthropic o Google, el rango útil es más amplio (0–1, incluso más). Los valores por defecto de Metamorfon respetan esa ergonomía: 0.68 en modo Convergente para Mistral Large ≈ 0.85 en Claude o GPT-4o, con efecto subjetivo equivalente.

2. Algunos modelos rechazan toda personalización. Hoy hay en Metamorfon dos modelos con temperatura bloqueada:

gemini-3-flash — Google recomienda explícitamente 1.0 en todos los modos para este modelo. Intentar otro valor solo perjudica la coherencia de las salidas.
gpt-5.5 — En producción, este modelo devuelve un error HTTP 400 en cuanto se le pasa una temperatura personalizada. El valor por defecto del servidor (1.0) es el único aceptado.

Para ambos modelos, Metamorfon omite el parámetro en sus llamadas a la API. Cualquier valor introducido manualmente en la interfaz será ignorado (con un aviso en los registros del servidor). No es un capricho: es una restricción del proveedor no negociable.

A destacar: la familia GPT-5.x no es homogénea en este punto. gpt-5.1 acepta perfectamente las temperaturas personalizadas (probado en producción a 0.40). No se puede generalizar por prefijo.

3. Los valores por defecto oficiales de los proveedores difieren. AI21 (Jamba) propone un valor por defecto de servidor de 0.4 en un rango 0–2.0; OpenAI apunta a menudo a 0.7; Mistral también a 0.7 pero sobre un rango más estrecho. Nuestros valores por defecto por modo toman estas convenciones como punto de partida, y las modulan.

¿Cuándo modificar la temperatura por defecto?

Los valores por defecto están calibrados para cubrir la mayoría de los usos. Pero hay al menos cuatro casos en los que vale la pena ajustarlos.

1. Si trabaja sobre un tema sensible a la precisión factual. En debates jurídicos, médicos o sobre datos cifrados, bajar la temperatura entre 0.05 y 0.10 en todos los modos generalmente mejora la estabilidad de las salidas. Pierde algo de fluidez, gana mucho en trazabilidad.

2. Si sus debates dan vueltas. Síntoma típico: tras 3 o 4 turnos, los modelos reformulan sin avanzar. Una ligera subida de la temperatura en modos Constructivo y Convergente (por ejemplo +0.05 a +0.10) puede bastar para desbloquear. A la inversa, si las salidas se dispersan, baje.

3. Si está sometiendo un argumento a prueba. Lleve los modos Crítico y Refutativo al mínimo (0.10–0.15) para imponer un rigor máximo. Incómodo de leer, pero analíticamente demoledor.

4. Si busca un análisis prospectivo realmente exploratorio. Para el modo Horizonte de posibilidades, subir la temperatura de análisis a 0.75 o 0.80 (en lugar del 0.65 por defecto) abre proyecciones más audaces. Úselo en preguntas abiertas, no en descripciones.

Cómo ajustar estos valores en Metamorfon

En toda estrategia de Metamorfon que ofrece un modo adaptativo (Diálogo alterno adaptativo, Diálogo cruzado adaptativo, Triálogo cruzado adaptativo), dos bloques plegables están disponibles en los Ajustes avanzados:

«Configuración de la temperatura por modelo» — una rejilla que cubre los cinco modos de debate (Refutativo → Convergente) para cada modelo seleccionado.
«Configuración de la temperatura (análisis)» — una rejilla que cubre todos los modos de análisis para el modelo de síntesis.

En ambos bloques encontrará:

El valor por defecto indicado bajo cada campo, para no perder nunca el punto de referencia.
Un rango de entrada de 0 a 2, en pasos de 0.05.

Sus sobreescrituras se almacenan en los parámetros de la sesión y se aplican dinámicamente cuando cambia de modo de debate entre dos turnos.

Si el modelo que configura es uno de los dos modelos con temperatura bloqueada (gemini-3-flash, gpt-5.5), su entrada se mostrará pero será ignorada en tiempo de ejecución. No es un bug: es respeto estricto a las restricciones del proveedor.

Los valores por defecto, de un vistazo

Tabla 1 — Temperaturas por modo de debate

Modelo	Proveedor	Refutativo	Crítico	Equilibrado	Constructivo	Convergente	Notas
gemini-3-flash	Google	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	Temperatura bloqueada (restricción del proveedor) — topP: 0.95 en todos los modos
gemini-3-pro	Google	0.20	0.30	0.50	0.70	0.85	topP: 0.95 en todos los modos
gemini-2.5-pro	Google	0.20	0.30	0.50	0.70	0.85	topP: 0.95 en todos los modos
gpt-4o	OpenAI	0.20	0.30	0.50	0.70	0.85
gpt-4o-mini	OpenAI	0.15	0.30	0.50	0.70	0.85
gpt-4-turbo	OpenAI	0.20	0.30	0.50	0.70	0.85
gpt-5.5	OpenAI	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	1.0 🔒	Temperatura bloqueada — rechazo HTTP 400 observado en producción
claude-opus-4-5	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-sonnet-4-6	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-sonnet-4-5	Anthropic	0.20	0.30	0.50	0.70	0.85
claude-haiku-4-5	Anthropic	0.15	0.30	0.50	0.70	0.85
mistral-tiny / tiny-latest	Mistral AI	0.12	0.22	0.35	0.50	0.62	Rango óptimo 0.0–0.7
mistral-small-latest	Mistral AI	0.15	0.25	0.40	0.55	0.67
mixtral-8x7b / 8x7b-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
mistral-medium / medium-3-5 / medium-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
mistral-large-latest	Mistral AI	0.15	0.30	0.42	0.55	0.68
magistral-small-latest	Mistral AI	0.15	0.28	0.40	0.53	0.65
magistral-medium-latest	Mistral AI	0.15	0.28	0.42	0.55	0.68
kimi-k2.6	Moonshot AI	0.15	0.30	0.50	0.70	0.85	topP: 0.95 en todos los modos
kimi-k2.5	Moonshot AI	0.15	0.30	0.50	0.70	0.85	topP: 0.95 en todos los modos
jamba-large	AI21 Labs	0.20	0.35	0.50	0.70	0.90	Valor por defecto API AI21: 0.4 — rango: 0–2.0 — topP: 1.0 en todos los modos
jamba-mini	AI21 Labs	0.20	0.35	0.50	0.70	0.90	Valor por defecto API AI21: 0.4 — rango: 0–2.0 — topP: 1.0 en todos los modos
Otros modelos (fallback)	—	0.20	0.30	0.50	0.70	0.85	Valores genéricos por defecto

Tabla 2 — Temperaturas por modo de análisis

Valores por defecto — todos los modelos excepto las excepciones indicadas.

Modo de análisis	Intención semántica	Temperatura por defecto	gemini-3-flash	gpt-5.5
Cartografía de tensiones (`disagreements`)	Rigor máximo, precisión analítica	0.30	1.0 🔒	1.0 🔒
Evaluación argumentativa (`argumentative_evaluation`)	Análisis estructurado de los argumentos	0.35	1.0 🔒	1.0 🔒
Síntesis integrativa (`balanced`)	Equilibrio entre coherencia y matiz	0.40	1.0 🔒	1.0 🔒
Meta-análisis (`meta`)	Distancia analítica sobre el debate	0.40	1.0 🔒	1.0 🔒
Arqueología crítica (`archaeology`)	Exploración de los presupuestos	0.50	1.0 🔒	1.0 🔒
Análisis de la emergencia (`emergent`)	Ideas nuevas, conexiones inesperadas	0.55	1.0 🔒	1.0 🔒
Horizonte de posibilidades (`prospective`)	Creatividad, proyección, exploración	0.65	1.0 🔒	1.0 🔒

En resumen

La temperatura no es un mando cosmético: es un ajuste epistémico. Decide si un modelo aborda una pregunta con la prudencia de un archivero o la libertad de un ensayista. Metamorfon ha optado por alinear este valor con la intención del momento — el modo de debate o el modo de análisis — en vez de fijarlo en una constante global. Los valores por defecto son razonables para el 95 % de los usos. El 5 % restante es suyo — y hemos hecho que sea legible, trazable y reversible.