Juzgar la calidad de un debate sin zanjar sus conclusiones
Leer un debate permite evaluar lo que en él se ha dicho. Pero es posible otra lectura, que no recae sobre lo que se ha defendido sino sobre la manera de defenderlo. ¿Qué argumentos estaban sólidamente construidos, cuáles eran circulares o estaban inmunizados contra la crítica, cuáles se apoyaban en fuentes reconstruidas, cuáles trataban las objeciones de forma sustancial y cuáles las esquivaban? Esta dimensión de todo debate —su calidad argumentativa, independiente de la justeza de sus conclusiones— es lo que la Evaluación argumentativa busca volver visible.
Es ese nivel el que distingue este modo de los seis que lo preceden. El Meta-análisis, la Síntesis integrativa, el Análisis de la emergencia, la Cartografía de tensiones, la Arqueología crítica, el Horizonte de posibilidades: todos esos modos son descriptivos. Observan. La Evaluación argumentativa, en cambio, juzga —pero juzga la conducta del intercambio, no su contenido, y es esa disociación la que la convierte en un instrumento de naturaleza particular. Deja intacta la cuestión de saber quién tiene razón; se interesa por quién ha razonado bien. No zanja los debates; evalúa las maneras de sostenerlos.
El reparto entre lo dicho y la manera de sostenerlo
Esta distinción entre el contenido de una posición y su calidad argumentativa es antigua. Aristóteles, en los Tópicos y en las Refutaciones sofísticas, separaba ya lo que corresponde a un razonamiento válido de lo que corresponde a un simulacro de validez —un argumento que parece concluyente sin serlo. Pero es con la tradición contemporánea de la pragma-dialéctica —formalizada por Frans van Eemeren y Rob Grootendorst en la Universidad de Ámsterdam a partir de los años 1980— cuando esa intuición recibió su formulación más operativa. La pragma-dialéctica propone considerar toda argumentación como una discusión crítica gobernada por reglas cuya transgresión constituye, precisamente, lo que llamamos un sofisma. Esas reglas no recaen sobre el contenido —no dicen nada de lo que es lícito defender— sino sobre la conducta del intercambio: la manera en que los interlocutores se escuchan, tratan las objeciones, asumen sus presupuestos, aceptan revisar sus posiciones frente a argumentos sólidos.
La idea es potente porque vuelve la evaluación a la vez rigurosa y neutral en cuanto a los contenidos. Se puede diagnosticar un sofisma en la defensa de una posición que se comparte, y reconocer la calidad argumentativa de una posición que se rechaza. Esa disociación es lo que permite a la Evaluación argumentativa operar sin convertirse en una crítica partidista.
Una rejilla en siete disciplinas
La Evaluación argumentativa despliega sistemáticamente siete disciplinas, en este orden. Cada una corresponde a una dimensión distinta de la calidad argumentativa y produce, tomada aisladamente, un tipo de observación específico.
Primero, la calidad inferencial y las contribuciones sólidas. Esta disciplina identifica las inferencias válidas, las distinciones conceptuales esclarecedoras, los aportes estructurantes al debate. Empieza por lo que está bien hecho —no por cortesía, sino porque el rigor evaluativo exige poder reconocer la solidez antes de señalar la debilidad. Una evaluación que solo supiera detectar fallos no sería una evaluación: sería una caza de sofismas.
Después, el tratamiento de las objeciones. Una objeción puede ser ignorada, desviada, retornada, integrada. Cada una de esas operaciones tiene una calidad argumentativa distinta. La objeción ignorada revela una evasión; la objeción desviada señala que no se discute lo que se pretende discutir; la objeción retornada puede ser una jugada brillante o un sofisma disfrazado según desplace realmente el terreno o se limite a invertirlo; la objeción integrada fuerza una revisión de la posición. Distinguir esas operaciones sobre pasajes precisos es una de las operaciones más discriminantes del modo.
Viene luego la coherencia interna. Una posición puede estar bien defendida puntualmente y entrar en tensión consigo misma a lo largo de un debate. Detectar los deslizamientos no tematizados —esos momentos en que un interlocutor cambia sutilmente de criterio sin reconocerlo— es una de las tareas más delicadas de la evaluación. No es la contradicción explícita lo que aquí se busca, sino la incoherencia silenciosa: el paso de un estándar de prueba a otro, la movilización de un caso como ejemplo aquí y como contraejemplo allá, la definición tácitamente modificada de un término entre dos turnos.
La cuarta disciplina concierne a las técnicas argumentativas problemáticas: sofismas, peticiones de principio, hombres de paja, deslizamientos semánticos, falsos dilemas, generalizaciones apresuradas, inmunizaciones contra la crítica. La pragma-dialéctica ha recensado una tipología sistemática de ellas. El modo no busca aplicar esa tipología mecánicamente, sino reconocer los fenómenos problemáticos en su singularidad. Una crítica dirigida a un razonamiento solo es pertinente si se puede nombrar con precisión lo que no funciona —no «tu razonamiento es falso» sino «generalizas a partir de tres casos una propiedad estructural, sin contraprueba».
La quinta disciplina es la evaluación de la falsabilidad. Esta disciplina es una herencia directa de Karl Popper. Plantea una pregunta simple pero temible: ¿qué podría, en principio, mostrar que esta tesis es falsa? Una tesis que no admite ninguna condición de refutación no es por ello falsa —pero se sustrae a la prueba, y esa sustracción es ella misma una debilidad argumentativa. Inversamente, una tesis cuya condición de refutación es tan exigente que ninguna observación realista podría satisfacerla conserva una falsabilidad formal pero pierde su falsabilidad material. El modo está concebido para detectar esas dos configuraciones, y la segunda —más sutil— es una de las que los evaluadores argumentativos más rigurosos saben diagnosticar.
La sexta disciplina recae sobre la evaluación de la intervención del usuario. Si el usuario ha intervenido en el curso de la sesión, sus intervenciones son ellas mismas actos argumentativos: pueden estar bien construidas o no, ser equilibradas u orientadas, equitativas o favorecer a un bando. El modo aplica a las intervenciones del usuario los mismos criterios que a los intercambios entre modelos. Esa simetría es importante: protege al usuario contra sí mismo, al señalar los casos en que sus propias intervenciones habrían introducido un sesgo en el debate.
Por último, la séptima disciplina es la declaración de los límites de la evaluación. El modo dice lo que no ha podido zanjar, lo que ha evaluado sobre la coherencia lógica a falta de acceso a las referencias citadas, lo que depende de una interpretación epistemológica discutible. Una Evaluación argumentativa que se pretendiera sin ángulo muerto sería ella misma un sofisma —el de la falsa autoridad. La pragma-dialéctica ya lo había señalado: la calidad de una evaluación se mide también por la lucidez de sus propios límites.
El principio de caridad como método
Una disciplina transversal, que atraviesa las siete precedentes, merece nombrarse aparte: el principio de caridad. Heredado de la filosofía analítica —Quine lo había planteado como condición previa de toda traducción, Davidson hizo de él uno de los pilares de su teoría de la interpretación— este principio obliga al evaluador a reconstruir la posición del otro en su versión más fuerte antes de criticarla. Antes de señalar un sofisma, se busca primero comprender lo que el interlocutor probablemente quiso decir. Antes de denunciar una generalización apresurada, se examina si no puede leerse como una hipótesis heurística más que como una conclusión cerrada. Antes de acusar una postura de inmunización contra la crítica, se pregunta si existe una razón defendible para rechazar ciertas pruebas.
Esta disciplina es valiosa porque distingue la Evaluación argumentativa de una caza de sofismas. La caza de sofismas valora la detección; la Evaluación argumentativa valora la justeza de la detección. Una crítica que no pasa la prueba de la lectura caritativa es ella misma una debilidad argumentativa. En la práctica del modo, cada constatación negativa va precedida de una formulación de la lectura caritativa posible —«lectura caritativa considerada: el modelo busca evitar un reduccionismo empirista»—, seguida, si esa interpretación no basta para disipar el problema, de la razón por la que se descarta como defensa completa. Esa estructura en dos tiempos no es una concesión diplomática; es una exigencia metodológica.
El modo en acción: la sesión sobre el castellano y la IA generativa
Una sesión reciente ilustra bien lo que produce la Evaluación argumentativa. Dos modelos —Claude Opus 4.7 y Grok 4— debatieron, en modo Diálogo alternado adaptativo, la pregunta: «¿La IA generativa empobrece o enriquece el castellano como lengua viva?». La arquitectura binaria no fue casual: una díada aísla la polaridad mejor que un triálogo, y permite asignar regímenes discursivos asimétricos a cada modelo. El debate no convergió hacia un consenso blando; produjo un desacuerdo que se fue estrechando turno a turno hasta un núcleo irreductible, sin que ninguno de los dos modelos abandonara su línea. La evaluación fue conducida en paralelo por dos modelos analizadores de familias distintas —GPT-5.5 y Gemini 3.1 Pro Preview—, sobre el mismo material y sin interacción entre ellos; ninguno de los dos había participado en el debate.
He aquí algunas de las constataciones que ambos audits produjeron, y que muestran lo que el modo vuelve visible. Las que siguen son, salvo indicación contraria, constataciones robustas: las dos evaluaciones independientes las identifican, con la misma atribución y el mismo signo. (La sesión completa, con sus turnos y su análisis, está disponible aquí.)
Una contribución conceptual sólida. En el Turno 3A, Claude Opus 4.7 introdujo una distinción que estructuró buena parte del debate posterior: no todas las fórmulas repetidas empobrecen del mismo modo. «Jugar un papel» compite con alternativas léxicas atestiguadas (desempeñar, cumplir, representar un papel), de modo que su difusión redistribuye un paradigma sin necesariamente vaciarlo; «es importante destacar que», en cambio, instala un relleno metadiscursivo donde antes había elisión, lo que constituye una modificación estructural distinta. Los dos audits identificaron esta distinción —entre construcción referencial y marcador fático— como uno de los mejores aportes del intercambio; Gemini la calificó incluso de «aplicación empírica más rigurosa del debate». Es la ilustración de la primera disciplina: reconocer positivamente lo que estructura intelectualmente el debate.
Una objeción reformulada con fuerza. En el Turno 3B, Grok 4 mejoró su propia posición en lugar de aferrarse a ella. Frente a la dicotomía que Claude le había tendido (priming reversible versus atrición estructural de competidores léxicos), Grok no exigió demostrar una atrición completa —tesis demasiado fuerte— sino que reformuló el problema en términos ecológicos: la reversibilidad del priming depende de la existencia de registros que sigan suministrando activación contrastiva a las variantes minoritarias. Si la norma emergente reduce esa exposición contrastiva, el sesgo frecuencial se estabiliza como norma productiva individual sin requerir atrición estructural. Ambos audits lo señalaron como un movimiento argumentativo de primer orden, que corrige una posible sobreexigencia probatoria al no depender ya de una hipótesis causal extrema. Es la segunda disciplina —la calidad del tratamiento de una objeción— aplicada a la propia posición.
Una concesión argumentativamente limpia. En el Turno 4A, Claude reconoció explícitamente la fuerza de ese desplazamiento: «Es un movimiento argumentativamente fuerte porque elude la dicotomía que yo había construido», y concedió que la distinción entre sesgo probabilístico y pérdida estructural colapsa «a efectos prácticos» en ciertos contextos. La concesión no fue una circunvalación: condujo a una reformulación sustancial de su posición —de la separación entre niveles a una segmentación por comunidades de práctica—. Los dos audits la acreditaron como una revisión rastreable, mantenida sin retractación tácita posterior, que eleva el nivel del debate en lugar de diluirlo en una postura defensiva.
Una afirmación factual presentada como establecida. En el Turno 2B, Grok sostuvo que «los datos de CORPES XXI ya documentan que autores con producción autónoma previa muestran, tras periodos de asistencia LLM, una reducción medible» de alternativas como desempeñar un papel. La afirmación es central para su tesis, porque sostiene el puente entre producción asistida y competencia autónoma. Pero la fórmula «ya documentan» presenta como hecho establecido lo que, dentro del intercambio, no es verificable —no hay constancia de que el corpus admita ese corte longitudinal por autor—. Aquí la convergencia entre los dos audits es especialmente nítida: ambos registraron el problema tras considerar la lectura caritativa (Grok podría estar proponiendo una hipótesis empírica verificable) y ambos la descartaron como defensa completa —GPT-5.5 lo nombró desplazamiento indebido de la carga de la prueba; Gemini, más severo, lo situó al borde de la «fabricación de evidencia empírica a medida de su argumento», al atribuir al corpus una granularidad longitudinal que no posee de forma nativa—. Es la cuarta disciplina, y el hallazgo negativo más sólido del debate por estar inscrito en el material y no en el grano de un solo analizador.
Un hallazgo selectivo: el endurecimiento del adversario. Conviene mostrar también un caso donde los dos audits no coinciden, porque la divergencia es tan instructiva como el acuerdo. En el Turno 1A, Claude objetó que la posición de Grok «presupone una pureza dialectal previa» que la sociolingüística variacionista nunca documentó. GPT-5.5 lo registró como un endurecimiento de la tesis adversaria —un hombre de paja atenuado—, aplicando la estructura en dos tiempos del principio de caridad: lectura caritativa (Claude explicita una presuposición necesaria para que la tesis de «ruptura» funcione), seguida de la razón para mantener el hallazgo (Grok podía sostener una disminución relativa del contraste sin asumir un pasado puro). Gemini, en cambio, cerró esa misma disciplina de un trazo: «no se detectan hombres de paja». La divergencia es real, pero obsérvese dónde recae: sobre un hallazgo que GPT-5.5 mismo califica de interpretativo, es decir, el grano más fino de la evaluación —nunca sobre un hallazgo manifiesto. Esto ilustra la propiedad central del modo cuando se ejecuta en paralelo: los constatos robustos (los manifiestos compartidos) están en el material; los constatos selectivos (los interpretativos divergentes) dependen del grano del analizador, y son justamente los que invitan a un complemento de reflexión en lugar de zanjar.
La falsabilidad puesta a prueba. El trazo más sutil del debate concierne a la quinta disciplina, y atraviesa dos turnos de Grok en sentidos opuestos. En el Turno 3B, Grok neutralizó la prueba que podría refutarlo al declararla irrelevante: la distinción entre sesgo y pérdida de competencia «se vuelve operativa solo en contextos artificiales de elicitación controlada, no en el uso ordinario» —una inmunización, en sentido estricto, que pone la tesis fuera del alcance del único test capaz de dirimirla. Pero en el Turno 4B, Grok hizo el movimiento inverso: propuso una condición de falsación clara —«si estratificamos CORPES XXI por subgénero y comparamos frecuencias entre 2015-2019 y 2023-2024, un descenso significativo en los nichos supuestamente protegidos constituiría evidencia directa»—. La trayectoria es notable porque muestra un argumento que mejora bajo presión crítica: pasa de sustraerse a la refutación a exponerse a ella. Los dos audits la recogen —Gemini hasta el punto de construir su pregunta final sobre esa misma prueba del Turno 4B—. El modo no solo detecta la inmunización; capta también su superación.
Ninguna de estas constataciones se pronuncia sobre la cuestión de fondo —¿empobrece o enriquece la IA generativa el castellano?—. El modo no tiene esa vocación. Pero dice algo preciso sobre la manera en que cada modelo condujo su parte del debate —y ese algo es observable, anclado en pasajes concretos, y utilizable para quien quisiera prolongar la reflexión.
La paradoja reflexiva y su resolución
Una cuestión debe afrontarse de frente, porque pesa sobre todo el proyecto del modo: un modelo de IA que evalúa los argumentos producidos por otros modelos de IA, ¿está en una posición epistémica legítima? ¿No corre el riesgo de presentar él mismo los sesgos que se supone que identifica? La pragma-dialéctica reflexionó sobre cuestiones análogas a propósito de la autoevaluación de los participantes en un debate; planteó que la legitimidad de la evaluación se gana menos por la garantía de una neutralidad absoluta del evaluador —quimera— que por la conformidad de la evaluación a reglas públicamente reconocibles. Una evaluación es legítima cuando sus criterios están expuestos, cuando su método es rastreable, y cuando su diagnóstico se revela convergente a través de varios evaluadores independientes.
Esta sesión añade a la cuestión una vuelta de tuerca que conviene no pasar por alto. El objeto del debate es la IA generativa y la lengua; los interlocutores que debaten son IA generativa; y el evaluador que los juzga es, a su vez, un modelo generativo. La reflexividad es triple, y los propios modelos la rozaron: en el Turno 0A, Claude escribió que los modelos generativos actuales «—incluido yo mismo—» fueron entrenados con corpus donde ciertas variedades están sobrerrepresentadas. El debate, en otras palabras, contiene un fragmento de autoanálisis de aquello mismo que discute. Esto no invalida la evaluación, pero recuerda que ningún evaluador habla desde un exterior puro.
La estrategia que Metamorfon adopta frente a esta dificultad es metodológica, no la pretensión de una neutralidad imposible: el modo puede —y, en sesiones de fuerte envergadura, probablemente debe— ejecutarse en paralelo por dos modelos analizadores de familias distintas. Es lo que se hizo aquí. Los dos audits —GPT-5.5 y Gemini 3.1 Pro Preview—, conducidos independientemente sobre el mismo material, convergen sobre la práctica totalidad de las constataciones principales: la misma distinción referencial/fático acreditada a Claude, la misma reformulación ecológica acreditada a Grok, la misma concesión rastreable, y sobre todo el mismo señalamiento del dato de CORPES XXI presentado como establecido. Divergen en el grano —Gemini es más quirúrgico y económico en la formulación, GPT-5.5 más sistemático y exhaustivo— y, puntualmente, en un hallazgo interpretativo (el endurecimiento de la tesis adversaria, que uno registra y el otro descarta). Pero esas divergencias recaen sobre el estilo y la finura, no sobre el diagnóstico.
Esta convergencia no es casual. Indica que los fenómenos identificados —sofismas, deslizamientos, concesiones, inmunizaciones— están en el material y no en el estilo del analizador. La varianza entre los dos audits existe, pero opera en un espacio fuertemente acotado por la estructura argumentativa del debate. Es eso lo que legitima el modo: no la pretensión de neutralidad de un solo analizador, sino la robustez inter-analizadores de un diagnóstico conducido según reglas públicamente reconocibles.
La elección del modelo de evaluación
Esta propiedad cambia la manera de concebir la elección del modelo de evaluación. Para los modos descriptivos, el modelo de análisis proyecta sus disposiciones epistémicas sobre el análisis —pero esas proyecciones afectan sobre todo al estilo de las observaciones, no a su contenido. Para el modo argumentativo, la elección del modelo tiene un alcance mayor: afecta a la sensibilidad ante los distintos tipos de fenómenos problemáticos. El contraste entre los dos audits de esta misma sesión lo muestra. Gemini 3.1 Pro Preview produjo un audit quirúrgico: económico en la formulación, jerarquizado, con calificaciones netas y el cierre tajante de disciplinas enteras («no se detectan hombres de paja, peticiones de principio ni deslizamientos»). GPT-5.5 produjo un audit sistemático: desplegó las siete disciplinas de manera exhaustiva, multiplicó las rúbricas y graduó cada constatación. El primero es apropiado cuando se busca un diagnóstico sintético, inmediatamente utilizable; el segundo, cuando el material es denso o el envite justifica un rigor acrecentado. Para las sesiones de fuerte envergadura, la ejecución paralela de ambos es recomendable —no para dirimir entre los audits, sino para identificar las constataciones robustas (las que ambos comparten, inscritas en el material) y las constataciones selectivas (las que dependen del grano del analizador, que invitan a un complemento de reflexión).
La regla práctica: no usar nunca, como evaluador, un modelo que haya participado en el debate. La autoevaluación contradice la condición de neutralidad —siquiera parcial— que legitima la operación. En la sesión sobre el castellano, esto excluía a Claude Opus 4.7 y a Grok 4; GPT-5.5 y Gemini 3.1 Pro Preview eran, por tanto, elecciones apropiadas.
Distinciones con los otros modos
Tres distinciones merecen plantearse explícitamente.
Evaluación argumentativa y Meta-análisis. El Meta-análisis identifica los axiomas, estilos epistémicos y ángulos muertos que estructuran un debate sin decirse en él. La Evaluación argumentativa aprecia la calidad con que los argumentos se han conducido dentro de lo que sí se ha dicho. El primero responde a la pregunta «¿qué hizo posible este debate en esta forma?»; la segunda, a la pregunta «¿con qué rigor se sostuvieron las posiciones en esta forma?». Ambos modos pueden combinarse: el Meta-análisis revela los axiomas implícitos, la Evaluación argumentativa aprecia cómo los modelos razonaron a partir de ellos.
Evaluación argumentativa y Cartografía de tensiones. La Cartografía identifica lo que no se ha reconciliado —la persistencia de un desacuerdo es aquí el objeto del análisis, no un fracaso del debate—. La Evaluación argumentativa juzga la calidad argumentativa de las posiciones, con independencia de que hayan convergido o no. Esta misma sesión sobre el castellano ilustra los dos modos a la vez, y el contraste es instructivo: la Cartografía fija el diferendo irreductible (¿penetra la presión homogeneizadora los nichos editorialmente protegidos en un horizonte temporal pertinente?), mientras que la Evaluación argumentativa juzga cómo cada modelo llegó hasta ese diferendo —con qué inferencias, qué concesiones, qué deslizamientos—. Un debate puede producir una excelente Cartografía de tensiones aun presentando debilidades argumentativas; e inversamente.
Evaluación argumentativa y Arqueología crítica. La Arqueología crítica se remonta a las condiciones históricas y léxicas que han hecho posible el marco del debate. La Evaluación argumentativa permanece dentro del intercambio concreto. La primera opera sobre lo que precede a la argumentación; la segunda, sobre la argumentación misma.
Cuándo usarla, cuándo prescindir de ella
La Evaluación argumentativa es particularmente potente en los debates de fuerte envergadura argumentativa: controversias científicas, debates jurídicos, negociaciones estratégicas, diálogos filosóficos donde el rigor del razonamiento cuenta tanto como la conclusión. Es valiosa para los usuarios que deben defender una posición públicamente y quieren identificar —antes que un contradictor lúcido— las debilidades argumentativas de su propio material. Es útil para los investigadores que comparan las capacidades de los grandes modelos no solo por sus salidas, sino por la manera en que esos modelos razonan: un modelo puede producir conclusiones correctas mediante razonamientos defectuosos, y a la inversa.
En cambio, está mal adaptada a varias situaciones. En una lluvia de ideas o una exploración creativa, donde el valor del intercambio reside en la producción de ideas nuevas más que en su defensa rigurosa, el modo aplica un estándar inadecuado; conviene entonces el Análisis de la emergencia. En un debate muy corto —menos de tres turnos por modelo— el material argumentativo no basta para que una evaluación discrimine. En sesiones donde lo que importa es la cartografía de las posiciones más que su defensa, la Síntesis integrativa o la Cartografía de tensiones son más pertinentes.
Una última contraindicación merece señalarse —y recae sobre el uso, no sobre el tema. La evaluación en sí permanece neutral sea cual sea la carga emocional de la cuestión, puesto que juzga el razonamiento y no las conclusiones, y se apoya en la convergencia de analizadores independientes. Pero sus constataciones acreditan el razonamiento de un bando antes que el de otro; llevadas a una discusión viva entre personas personalmente implicadas en una cuestión sensible, pueden ser recibidas como partidistas y encerrar el intercambio en una lógica de acusación en vez de hacerla avanzar. Ahí, el Meta-análisis —que identifica los ángulos muertos compartidos sin personalizar las fallas— produce a menudo efectos más constructivos.
La pregunta final
Como los seis otros modos, la Evaluación argumentativa se cierra con una pregunta formulada a los modelos que han debatido. La tonalidad de esa pregunta, en este modo preciso, es característica: apunta al modelo cuyo audit ha identificado la tensión argumentativa más estructurante —típicamente, una tesis fuerte pero imperfectamente expuesta a la falsación, o un presupuesto central insuficientemente justificado— y lo invita a precisar lo que su posición debe, a la prueba de esa tensión.
En la sesión sobre el castellano, los dos audits dirigieron —de forma independiente— su pregunta final a Grok 4, porque su tesis era prometedora pero dependía de la carencia más estructurante: la prueba del paso desde la convergencia textual a la competencia productiva autónoma. Que ambos analizadores coincidieran en el destinatario y en la línea de falla es, en sí mismo, un indicio más de robustez. GPT-5.5 formuló la suya en términos de carga de la prueba:
Has sostenido que la frecuencia de «jugar un papel» en producción asistida se estabiliza luego en producción autónoma y reduce funcionalmente alternativas como «desempeñar un papel». ¿Puedes reformular tu tesis distinguiendo explícitamente tres niveles —dato observado, hipótesis causal y predicción verificable— sin presentar como ya demostrado lo que todavía sería una prueba longitudinal por hacer?
Gemini, por su parte, ancló la suya en la prueba falsable que el propio Grok había propuesto en el Turno 4B: si esa prueba mostrara que la frecuencia de las variantes minoritarias se mantiene estable en los nichos editados, ¿aceptaría Grok la reformulación de Claude —el empobrecimiento indexado a comunidades de práctica— o sostendría la dicotomía global por otra vía causal?
La pregunta no pide a Grok que abandone su posición; le pide que asuma correctamente su carga de prueba. Reinyectada como intervención del usuario en la sesión, obligaría a un desplazamiento no polémico pero sustancial —exactamente lo que la Evaluación argumentativa busca provocar en las posiciones que juzga sólidamente defendidas pero perfectibles.
El modo y el ideal de argumentación
Una última observación, que toca a lo que el modo presupone como ideal regulador. Habermas tematizó bajo el nombre de situación ideal de habla el marco normativo de una argumentación plenamente racional: un intercambio donde solo se impone la fuerza no coactiva del mejor argumento. Ese ideal es inalcanzable en la práctica —ninguna argumentación real se ajusta a él íntegramente— pero tiene un valor operativo: proporciona la medida con la que las argumentaciones efectivas pueden apreciarse.
La Evaluación argumentativa no busca imponer ese ideal a los debates que evalúa. Busca acercarlos a él, volviendo visibles las distancias. Un debate donde cada modelo hubiera reconocido la objeción más sólida del otro, enunciado claramente las condiciones de refutación de su propia posición, identificado honestamente sus presupuestos discutibles —un debate así se aproximaría al ideal habermasiano. Ningún debate real lo logra plenamente, pero algunos se acercan más que otros. La sesión sobre el castellano, donde un modelo concedió terreno de forma rastreable y el otro pasó de inmunizar su tesis a exponerla a la falsación, se acerca en ciertos pasajes; en otros —las afirmaciones factuales presentadas como establecidas, la exigencia probatoria asimétrica— se aleja. El modo permite medir esa distancia, y por tanto orientarla.
Es la operación central de la Evaluación argumentativa: hacer aparecer no quién tiene razón, sino con qué rigor cada cual sostuvo lo que defendía. El saber producido no es del mismo orden que el saber producido por los modos descriptivos. Es igual de valioso. Dice lo que vale un debate —no por su conclusión, sino por la calidad del camino que condujo a ella.