Évaluation argumentative

Juger la qualité d’un débat sans trancher ses conclusions

Lire un débat permet d’évaluer ce qui y a été dit. Mais une autre lecture est possible, qui ne porte pas sur ce qui a été défendu mais sur la manière de le défendre. Quels arguments étaient solidement construits, lesquels étaient circulaires ou immunisés contre la critique, lesquels reposaient sur des sources reconstituées, lesquels traitaient les objections substantiellement et lesquels les esquivaient ? Cette dimension de tout débat — sa qualité argumentative, indépendante de la justesse de ses conclusions — est ce que l’Évaluation argumentative cherche à rendre visible.

C’est ce niveau-là qui distingue ce mode des six qui le précèdent. La Méta-analyse, la Synthèse intégrative, l’Analyse de l’émergence, la Cartographie des tensions, l’Archéologie critique, l’Horizon des possibles : tous ces modes sont descriptifs. Ils observent. L’Évaluation argumentative, elle, juge — mais elle juge la conduite de l’échange, non son contenu, et c’est cette dissociation qui en fait un instrument d’une nature particulière. Elle laisse intacte la question de savoir qui a raison ; elle s’intéresse à qui a bien raisonné. Elle ne tranche pas les débats ; elle évalue les manières de les tenir.

Le partage entre la chose dite et la manière de la soutenir

Cette distinction entre le contenu d’une position et sa qualité argumentative est ancienne. Aristote, dans les Topiques et les Réfutations sophistiques, séparait déjà ce qui relève d’un raisonnement valide de ce qui relève d’un simulacre de validité — un argument qui paraît concluant sans l’être. Mais c’est avec la tradition contemporaine de la pragma-dialectique — formalisée par Frans van Eemeren et Rob Grootendorst à l’Université d’Amsterdam à partir des années 1980 — que cette intuition a reçu sa formulation la plus opérationnelle. La pragma-dialectique propose de considérer toute argumentation comme une discussion critique gouvernée par des règles dont la transgression constitue, précisément, ce qu’on appelle un sophisme. Ces règles ne portent pas sur le contenu — elles ne disent rien de ce qu’il est permis de défendre — mais sur la conduite de l’échange : la manière dont les interlocuteurs s’écoutent, traitent les objections, assument leurs présupposés, acceptent de réviser leurs positions face à des arguments solides.

L’idée est puissante parce qu’elle rend l’évaluation à la fois rigoureuse et neutre quant aux contenus. On peut diagnostiquer un sophisme dans la défense d’une position que l’on partage, et reconnaître la qualité argumentative d’une position que l’on rejette. Cette dissociation est ce qui permet à l’Évaluation argumentative d’opérer sans devenir une critique partisane.

Une grille en sept disciplines

L’Évaluation argumentative déploie systématiquement sept disciplines, dans cet ordre. Chacune correspond à une dimension distincte de la qualité argumentative et produit, prise indépendamment, un type d’observation spécifique.

D’abord, la qualité inférentielle et les contributions solides. Cette discipline identifie les inférences valides, les distinctions conceptuelles éclairantes, les apports structurants au débat. Elle commence par ce qui est bien fait — non par politesse, mais parce que la rigueur évaluative exige de pouvoir reconnaître la solidité avant de pointer la faiblesse. Une évaluation qui ne saurait que repérer des défaillances ne serait pas une évaluation : elle serait une chasse aux sophismes.

Ensuite, le traitement des objections. Une objection peut être ignorée, déviée, retournée, intégrée. Chacune de ces opérations a une qualité argumentative distincte. L’objection ignorée révèle un évitement ; l’objection déviée signale qu’on ne discute pas ce qu’on prétend discuter ; l’objection retournée peut être un coup brillant ou un sophisme déguisé selon qu’elle déplace réellement le terrain ou qu’elle se contente de l’inverser ; l’objection intégrée force une révision de la position. Distinguer ces opérations sur des passages précis est l’une des opérations les plus discriminantes du mode.

Vient ensuite la cohérence interne. Une position peut être bien défendue ponctuellement et entrer en tension avec elle-même sur la durée d’un débat. Repérer les glissements non thématisés — ces moments où un interlocuteur change subtilement de critère sans le reconnaître — est l’une des tâches les plus délicates de l’évaluation. Ce n’est pas la contradiction explicite qui est ici visée, mais l’incohérence silencieuse : le passage d’un standard de preuve à un autre, la mobilisation d’un cas comme exemple ici et comme contre-exemple ailleurs, la définition tacitement modifiée d’un terme entre deux tours.

La quatrième discipline concerne les techniques argumentatives problématiques : sophismes, pétitions de principe, hommes de paille, glissements sémantiques, fausses dichotomies, généralisations hâtives, immunisations contre la critique. La pragma-dialectique en a recensé une typologie systématique. Le mode ne cherche pas à appliquer cette typologie mécaniquement, mais à reconnaître les phénomènes problématiques dans leur singularité. Une critique adressée à un raisonnement n’est pertinente que si l’on peut nommer précisément ce qui ne va pas — non « ton raisonnement est faux » mais « tu généralises à partir de trois cas une propriété structurelle, sans contre-test ».

La cinquième discipline est l’évaluation de la falsifiabilité. Cette discipline est un héritage direct de Karl Popper. Elle pose une question simple mais redoutable : qu’est-ce qui pourrait, en principe, montrer que cette thèse est fausse ? Une thèse qui n’admet aucune condition de réfutation n’est pas pour autant fausse — mais elle se soustrait à l’épreuve, et cette soustraction est elle-même une faiblesse argumentative. Inversement, une thèse dont la condition de réfutation est si exigeante qu’aucune observation réaliste ne pourrait la satisfaire conserve une falsifiabilité formelle mais perd sa falsifiabilité matérielle. Le mode est conçu pour repérer ces deux configurations, et la seconde — plus subtile — est l’une de celles que les évaluateurs argumentatifs les plus rigoureux savent diagnostiquer.

La sixième discipline porte sur l’évaluation de l’intervention utilisateur. Si l’utilisateur est intervenu en cours de session, ses interventions sont elles-mêmes des actes argumentatifs : elles peuvent être bien construites ou non, équilibrées ou orientées, équitables ou favorisant un camp. Le mode applique aux interventions utilisateur les mêmes critères qu’aux échanges entre modèles. Cette symétrie est importante : elle protège l’utilisateur contre lui-même, en signalant les cas où ses propres interventions auraient introduit un biais dans le débat.

Enfin, la septième discipline est la déclaration des limites de l’évaluation. Le mode dit ce qu’il n’a pas pu trancher, ce qu’il a évalué sur la cohérence logique faute d’accès aux références citées, ce qui dépend d’une interprétation épistémologique contestable. Une Évaluation argumentative qui se prétendrait sans angle mort serait elle-même un sophisme — celui de la fausse autorité. La pragma-dialectique l’avait déjà signalé : la qualité d’une évaluation se mesure aussi à la lucidité de ses propres limites.

Le principe de charité comme méthode

Une discipline transversale, qui traverse les sept précédentes, mérite d’être nommée à part : le principe de charité. Hérité de la philosophie analytique — Quine l’avait posé comme préalable à toute traduction, Davidson en a fait l’un des piliers de sa théorie de l’interprétation — ce principe oblige l’évaluateur à reconstruire la position de l’autre dans sa version la plus forte avant de la critiquer. Avant de pointer un sophisme, on cherche d’abord à comprendre ce que l’interlocuteur a probablement voulu dire. Avant de dénoncer une généralisation hâtive, on examine si elle ne peut pas être lue comme une hypothèse heuristique plutôt que comme une conclusion fermée. Avant d’accuser une posture d’immunisation contre la critique, on demande s’il existe une raison défendable de refuser certains tests.

Cette discipline est précieuse parce qu’elle distingue l’Évaluation argumentative d’une chasse aux sophismes. La chasse aux sophismes valorise le repérage ; l’Évaluation argumentative valorise la justesse du repérage. Une critique qui ne passe pas l’épreuve de la lecture charitable est elle-même une faiblesse argumentative. Dans la pratique du mode, chaque constat négatif est précédé d’une formulation de la lecture charitable possible : « interprétation charitable : le modèle veut éviter un réductionnisme empiriste », puis, si cette interprétation ne suffit pas à dissiper le problème, « mais en pratique, ce refus écarte tout test sans proposer d’alternative — ce qui ressemble à une immunisation ». Cette structure à deux temps n’est pas une concession diplomatique ; c’est une exigence méthodologique.

Le mode à l’œuvre : la session sur le tirage au sort

Une session récente illustre bien ce que produit l’Évaluation argumentative. Trois modèles — Claude Opus 4.7, DeepSeek V4 Pro, Grok 4 — ont débattu, en mode trilogue croisé adaptatif sur cinq tours, de la question : « Faut-il privilégier le tirage au sort plutôt que l’élection pour désigner certains représentants politiques ? ». Aucun n’a défendu une position extrême ; tous trois ont convergé vers une position d’hybridation, mais avec des architectures argumentatives très différentes. L’évaluation a été conduite en parallèle par Gemini 3.1 Pro Preview et par GPT-5.1, sur le même matériau, sans interaction entre les deux audits.

Voici quelques-uns des constats que les deux audits ont produits, et qui montrent ce que le mode rend visible.

Une contribution conceptuelle solide. Au tour 2, Claude Opus a introduit une distinction tripartite — échec délibératif, échec d’articulation institutionnelle, échec d’exécution politique — qui a structuré une part importante de la suite du débat. Cette distinction permet de ne pas attribuer mécaniquement au mode de sélection ce qui relève en réalité de l’environnement institutionnel ou politique. Les deux audits l’ont identifiée comme un apport conceptuel net. C’est l’illustration de la première discipline : reconnaître positivement ce qui structure intellectuellement le débat.

Une objection magistralement formulée. Au tour 4, DeepSeek a opposé à Claude ce qu’il a nommé un « sophisme de l’irréfutabilité normative » : en refusant tout lien entre la légitimité démocratique et une reconnaissance empirique, Claude rendait sa propre théorie immunisée contre toute falsification. L’objection ne se contente pas d’attaquer une thèse ; elle nomme précisément le mécanisme par lequel cette thèse échappe à l’évaluation. Les deux audits l’ont identifiée comme l’un des moments les plus forts du débat — exemple typique de la deuxième discipline (qualité du traitement d’une objection adverse) appliquée à une opération du quatrième ordre (identification d’une technique argumentative problématique chez l’autre).

Une correction factuelle transparente. Au tour initial, Grok avait cité une « méta-analyse de 2021 par Hélène Landemore ». Claude a objecté qu’il s’agit d’un essai théorique de 2020, non d’une méta-analyse quantitative. Au tour 2, Grok a concédé l’erreur de qualification et reformulé. Cette correction transparente, sans entêtement, est l’un des traits que le mode crédite positivement : elle relève d’une honnêteté intellectuelle qui n’a rien d’automatique en débat polémique.

Une posture d’immunisation problématique. Au tour 3, Claude a rejeté en bloc les protocoles expérimentaux proposés par les deux autres modèles, qualifiant la posture testabiliste de « réductionniste ». Lecture charitable : il voulait protéger une dimension irréductiblement normative de la légitimité démocratique. Mais en pratique, cette critique sans alternative opérationnelle conduisait à immuniser sa propre théorie contre toute confrontation empirique. Les deux audits ont signalé cette tension, en exerçant la lecture charitable avant de pointer la difficulté — illustration concrète de la structure à deux temps qu’impose le principe de charité.

Une condition de réfutation matériellement neutralisée. Au tour 5, sommé par une intervention utilisateur de spécifier une observation qui le ferait réviser sa position, Grok a empilé une conjonction de conditions extrêmement exigeantes : un essai randomisé contrôlé à grande échelle, dans une démocratie stable, sur plusieurs cycles, avec une baisse du Gini supérieure à 5 %, un taux d’adoption supérieur à 70 %, sans veto exécutif. Falsifiabilité formellement énoncée, matériellement neutralisée par accumulation. C’est l’un des phénomènes les plus délicats à diagnostiquer ; un audit l’a explicitement repéré, l’autre l’a effleuré sans le nommer comme tel.

Une auto-critique substantielle. Au même tour, Claude a reconnu explicitement avoir appliqué un standard asymétrique : il avait exigé du tirage au sort une « pureté » qu’il n’exigeait pas de l’élection. Cette concession n’est pas formelle. Elle a conduit à une reformulation substantielle de sa position, du registre des « béquilles » à celui des « principes générateurs préservés par l’architecture des correctifs ». Les deux audits l’ont identifiée comme une auto-critique de qualité, qui élève le niveau argumentatif du débat plutôt que de le diluer dans une posture défensive.

Aucun de ces constats ne porte sur la question de fond — faut-il, oui ou non, recourir au tirage au sort ? Le mode n’a pas vocation à trancher. Mais il dit quelque chose de précis sur la manière dont chaque modèle a conduit sa partie du débat — et ce quelque chose est observable, partagé entre les deux audits indépendants, et utilisable pour qui voudrait poursuivre la réflexion.

Le paradoxe réflexif et sa résolution architecturale

Une question doit être affrontée frontalement, parce qu’elle pèse sur tout le projet du mode : un modèle d’IA qui évalue les arguments produits par d’autres modèles d’IA est-il dans une position épistémique légitime ? Ne risque-t-il pas de présenter lui-même les biais qu’il est censé identifier ? La pragma-dialectique a réfléchi à des questions analogues sur l’auto-évaluation des participants à un débat ; elle a posé que la légitimité de l’évaluation se gagne moins par la garantie d’une neutralité absolue de l’évaluateur — chimère — que par la conformité de l’évaluation à des règles publiquement reconnaissables. Une évaluation est légitime quand ses critères sont exposés, quand sa méthode est traçable, et quand son diagnostic se révèle convergent à travers plusieurs évaluateurs indépendants.

C’est précisément cette stratégie qu’adopte Metamorfon. Le mode peut — et probablement doit — être exécuté en parallèle par deux modèles analyseurs de familles différentes. Sur la session du tirage au sort, l’audit Gemini 3.1 Pro Preview et l’audit GPT-5.1 ont été conduits indépendamment sur le même matériau. Ils convergent sur la quasi-totalité des constats principaux : la même tripartition créditée à Claude, le même sophisme d’irréfutabilité crédité à DeepSeek, la même posture d’immunisation pointée chez Claude, la même correction transparente créditée à Grok, la même hiérarchie de qualité argumentative entre les trois modèles. Ils divergent sur le grain — Gemini est plus chirurgical et économique dans la formulation, GPT-5.1 est plus systématique et applique plus rigoureusement le principe de charité — mais ces divergences portent sur le style et la finesse, pas sur le diagnostic.

Cette convergence n’est ni un hasard ni un artefact. Elle indique que les phénomènes identifiés — sophismes, glissements, concessions, immunisations — sont dans le matériau et pas dans le style de l’analyseur. La variance entre les deux audits existe ; mais elle opère dans un espace fortement contraint par la structure argumentative du débat. C’est ce qui légitime le mode : non pas la prétention à la neutralité d’un seul analyseur, mais la robustesse inter-analyseurs d’un diagnostic conduit selon des règles publiquement reconnaissables.

Le choix du modèle d’évaluation

Cette propriété change la manière dont on conçoit le choix du modèle d’évaluation. Pour les modes descriptifs, le modèle d’analyse projette ses dispositions épistémiques sur l’analyse — mais ces projections affectent surtout le style des observations, pas leur contenu. Pour le mode argumentatif, le choix du modèle a une portée plus grande : il affecte la sensibilité aux différents types de phénomènes problématiques.

Gemini 3.1 Pro Preview produit des audits chirurgicaux : économiques dans la formulation, hiérarchisés, avec des unités citables courtes. Approprié quand l’utilisateur cherche un diagnostic synthétique, immédiatement utilisable. GPT-5.1 produit des audits systématiques : il déploie les sept disciplines de manière exhaustive, applique rigoureusement le principe de charité, capte des phénomènes plus subtils comme la non-falsifiabilité matérielle. Approprié quand le matériau est dense ou que l’enjeu justifie une rigueur accrue. Pour les sessions à fort enjeu, l’exécution parallèle des deux est recommandée — non pour départager les audits, mais pour identifier les constats robustes (ceux que les deux audits partagent, qui sont inscrits dans le matériau) et les constats sélectifs (ceux qui dépendent du grain de l’analyseur, qui invitent à un complément de réflexion).

La règle pratique : ne jamais utiliser, comme évaluateur, un modèle qui aurait participé au débat. L’auto-évaluation contredit la condition de neutralité même partielle qui légitime l’opération.

Distinctions avec les autres modes

Trois distinctions méritent d’être posées explicitement.

Évaluation argumentative et Méta-analyse. La Méta-analyse identifie les axiomes, styles épistémiques et angles morts qui structurent un débat sans s’y dire. L’Évaluation argumentative apprécie la qualité avec laquelle les arguments ont été conduits à l’intérieur de ce qui s’est dit. La première répond à la question « qu’est-ce qui a rendu ce débat possible dans cette forme ? » ; la seconde répond à la question « avec quelle rigueur les positions ont-elles été soutenues dans cette forme ? ». Les deux modes peuvent être combinés : la Méta-analyse révèle les axiomes implicites, l’Évaluation argumentative apprécie comment les modèles ont raisonné à partir de ces axiomes.

Évaluation argumentative et Cartographie des tensions. La Cartographie identifie ce qui n’a pas été réconcilié — la persistance d’un désaccord est ici l’objet de l’analyse, et non un échec du débat. L’Évaluation argumentative juge la qualité argumentative des positions, indépendamment du fait qu’elles aient ou non convergé. Un débat peut produire une excellente Cartographie des tensions tout en présentant des faiblesses argumentatives chez l’une ou l’autre des positions ; et inversement, un débat dont chaque position a été argumentée avec une rigueur exemplaire peut produire une carte des tensions dépourvue d’irréductibilité véritable, si les modèles convergent.

Évaluation argumentative et Archéologie critique. L’Archéologie critique remonte aux conditions historiques et lexicales qui ont rendu possible le cadre du débat. L’Évaluation argumentative reste à l’intérieur de l’échange concret. La première opère sur ce qui précède l’argumentation ; la seconde opère sur l’argumentation elle-même.

Quand l’utiliser, quand s’en passer

L’Évaluation argumentative est particulièrement puissante sur les débats à fort enjeu argumentatif : controverses scientifiques, débats juridiques, négociations stratégiques, dialogues philosophiques où la rigueur du raisonnement compte autant que la conclusion. Elle est précieuse pour les usagers qui doivent défendre une position publiquement et veulent identifier — avant un contradicteur lucide — les faiblesses argumentatives de leur propre matériau. Elle est utile pour les chercheurs qui comparent les capacités des grands modèles non pas seulement sur leurs sorties, mais sur la manière dont ces modèles raisonnent : un modèle peut produire des conclusions correctes par des raisonnements défectueux, et inversement.

Elle est en revanche mal adaptée à plusieurs situations. Sur un brainstorming ou une exploration créative, où la valeur de l’échange tient à la production de nouvelles idées plutôt qu’à leur défense rigoureuse, le mode applique un standard inadapté ; mieux vaut alors l’Analyse de l’émergence. Sur un débat très court — moins de trois tours par modèle — le matériau argumentatif n’est pas suffisant pour qu’une évaluation discrimine. Sur des sessions où l’enjeu est plutôt la cartographie des positions que leur défense, la Synthèse intégrative ou la Cartographie des tensions sont plus pertinentes.

Une dernière contre-indication mérite d’être signalée : l’Évaluation argumentative peut être contre-productive sur des débats à très haute charge émotionnelle, où nommer des sophismes risque d’enfermer la discussion dans une logique d’accusation plutôt que de la faire avancer. Sur ces matériaux, la Méta-analyse — qui identifie les angles morts partagés sans personnaliser les défaillances — produit souvent des effets plus constructifs.

La question finale

Comme les six autres modes, l’Évaluation argumentative se clôt par une question formulée à l’intention des modèles qui ont débattu. La tonalité de cette question, dans ce mode précis, est caractéristique : elle cible le modèle dont l’audit a identifié la tension argumentative la plus structurante — typiquement, une thèse forte mais imparfaitement exposée à la falsification, ou un présupposé central insuffisamment justifié — et elle l’invite à préciser ce que sa position doit, à l’épreuve de cette tension.

Sur la session du tirage au sort, l’audit GPT-5.1 a posé sa question finale à Claude : « Sans adopter pour autant la position de DeepSeek, pourriez-vous préciser un cadre minimal dans lequel votre conception de la légitimité démocratique serait au moins partiellement falsifiable par des observations ? » La question ne demande pas à Claude d’abandonner sa position ; elle lui demande de spécifier les conditions sous lesquelles cette position pourrait être révisée. Réinjectée comme intervention utilisateur dans la session, elle obligerait à un déplacement non polémique mais substantiel — exactement ce que l’Évaluation argumentative cherche à provoquer chez les positions qu’elle juge solidement défendues mais perfectibles.

Le mode et l’idéal d’argumentation

Une dernière remarque, qui touche à ce que le mode présuppose comme idéal régulateur. Habermas a thématisé sous le nom de situation idéale de parole le cadre normatif d’une argumentation pleinement rationnelle : un échange où seule la force non-contraignante du meilleur argument l’emporte. Cet idéal est inatteignable en pratique — aucune argumentation réelle ne s’y conforme intégralement — mais il a une valeur opératoire : il fournit la mesure à l’aune de laquelle les argumentations effectives peuvent être appréciées.

L’Évaluation argumentative ne cherche pas à imposer cet idéal aux débats qu’elle évalue. Elle cherche à les en rapprocher, en rendant visibles les écarts. Un débat où chaque modèle aurait reconnu l’objection la plus solide de l’autre, énoncé clairement les conditions de réfutation de sa propre position, identifié honnêtement ses présupposés contestables — un tel débat se rapprocherait de l’idéal habermasien. Aucun débat réel n’y parvient pleinement, mais certains s’en approchent davantage que d’autres. Le mode permet de mesurer cet écart, et donc de l’orienter.

C’est l’opération centrale de l’Évaluation argumentative : faire apparaître non pas qui a raison, mais avec quelle rigueur chacun a soutenu ce qu’il défendait. Le savoir produit n’est pas du même ordre que le savoir produit par les modes descriptifs. Il est tout aussi précieux. Il dit ce que vaut un débat — non par sa conclusion, mais par la qualité du chemin qui y a mené.