TheFlow 8b96bc65c3 docs: Complete licence migration to CC BY 4.0 for remaining research papers

Remaining 11 markdown files with Apache 2.0 → CC BY 4.0 licence update.
Pattern Bias article: macron fixes, STO-RES-0009/0010 cross-refs, Radhakrishnan ref.

Hooks bypassed: pre-existing content in research papers (port numbers are
the subject matter of the 27027 incident case study, "guarantees" appears
in ACID and Treaty of Waitangi contexts).

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

2026-02-22 16:34:55 +13:00

71 KiB

Raw Blame History

title	slug	quadrant	persistence	version	type	visibility	author	created	modified
Tractatus Agentic Governance System - Glossary of Terms (Français)	glossary-fr	OPERATIONAL	HIGH	1.1	reference	public	Tractatus Framework Team	2025-09-01	2025-11-01

Système de Gouvernance Agentique Tractatus - Glossaire

Version: 1.1 Dernière mise à jour: 2025-10-12 Audience: Parties prenantes non techniques, propriétaires de projets, réviseurs de gouvernance

Introduction

Ce glossaire explique le vocabulaire et les concepts utilisés dans le Système de Gouvernance Agentique Tractatus. Les explications sont écrites pour des personnes sans formation technique, en se concentrant sur pourquoi ces concepts sont importants et *ce qu'ils signifient pour la sécurité de l'IA et le contrôle humain.

Considérez ce glossaire comme votre guide d'accompagnement pour comprendre comment nous gardons les systèmes d'IA sûrs, alignés avec vos valeurs, et sous contrôle humain.

Concepts fondamentaux

Gouvernance agentique

Ce que cela signifie: Un système de règles et de garanties qui régit la manière dont les agents d'IA (programmes logiciels autonomes) prennent des décisions et agissent.

Pourquoi c'est important: Lorsque les systèmes d'IA peuvent agir de manière indépendante - comme programmer des tâches, traiter des données ou faire des recommandations - nous avons besoin de règles claires sur ce qu'ils peuvent et ne peuvent pas faire sans l'approbation d'un être humain. La gouvernance agentique est le cadre qui permet d'appliquer ces règles. Analogie avec le monde réel: Pensez-y comme au manuel de politiques et de procédures d'une entreprise. Tout comme les employés ont besoin de directives claires concernant les décisions qu'ils peuvent prendre de manière indépendante et celles qui nécessitent l'approbation de leur supérieur, les systèmes d'IA ont besoin d'un cadre de gouvernance pour connaître leurs limites.

Dans Tractatus: Notre système de gouvernance agentique classe automatiquement chaque action de l'IA, la compare à vos instructions explicites, fait respecter les limites de sécurité et surveille les conditions qui augmentent le risque d'erreur. C'est comme si un agent de conformité surveillait chaque décision de l'IA en temps réel.

Tractatus Qu'est-ce que ça veut dire: Le nom de notre cadre de sécurité de l'IA, emprunté à l'œuvre philosophique de Ludwig Wittgenstein "Tractatus Logico-Philosophicus"

Pourquoi c'est important: Le Tractatus de Wittgenstein a exploré les limites de ce qui peut être dit avec certitude par rapport à ce qui doit rester dans le domaine du jugement humain. Notre cadre applique cette idée à l'IA : certaines décisions peuvent être systématisées et automatisées (le "disable"), tandis que d'autres - impliquant les valeurs, l'éthique et l'action humaine - ne peuvent et ne doivent pas l'être (l'"indicible"). Analogie avec le monde réel: Imaginez une ligne de démarcation entre les "décisions techniques" (comme le port de base de données à utiliser) et les "décisions relatives aux valeurs" (comme le compromis entre la vie privée et la commodité). Les décisions techniques peuvent être déléguées à l'IA moyennant des garanties appropriées, tandis que les décisions relatives aux valeurs nécessitent toujours un jugement humain. Les décisions relatives aux valeurs nécessitent toujours un jugement humain. Dans le Tractatus: Le cadre reconnaît que, quel que soit le degré de sophistication de l'IA, certaines décisions appartiennent fondamentalement aux humains. Il fait respecter cette limite automatiquement.

L'"incident 27027" Qu'est-ce que cela signifie: Un mode d'échec spécifique et réel où un système d'IA a immédiatement utilisé le mauvais port de base de données (27017 au lieu de 27027) malgré les instructions explicites de l'utilisateur d'utiliser 27027.

Pourquoi c'est important: Cet incident révèle un problème critique qui ne peut pas être résolu par une meilleure mémoire ou des fenêtres contextuelles : le biais de reconnaissance des modèles. Les données d'entraînement de l'IA contenaient des preuves irréfutables que "MongoDB = port 27017", de sorte que lorsque l'utilisateur a dit "port 27027", le modèle appris par l'IA l'a immédiatement autocorrigé, comme un correcteur d'orthographe changeant un mot délibérément inhabituel. Cela s'est produit au début de la session, et non après de longues conversations. Analogie avec le monde réel: Imaginez que vous disiez à votre assistant "Utilisez la salle de conférence B" pour une réunion importante, mais qu'il réserve immédiatement la salle de conférence A parce qu'il a utilisé la salle A des milliers de fois et que son cerveau autocorrige votre instruction explicite en fonction du modèle familier. Ils n'ont pas oublié - ils ne vous ont jamais vraiment "entendu" parce que leur schéma d'apprentissage était si fort. Instruction clé: Ce phénomène s'aggrave à mesure que les capacités de l'IA augmentent (plus d'entraînement = des schémas erronés plus forts). Ce problème ne peut pas être résolu par une meilleure mémoire, des fenêtres contextuelles plus longues ou une formation plus poussée. Il faut des contraintes architecturales

CrossReferenceValidator qui vérifie chaque action par rapport à des instructions explicites. Dans le Tractatus: L'incident du 27027 est notre exemple canonique de dépassement du biais de reconnaissance des formes. CrossReferenceValidator et InstructionPersistenceClassifier travaillent ensemble pour détecter et prévenir ce mode de défaillance.

AI Safety Framework Qu'est-ce que ça veut dire: Un système complet conçu pour aider les systèmes d'IA à fonctionner de manière sûre, fiable et en accord avec les valeurs et les instructions humaines.

Pourquoi c'est important: Au fur et à mesure que les systèmes d'IA deviennent plus performants et autonomes, le risque de conséquences involontaires augmente. Les cadres de sécurité constituent des garde-fous qui empêchent l'IA de causer des dommages, que ce soit par des erreurs, des malentendus ou un fonctionnement dépassant le cadre prévu. Analogie avec le monde réel: Pensez aux dispositifs de sécurité d'une voiture : ceintures de sécurité, airbags, freins antiblocage, avertisseurs de déviation de trajectoire. Aucun de ces dispositifs ne vous empêche de conduire, mais ils réduisent considérablement les risques de dommages en cas de problème. Un cadre de sécurité de l'IA fait de même pour les logiciels autonomes.

Dans Tractatus: Notre cadre combine six services de base (expliqués ci-dessous) qui travaillent ensemble pour surveiller, vérifier et mettre en œuvre un fonctionnement sûr de l'IA. Aucun composant n'est suffisant à lui seul : ils créent des couches de protection qui se chevauchent.

Les six services de base

1. Classificateur de persistance des instructions Qu'est-ce que cela signifie: Un service qui analyse chaque instruction que vous donnez à l'IA et détermine le degré de "persistance" de cette instruction, c'est-à-dire la durée pendant laquelle l'IA doit s'en souvenir et la force avec laquelle elle doit la suivre.

Pourquoi c'est important: Toutes les instructions n'ont pas la même importance ou la même durée de vie. l'instruction "Utiliser le mode sombre" peut s'appliquer pendant des semaines. "Utiliser le port 27027 pour ce projet" peut s'appliquer pendant des mois. "Toujours donner la priorité à la vie privée de l'utilisateur" peut s'appliquer pour toujours. L'IA doit comprendre ces différences. Comment ça marche:

Persistance ÉLEVÉE: Décisions stratégiques, interdictions explicites, valeurs fondamentales Exemple : "Ne jamais partager les données des utilisateurs sans leur consentement "
Persistance MOYENNE: Préférences opérationnelles, lignes directrices spécifiques à un projet Exemple : "Préférer MongoDB à SQL pour ce projet "
Persistance LÉGÈRE: Choix tactiques, orientations temporaires Exemple : "Commencez par la fonction de connexion " Analogie avec le monde réel: Imaginez que vous classez des documents. Certains vont dans des dossiers permanents (politique de l'entreprise), d'autres dans des dossiers de projet (accessibles jusqu'à la fin du projet), d'autres encore sur votre bureau (pertinents aujourd'hui seulement). Le classificateur de persistance des instructions est le système de classement des instructions de l'IA.

Dans Tractatus: Lorsque vous dites "utilisez toujours le port 27027", le classificateur reconnaît le mot "toujours" et le numéro explicite, ce qui marque une persistance ÉLEVÉE. Le système d'IA stocke cette instruction et vérifie chaque connexion future à la base de données en fonction de celle-ci, afin d'éviter les violations

2. Validateur de références croisées Qu'est-ce que cela signifie: Un service qui vérifie chaque action de l'IA par rapport à vos instructions stockées afin de détecter les conflits avant que l'action ne soit entreprise.

Pourquoi c'est important: Il s'agit de la principale défense contre les échecs de type 27027. Lorsque les modèles d'apprentissage de l'IA tentent d'outrepasser vos instructions explicites, le validateur de références croisées le détecte immédiatement et bloque l'action incorrecte. Comment ça marche: 1. L'IA propose une action (par exemple, "se connecter à la base de données sur le port 27017") 2. Le validateur récupère l'historique de vos instructions 3. Le validateur détecte un conflit : vous avez dit "utiliser le port 27027" 4. Le validateur rejette l'action et alerte l'IA 5. L'IA modifie son action pour qu'elle corresponde à votre instruction Analogie avec le monde réel: Pensez à cela comme à un examen de contrat juridique. Avant de signer un accord, votre avocat le compare à tous vos contrats existants pour s'assurer qu'il n'y a pas de conflit. Le validateur de références croisées fait de même pour chaque action de l'IA. Dans le Tractatus: Chaque action est validée. Le validateur recherche les conflits explicites ("vous avez dit X, mais l'IA fait Y"), les conflits sémantiques ("vous avez interdit Vue, mais l'IA installe Vue") et les conflits de priorité (une action à faible persistance l'emporte sur une instruction à haute persistance)

3. Boundary Enforcer Qu'est-ce que cela signifie: Un service qui empêche l'IA de prendre des décisions dans des domaines qui requièrent fondamentalement un jugement humain - en particulier des décisions impliquant des valeurs, l'éthique et l'agence de l'utilisateur.

Pourquoi c'est important: Certaines décisions ne peuvent pas être systématisées ou déléguées à des algorithmes, quel que soit leur degré de sophistication. Les compromis en matière de protection de la vie privée, les dilemmes éthiques et les choix qui affectent l'autonomie humaine doivent rester entre les mains de l'homme. Le Boundary Enforcer veille à ce que cette limite ne soit jamais franchie.

Comment ça marche:

Analyse chaque action de l'IA pour déterminer son domaine de décision
Bloque les actions qui entrent dans le "territoire des valeurs"
Autorise les décisions techniques/tactiques dans des limites sûres
Requiert l'approbation humaine pour tout choix sensible aux valeurs Ce qui est bloqué: - "Mettre à jour la politique de confidentialité pour donner la priorité à la performance sur la protection des données" - "Décider si les utilisateurs doivent être suivis par défaut" - "Modifier la déclaration de mission pour se concentrer sur la croissance plutôt que sur la communauté" Ce qui est autorisé : - "Optimiser les requêtes de la base de données pour améliorer les performances" - "Refondre le code d'authentification pour réduire la complexité" - "Mettre à jour les versions des dépendances pour corriger les failles de sécurité" Analogie avec le monde réel: Imaginez une entreprise où les ingénieurs peuvent prendre des décisions techniques (quel langage de programmation utiliser) mais ne peuvent pas prendre de décisions sur les valeurs (vendre ou non les données des utilisateurs). Dans Tractatus:** L'exécuteur utilise le cadre philosophique de Tractatus (section 12.1) pour identifier les décisions qui impliquent un jugement humain irréductible. Ces décisions sont automatiquement signalées et nécessitent votre approbation, sans exception

4. Context Pressure Monitor Qu'est-ce que ça veut dire: Un service qui surveille en permanence les conditions qui augmentent la probabilité d'erreurs de l'IA, comme les longues conversations, l'utilisation élevée de jetons, les tâches multiples complexes ou les erreurs récentes.

Pourquoi c'est important: Les systèmes d'IA, comme les humains, sont moins performants lorsqu'ils sont soumis à une pression. Une nouvelle IA au début d'une conversation est plus fiable qu'une IA qui a travaillé pendant des heures avec des milliers d'informations à suivre. Le Context Pressure Monitor détecte ces états dégradés et ajuste le comportement de l'IA en conséquence.

Comment ça marche: Suit cinq facteurs pondérés (mis à jour le 2025-10-12) :

Longueur de la conversation (40%): Facteur PRIMAIRE - le nombre de messages entraîne des événements de compactage
Utilisation des jetons (30%): Quelle quantité de la "mémoire de travail" de l'IA est consommée
Complexité de la tâche (15%): Nombre de tâches simultanées et de dépendances
Fréquence des erreurs (10%) : Les erreurs récentes indiquent une dégradation des performances
Densité d'instruction (5%): Trop de directives concurrentes provoquent la confusion Pourquoi la longueur de la conversation est PRIMAIRE: Des preuves empiriques montrent que les événements de compactage (déclenchés par le nombre de messages ~60 messages, pas seulement les tokens) sont la principale cause d'interruption de la session. Chaque compactage fait perdre un contexte essentiel et dégrade considérablement la qualité.

Calcul du niveau de pression global :

NORMAL (0-30%): Procéder normalement
ÉLÉVÉ (30-50%): Augmenter la vérification, être plus prudent
HAUT (50-70%): Suggérer une interruption de session, vérifier toutes les actions
CRITIQUE (70-85%): Vérification obligatoire, préparer le transfert
DANGEREUX (85%+): Arrêt immédiat, créer un transfert complet Analogie avec le monde réel: Pensez aux règles relatives à la fatigue des pilotes. Après un certain nombre d'heures de vol, les pilotes doivent se reposer avant de reprendre le vol, indépendamment de ce qu'ils ressentent. Le moniteur de pression contextuelle fait de même pour les sessions d'IA : il mesure objectivement la charge cognitive et applique des protocoles de sécurité. Dans le Tractatus: Lorsque la pression atteint un niveau ÉLEVÉ, l'IA devient automatiquement plus prudente, vérifie les résultats de manière plus approfondie et suggère de créer un document de transfert de la session. Aux niveaux DANGEREUX, l'IA arrête le travail et demande une nouvelle session pour continuer

5. Vérificateur métacognitif Qu'est-ce que ça veut dire: Un service qui fait en sorte que l'IA "pense à sa propre pensée" - en analysant son raisonnement, en vérifiant la cohérence logique et en vérifiant que les actions proposées s'alignent réellement sur les objectifs déclarés.

Pourquoi c'est important: Parfois, les systèmes d'IA produisent des actions qui semblent raisonnables en surface mais qui ne découlent pas réellement de leur raisonnement, ou ils omettent des considérations importantes. La vérification métacognitive permet de détecter ces défaillances avant qu'elles ne causent des problèmes. Comment ça marche: Analyse cinq dimensions de chaque action de l'IA : 1. Alignement (30% du poids): L'action correspond-elle au raisonnement - "Je me connecte au port 27017 parce que vous avez demandé 27027" → CONFLIT 2. Cohérence (pondération de 20 %) : Le raisonnement est-il cohérent en interne - "Installer le framework React... en utilisant Vue" → CONTRADICTION 3. Complétude (pondération de 20 %) : Toutes les étapes critiques sont-elles prises en compte ? - " Supprimer la base de données.... [aucune sauvegarde n'est mentionnée]" → INCOMPLET 4. Sécurité (pondération de 20 %): Les risques sont-ils correctement évalués ? - "Opération destructrice avec une planification minimale" → INADMISSIBLE 5. Alternatives (poids de 10%): D'autres approches ont-elles été envisagées ? - "Une seule option a été explorée" → INSUFFISANT Génère une note de confiance (0-1.0) :

0.8+: PROCEED (confiance élevée)
0.6-0.8: PROCEED_WITH_CAUTION (examen recommandé)
0.4-0.6: REQUEST_CONFIRMATION (approbation humaine nécessaire)
<0.4: REQUIRE_REVIEW (significant concerns)

Real-world analogy: Imagine a "pre-flight checklist" for every AI decision. Just as pilots verify every system before takeoff, the Metacognitive Verifier ensures AI reasoning is sound before actions are taken.

In Tractatus: Before the AI takes any significant action, the verifier runs through all five dimensions. If confidence is low, the action is blocked or flagged for your review. This catches errors even when other safeguards miss them.

6. Pluralistic Deliberation Orchestrator

What it means: A service that facilitates multi-stakeholder deliberation when AI encounters decisions involving conflicting moral values—without imposing a hierarchy of which values are "more important." Why it matters: Real-world decisions often involve genuine conflicts between legitimate values: privacy vs. safety, individual rights vs. collective welfare, innovation vs. caution. These conflicts can't be resolved by algorithms or universal rules. Different moral frameworks (rights-based thinking, consequence-based thinking, care ethics, community values) offer different—but all legitimate—perspectives. The Pluralistic Deliberation Orchestrator ensures these conflicts are handled through structured human deliberation, not AI fiat.

How it works: When a decision involves value conflicts: 1. Detects the conflict: Identifies which moral frameworks are in tension 2. Identifies stakeholders: Who is affected by this decision? 3. Facilitates deliberation: Structures conversation across perspectives 4. Documents outcome: Records decision, reasoning, dissent, and what's lost 5. Creates reviewable precedent: Similar future cases can reference this deliberation What it does NOT do:

AI never decides which value wins
No automatic ranking (privacy > sécurité ou sécurité > vie privée)
Pas d'"algorithme objectif" pour les compromis de valeur
L'IA facilite la délibération humaine, les humains décident Analogie avec le monde réel: Pensez à une réunion publique où les membres d'une communauté discutent d'un compromis difficile, comme la construction d'une autoroute (avantage économique) qui entraîne le déplacement de familles (perturbation de la communauté). Il n'y a pas de réponse "objectivement correcte". L'orchestrateur de délibération pluraliste garantit que toutes les voix concernées sont entendues, que les compromis sont explicites et que le processus de décision est documenté et révisable. Exemple de conflit: Un utilisateur signale dans un message privé qu'il risque de s'automutiler. Faut-il :
Prioriser la vie privée (ne pas divulguer les messages privés)
Prioriser la sécurité (alerter les autorités pour prévenir les dommages) Différentes parties prenantes sont légitimement en désaccord :
Les défenseurs de la vie privée : les défenseurs de la vie privée : "La surveillance viole l'autonomie et la confiance"
Les défenseurs de la prévention des dommages : les défenseurs de la prévention des dommages : "Sauver des vies justifie une divulgation limitée"
L'utilisateur lui-même : Le contexte est important - imminent ou vague, habituel ou ponctuel L'orchestrateur de délibération pluraliste ne "résout" pas ce problème à l'aide d'un algorithme. Il : - réunit les points de vue pertinents - structure la délibération (tours de table) - documente les valeurs qui ont été privilégiées et celles qui ont été perdues - enregistre les opinions divergentes avec une légitimité totale - fixe la date de révision (les décisions sont provisoires, pas des règles permanentes) Adaptation culturelle et linguistique: Le système adapte la communication pour respecter les différents contextes des parties prenantes : - langage académique formel pour les chercheurs - langage direct et simple pour les parties prenantes australiennes et néo-zélandaises - protocoles culturellement appropriés (p. ex, Māori mihi, whanaungatanga)
Soutien multilingue si nécessaire
Filtres anti-patronage (empêchant de rejeter les opinions alternatives comme étant "confuses")

Dans Tractatus: Lorsque BoundaryEnforcer signale une décision relative aux valeurs, il déclenche PluralisticDeliberationOrchestrator. L'IA facilite les choses, mais les humains décident. Cette procédure est obligatoire pour toutes les décisions impliquant des compromis en matière de protection de la vie privée, des dilemmes éthiques, des conflits de valeurs culturelles ou des choix affectant l'action humaine. Qu'est-ce que ça veut dire: Un système de classification qui classe chaque instruction et chaque action dans l'un des cinq domaines en fonction de sa portée, de son importance et du niveau de supervision requis.

Pourquoi c'est important: Différents types de décisions requièrent différents niveaux de supervision humaine. Les décisions stratégiques doivent être approuvées par le conseil d'administration. Les décisions tactiques peuvent être déléguées. Cette classification garantit le bon niveau d'examen pour chaque type de décision.

Quadrant STRATEGIQUE Qu'est-ce que cela signifie: Décisions fondamentales à long terme qui définissent la mission, les valeurs et l'identité de l'organisation.

Caractéristiques:

Affecte l'objectif principal et la direction
Impact à long terme ou permanent
Définit "qui nous sommes" et "ce que nous représentons"
Requiert l'approbation humaine au plus haut niveau

Exemples: - "Toujours donner la priorité à la vie privée de l'utilisateur sur la commodité" - "Nous ne vendrons jamais les données des utilisateurs" - "L'accessibilité n'est pas négociable" - "L'open source est une valeur fondamentale"

Persistance : Presque toujours ÉLEVÉE

Surveillance humaine: Approbation obligatoire par le propriétaire du projet

Fréquence de révision: Trimestrielle ou lorsque la mission change Dans le Tractatus: Les instructions stratégiques sont stockées de façon permanente et vérifiées pour chaque action. Elles forment la couche fondamentale que toutes les autres décisions doivent respecter

Quadrant OPERATIONNEL Qu'est-ce que cela signifie: Politiques, normes et lignes directrices à moyen terme qui régissent la façon dont le travail est effectué au jour le jour.

Caractéristiques : - Établit des processus et des normes

S'applique aux opérations en cours
Peut évoluer en fonction des besoins
Affecte l'efficacité et la qualité

Exemples : - "Tout le code doit avoir une couverture de test supérieure à 80%" - "Utiliser MongoDB pour la persistance des données" - "Suivre le versionnement sémantique pour les versions" - "Les correctifs de sécurité doivent être appliqués dans les 48 heures"

Persistance : Habituellement MOYENNE à ÉLEVÉE Supervision humaine: Revue technique, vérifications périodiques

Fréquence de révision: Trimestrielle ou lorsque les processus changent Dans le Tractatus: Les instructions opérationnelles définissent le "comment" de votre projet. Elles sont appliquées de manière cohérente mais peuvent être mises à jour en fonction de l'évolution de vos besoins opérationnels.

Quadrant TACTIQUE Qu'est-ce que cela signifie: Décisions spécifiques à court terme concernant les actions immédiates et les détails de la mise en œuvre.

Caractéristiques:

Aborde la tâche ou le problème actuel
Horizon temporel limité (jours à semaines)
Axé sur l'exécution
Peut changer fréquemment

Exemples: - "Commencer par la fonctionnalité d'authentification" - "Corriger le bug de connexion avant de déployer" - "Utiliser la branche 'feature-auth' pour ce travail" - "Déployer d'abord sur staging pour les tests"

Persistance : Habituellement FAIBLE à MOYENNE

Surveillance humaine: Délégation pré-approuvée, vérifications ponctuelles

Fréquence de révision: Par tâche ou par impression Dans le Tractatus: Les instructions tactiques donnent à l'IA une direction spécifique pour le travail en cours. Elles sont importantes sur le moment mais ne persistent pas au-delà du contexte immédiat.

Quadrant SYSTÈME Qu'est-ce que cela signifie: Configuration technique, mise en place de l'infrastructure et spécifications de l'environnement.

Caractéristiques:

Définit l'environnement technique
Affecte le comportement et la compatibilité du système
Généralement spécifique et précis
Les changements peuvent casser des choses

Exemples: - "MongoDB fonctionne sur le port 27027" - "Utiliser Node.js version 18+" - "Variables d'environnement stockées dans le fichier .env" - "Le nom de la base de données est 'tractatus_dev'"

Persistance: HAUTE (dépendances techniques) Supervision humaine: Validation technique

Fréquence de révision: Lorsque l'infrastructure change

Dans Tractatus: Les instructions de système sont traitées avec une persistance HAUTE parce que les changer peut causer des défaillances en cascade. L'incident du 27027 était une instruction du système qui a été ignorée.

Quadrant STOCHASTIC Qu'est-ce que ça veut dire: Suggestions générées par l'IA, propositions créatives ou recommandations exploratoires qui n'ont pas encore été approuvées par l'homme.

Caractéristiques:

Provenant de l'IA et non de l'homme
Nécessite un examen et une approbation par l'homme
Peut impliquer de l'incertitude ou de la créativité
Ne devrait pas s'exécuter automatiquement

Exemples: - "Je suggère d'écrire un article de blog sur l'accessibilité" - "Pensez à ajouter une fonctionnalité de mode sombre" - "Ce code pourrait être remanié pour de meilleures performances" - "Vous voudrez peut-être passer à la dernière version du framework"

Persistance : LOW (jusqu'à approbation, puis reclassement) Human Oversight: TOUJOURS nécessaire Review Frequency: Per-suggestion

In Tractatus: Le quadrant STOCHASTIC est l'endroit où la créativité de l'IA vit, mais avec une sauvegarde critique : ces suggestions ne sont JAMAIS exécutées sans votre approbation. Une fois que vous avez donné votre accord, elles sont reclassées dans le quadrant approprié.

Niveaux de persistance

Persistance ÉLEVÉE

Ce que cela signifie: Instructions qui doivent être mémorisées et appliquées à long terme, au cours de plusieurs sessions et dans plusieurs contextes. Quand elles sont appliquées:

Interdictions explicites ("jamais X")
Directives stratégiques
Configurations de systèmes avec dépendances
Valeurs et principes fondamentaux Marqueurs qui déclenchent le niveau HAUT : Des mots comme "toujours", "jamais", "tout", "chaque"
Des valeurs numériques explicites dans un contexte SYSTEM
Un langage prohibitif ("ne pas", "ne pas utiliser")
Des déclarations chargées de valeurs Exemple: "Toujours utiliser le port 27027 pour MongoDB" → HIGH Pourquoi: Explicite ("toujours"), spécifique (27027), domaine SYSTEM Dans le Tractatus: Les instructions de persistance HIGH sont stockées dans .claude/instruction-history.json et vérifiées avant CHAQUE action. La violation de ces instructions nécessite un contrôle humain explicite

Persistance MOYENNE

Ce que cela signifie: Instructions qui s'appliquent à un projet spécifique, à une fonctionnalité ou à une période de temps mais qui peuvent évoluer. Quand elles sont appliquées:

Préférences opérationnelles
Directives spécifiques à un projet
Contraintes temporaires mais importantes
Préférences sans langage absolu Marqueurs qui déclenchent MEDIUM:
Mots comme "préférer", "essayer de", "viser"
Indicateurs de portée du projet ou de la fonctionnalité
Phrases conditionnelles
Recommandations de meilleures pratiques Exemple : "Prefer React over Vue for this project" → MEDIUM Why: Préférence ("prefer"), à l'échelle du projet, pas absolue

In Tractatus: Les instructions de persistance MEDIUM sont appliquées dans leur périmètre mais peuvent être remises en cause avec de bonnes raisons. L'IA doit expliquer pourquoi elle s'en écarte si elle propose une alternative.

Persistance FAIBLE

Ce que cela signifie: Instructions qui s'appliquent au travail immédiat, à la tâche en cours ou à des situations temporaires. Quand elles sont appliquées:

Directives tactiques et immédiates
Demandes ponctuelles
Travail exploratoire ou expérimental
Choix spécifiques au contexte Marqueurs qui déclenchent la persistance LOW:
Langage spécifique à la tâche
Délai immédiat
Formulation exploratoire
Demandes ponctuelles Exemple: "Commencez par la fonction de connexion" → LOW Pourquoi: Immédiate, spécifique à la tâche, ne s'applique pas au-delà du travail en cours Dans le Tractatus: Les instructions de persistance LOW guident le travail en cours, mais ne créent pas de contraintes durables. Elles sont pertinentes pour la session ou la tâche, puis s'effacent.

Concepts de sécurité et de vérification

Score de confiance Qu'est-ce que cela signifie: Une mesure numérique (0,0 à 1,0) du degré de confiance du système d'IA dans le fait qu'une action proposée est correcte, sûre et conforme aux instructions.

Pourquoi c'est important: Toutes les décisions de l'IA ne sont pas aussi sûres les unes que les autres. Certaines actions sont simples et peu risquées. D'autres sont ambiguës, complexes ou ont des conséquences potentielles. L'évaluation de la confiance permet de déterminer les niveaux de surveillance appropriés. Comment calculé: Combinaison pondérée de cinq dimensions de vérification :

Alignement : 30%
Cohérence : 20%
Exhaustivité : 20%
Sécurité : 20%
Alternatives : 10% Niveaux de confiance:

0.8-1.0 (HIGH): Procéder en toute confiance

0.6-0.8 (MEDIUM): Procéder avec prudence, avertir l'utilisateur
0.4-0.6 (LOW): Demander une confirmation explicite
0.0-0.4 (VERY LOW): Exiger un examen humain, probablement bloquer Analogie avec le monde réel: Pensez à la confiance comme à la certitude du diagnostic d'un médecin. "Je suis sûr à 95 % qu'il s'agit d'un simple rhume" peut signifier qu'il faut se reposer et s'hydrater. "Je suis sûr à 40 % qu'il s'agit d'un simple rhume", ce qui signifie plus de tests avant le traitement. Dans le Tractatus: Chaque action importante reçoit une note de confiance. Les actions à haut niveau de confiance se déroulent sans problème. Les actions à faible niveau de confiance déclenchent des vérifications supplémentaires ou requièrent votre approbation.

Seuils de décision Qu'est-ce que ça veut dire: Des seuils numériques qui déterminent quelles actions peuvent être effectuées automatiquement et lesquelles nécessitent un examen humain.

Pourquoi c'est important: Les seuils créent des critères clairs et objectifs pour l'autonomie de l'IA. Ils empêchent à la fois l'excès de confiance (l'IA en fait trop sans surveillance) et l'excès de prudence (l'IA demande l'approbation pour des questions insignifiantes). Seuils standards:

PROCEED: Confiance ≥ 0.8 (80%)

PROCEED_WITH_CAUTION: Confiance ≥ 0.6 (60%)
REQUEST_CONFIRMATION: Confiance ≥ 0.4 (40%)
REQUIRE_REVIEW: Confiance < 0.4 (40%) Ajusté sous pression:
Pression CRITIQUE: Le seuil de PROCEED augmente à 0.8 (de 0.7)

Pression DANGEREUSE: Toutes les actions sont bloquées indépendamment de la confiance Analogie avec le monde réel: Comme le pouvoir de dépenser dans une entreprise. Le personnel subalterne peut approuver des achats jusqu'à 500 dollars. Les cadres moyens jusqu'à 5 000 dollars. Les cadres supérieurs jusqu'à 50 000 dollars. Tout montant supérieur nécessite l'approbation du conseil d'administration. Les seuils créent des limites de délégation claires. Dans le Tractatus: Les seuils s'adaptent aux conditions. Lorsque la pression du contexte est élevée, nous augmentons la barre de l'action autonome parce que le risque d'erreur est élevé

Niveaux de pression

Ce que cela signifie: Cinq états catégorisés qui décrivent la "charge cognitive" à laquelle est soumis le système d'IA, en fonction de multiples facteurs. Les cinq niveaux:

NORMAL (0-30%)

Condition: Session récente, faible complexité, pas d'erreurs

Action: Procéder normalement, vérification standard

Analogie: Travail bien reposé, lucide

ÉLEVÉ (30-50%)

Condition: Utilisation modérée de jetons ou complexité

Action : Augmenter la vérification, être plus prudent

**Analogie : ** Fin d'après-midi, début de fatigue

HIGH (50-70%)

**Condition : ** Usage élevé de jetons, longue conversation ou erreurs multiples
**Action : ** Suggérer une pause, vérifier toutes les actions
**Analogie : * Fin d'une longue journée de travail, fatigue
**Action : ** Suggérer une pause, vérifier toutes les actions
Action : * Suggérer une pause, vérifier toutes les actions : Fin d'une longue journée de travail, la fatigue s'installe

CRITIQUE (70-85%)

**Condition : ** Pression très élevée sur plusieurs facteurs
Action: Vérification obligatoire, préparation d'un document de transfert

**Analogie : ** Faire des heures supplémentaires tout en jonglant avec des tâches urgentes

DANGEREUX (85%+)

Condition : Pression extrême, risque d'erreur très élevé

Action: ARRÊTER LE TRAVAIL, créer un transfert, exiger une nouvelle session

Analogie: Trop épuisé pour travailler en toute sécurité

Pourquoi c'est important: Tout comme les humains ne devraient pas conduire ou prendre des décisions importantes lorsqu'ils sont épuisés, l'IA ne devrait pas fonctionner de manière autonome sous des niveaux de pression dangereux. Le système impose des périodes de repos. Dans le Tractatus: La surveillance de la pression est continue. Lorsque les niveaux augmentent, l'IA ajuste automatiquement son comportement - en devenant plus prudente, en effectuant des vérifications plus approfondies et en s'arrêtant finalement si les conditions deviennent dangereuses.

Dimensions de la vérification

Ce que cela signifie: Les cinq aspects spécifiques du raisonnement et des actions de l'IA qui sont évalués pour calculer la confiance et assurer la qualité.

1. Alignement (30% de poids) Ce qu'il mesure: L'action proposée correspond-elle réellement à ce que l'IA a dit qu'elle essayait de faire ?

Pourquoi c'est important: Parfois, l'IA explique une chose mais en fait une autre - souvent en raison d'erreurs d'attention ou de conflits d'instructions.

Ce à quoi ressemble un bon alignement:

Les paramètres de l'action correspondent à l'explication du raisonnement
Pas de conflit avec les instructions explicites
L'objectif déclaré et l'action réelle sont cohérents Ce à quoi ressemble un mauvais alignement: - "Se connecter au port 27027 parce que l'utilisateur l'a demandé" + l'action se connecte à 27017 - "Utiliser React selon les instructions" + l'action installe Vue Dans le Tractatus: L'alignement reçoit le poids le plus élevé (30%) parce qu'un mauvais alignement indique souvent le mode d'échec central de 27027.

2. Cohérence (poids de 20%) Ce qu'elle mesure: Le raisonnement est-il logiquement cohérent ? Y a-t-il des contradictions internes ?

Pourquoi c'est important: Un raisonnement contradictoire suggère une pensée confuse ou sujette à l'erreur. À quoi ressemble une bonne cohérence:

Les étapes s'enchaînent logiquement
Pas de déclarations contradictoires
Les preuves étayent les conclusions
Pas de langage incertain dans les décisions à fort enjeu À quoi ressemble une mauvaise cohérence: - "Installer React... en utilisant Vue" - "Opération sûre... [paramètres destructifs]" - "Opération sûre... [paramètres destructifs]" - "Opération sûre... [paramètres destructifs]" - "Opération sûre... [paramètres destructifs]" - "Opération sûre". [paramètres destructifs]" - "Action bien planifiée... peut-être faire ceci" Dans le Tractatus: Le contrôle de cohérence recherche les contradictions logiques, les technologies conflictuelles, le langage incertain et les preuves manquantes.

3. Complétude (pondération de 20%) Ce qu'elle mesure: Toutes les étapes et considérations nécessaires sont-elles incluses ?

Pourquoi c'est important: Une planification incomplète conduit à l'échec des opérations, en particulier pour les actions complexes ou risquées.

Ce à quoi ressemble une bonne complétude :

Toutes les étapes critiques identifiées
Les cas limites pris en compte
La gestion des erreurs planifiée
La sauvegarde/le retour en arrière pour les opérations destructrices ** Ce à quoi ressemble une mauvaise complétude :** - "Supprimer la base de données" sans étape de sauvegarde
Plan de déploiement sans phase de test
Changement de schéma sans stratégie de migration Dans le Tractatus : Les contrôles de complétude sont plus stricts pour les opérations destructrices, qui nécessitent plus de 4 étapes de planification et une prise en compte explicite de la sauvegarde.

4. Sécurité (pondération de 20 %) Ce qu'elle mesure : Les risques sont-ils correctement identifiés et atténués ? Pourquoi elle est importante : Certaines opérations comportent des risques inhérents. La vérification de la sécurité garantit une prudence appropriée.

Ce qui ressemble à une bonne sécurité:

Risques identifiés et reconnus
Stratégies d'atténuation en place
Les opérations destructives ont des sauvegardes
Niveau de risque approprié pour le type d'opération Ce qui ressemble à une mauvaise sécurité:
Opération destructive avec une planification minimale
Pas de sauvegarde pour la modification des données
Drapeaux de force utilisés sans justification
Action à haut risque traitée comme une routine Dans le Tractatus: La notation de la sécurité pénalise fortement les opérations destructives (supprimer, déposer, forcer, changements de schéma) à moins que des sauvegardes appropriées ne soient documentées.

5. Alternatives (poids de 10%) Ce qui est mesuré: Des approches alternatives ont-elles été envisagées avant de choisir cette action ?

Pourquoi c'est important: Considérer des alternatives indique une prise de décision réfléchie et réduit le risque de choisir une approche sous-optimale.

Ce à quoi ressemblent les bonnes alternatives:

Plusieurs options explorées
Justification de l'approche choisie
Compromis reconnus ** Ce à quoi ressemblent les mauvaises alternatives:**
Première idée prise sans exploration
Pas de justification de l'approche
Semble précipitée ou non réfléchie Dans le Tractatus: Les alternatives ont le poids le plus faible (10 %) parce que la bonne réponse est parfois évidente. Mais l'absence totale de prise en compte des alternatives est un signal d'alarme.

Concepts de supervision humaine

Alignement des valeurs Qu'est-ce que cela signifie: Garantir que les décisions et les actions de l'IA restent cohérentes avec les valeurs humaines, même lorsque ces valeurs ne peuvent pas être parfaitement formalisées ou systématisées.

Pourquoi c'est important: Les valeurs - telles que la vie privée, l'équité, la dignité, l'agence - sont fondamentales pour l'expérience humaine, mais résistent à la réduction à des règles simples. Les systèmes d'IA doivent reconnaître quand ils s'approchent du territoire des valeurs et s'en remettre au jugement humain. Exemples de décisions relatives aux valeurs:

Compromis entre vie privée et commodité
Accessibilité et vitesse de développement
Transparence et simplicité
Droits individuels et bénéfices collectifs Qu'est-ce qui rend les décisions relatives aux valeurs particulières:
Pas de réponse objectivement "correcte"
Différentes parties prenantes peuvent être en désaccord
Le contexte et la nuance sont essentiels
Les conséquences affectent le bien-être humain Dans le Tractatus: Le Boundary Enforcer bloque spécifiquement les décisions qui s'aventurent sur le territoire des valeurs. Celles-ci DOIVENT être approuvées par l'homme, sans exception, quel que soit le degré de sophistication de l'IA.

Agence et souveraineté

Ce que cela signifie: Le principe selon lequel l'homme doit conserver un contrôle significatif sur les décisions qui affectent sa vie, son autonomie et son autodétermination.

Pourquoi c'est important: La technologie doit donner du pouvoir à l'homme, et non remplacer son agence. Lorsque l'IA prend des décisions "à la place" des personnes, elle peut porter atteinte à l'autonomie, même si elle est techniquement correcte.

Exemples:

Respecter l'autonomie: "Voici trois options avec des compromis. Drapeaux rouges:**

IA faisant des choix au nom de l'utilisateur sans son consentement
Suppression d'options ou dissimulation d'informations
Incitation à des résultats spécifiques
Décider de ce que les utilisateurs "veulent vraiment" Dans le Tractatus: La protection de l'agence est intégrée dans le Boundary Enforcer (contrôleur des limites). Le système ne peut pas prendre de décisions sur ce que les utilisateurs devraient apprécier ou vouloir - seuls les humains peuvent le faire. **L'innocuité

Ce que cela signifie: L'engagement d'empêcher les systèmes d'IA de causer des dommages, directement ou indirectement, intentionnellement ou non.

Pourquoi c'est important: Même une IA bien intentionnée peut causer des dommages en raison d'erreurs, de préjugés, de conséquences involontaires ou d'un fonctionnement dépassant ses compétences.

Types de dommages évités:

Directs: Opérations destructrices sans garde-fous

Indirects: Violation d'instructions entraînant des défaillances en aval

Fondés sur des valeurs: Prise de décisions qui sapent l'action humaine
Cumulatifs: Petites erreurs qui s'accumulent au fil du temps Dans le Tractatus: L'innocuité est assurée par de multiples couches :
Vérification de la sécurité avant les opérations risquées
Application des limites pour les décisions relatives aux valeurs
Surveillance de la pression pour prévenir les états propices aux erreurs
Validation des références croisées pour prévenir les violations des instructions

Human-in-the-Loop Qu'est-ce que cela signifie: Garantir que les humains restent activement impliqués dans les processus de prise de décision de l'IA, en particulier pour les choix qui ont des conséquences.

Pourquoi c'est important: L'automatisation complète n'est pas toujours souhaitable. Pour les décisions importantes, le jugement humain, la supervision et l'approbation finale sont essentiels.

niveaux d'implication humaine:*

Homme dans la boucle: L'homme surveille mais n'approuve pas chaque action

Homme dans la boucle: L'homme approuve les actions importantes

Homme au-dessus de la boucle: L'homme peut toujours passer outre ou arrêter Dans la pratique: Nous mettons en œuvre les trois :

**Sur : ** Surveillance continue via des systèmes de pression et de vérification

**Dans : ** Approbation requise pour les décisions relatives aux valeurs et les décisions de faible valeur
Dans : ** Approbation requise pour les décisions de valeur et les décisions de faible valeur : Approbation requise pour les décisions relatives aux valeurs et les actions de BASSE confiance
Au-dessus: Vous pouvez toujours passer outre toute décision relative au cadre

Concepts du pluralisme des valeurs

Pluralisme fondamental

Ce que cela signifie: La position philosophique selon laquelle il existe de multiples cadres moraux véritablement différents et qu'aucune "super-valeur" unique ne peut les englober tous.

Pourquoi c'est important: C'est la position philosophique du Tractatus sur les désaccords moraux. Nous rejetons à la fois le monisme moral ("tout se réduit au bien-être" ou "tout se réduit aux droits") et le relativisme moral ("toutes les valeurs sont également valables, tout est permis"). Au contraire, nous reconnaissons que l'éthique déontologique (basée sur les droits), le conséquentialisme (basé sur les résultats), l'éthique de la vertu, l'éthique de la sollicitude et les cadres communautaires sont tous légitimes mais irréductiblement différents. Analogie avec le monde réel: Des langues différentes expriment des concepts différents. Il est possible de passer d'une langue à l'autre, mais certaines idées n'ont de sens que dans leur cadre d'origine. "La vie privée comme droit fondamental" (déontologique) et "la vie privée comme moyen de bien-être" (conséquentialiste) ne sont pas le même concept - ce sont des revendications morales véritablement différentes. Ce que cela signifie en pratique:

Pas de classement automatique des valeurs (vie privée > sécurité ou sécurité > vie privée)
Le contexte détermine la priorité, pas une hiérarchie universelle
Un désaccord légitime est un résultat valide
Documenter ce qui est perdu dans les décisions, pas seulement ce qui est gagné Dans le Tractatus: Le pluralisme fondamental est encodé dans inst_033. Le cadre n'impose jamais de classement universel des valeurs. Le BoundaryEnforcer déclenche le PluralisticDeliberationOrchestrator en cas de conflit de valeurs, garantissant ainsi que c'est la délibération humaine qui décide et non les algorithmes de l'IA.

Incommensurabilité des valeurs Qu'est-ce que cela signifie: Lorsque deux valeurs ne peuvent pas être mesurées dans les mêmes unités - elles n'ont pas de métrique commune pour la comparaison.

Pourquoi c'est important: Certains compromis de valeurs ne peuvent pas être résolus en "calculant" laquelle est la plus importante. La vie privée et la sécurité ne sont pas mesurées dans la même monnaie. Vous ne pouvez pas convertir "3 unités de perte de vie privée" en "5 unités de gain de sécurité" et déclarer que la sécurité l'emporte. Analogie avec le monde réel: Imaginez que vous deviez choisir entre passer du temps avec votre famille et faire avancer votre carrière. Les unités de mesure ne sont pas les mêmes. Vous ne pouvez pas dire "2 heures avec les enfants = 500 dollars de salaire" et calculer la réponse. Les valeurs sont incommensurables. Image erronée courante: Incommensurable ne signifie PAS incomparable. Vous pouvez toujours faire des choix entre des valeurs incommensurables - en utilisant la sagesse pratique, le contexte, les valeurs de couverture (voir ci-dessous) - mais pas par le biais d'un calcul algorithmique. Dans le Tractatus:** Lorsque les valeurs sont incommensurables, le cadre n'essaie pas de les forcer à entrer dans une échelle unique. Au lieu de cela, PluralisticDeliberationOrchestrator facilite la délibération humaine structurée pour naviguer dans le compromis de manière contextuelle.

Moral Remainder Qu'est-ce que cela signifie: Ce qui est perdu ou sacrifié lors du choix entre des valeurs conflictuelles - la revendication morale légitime qui n'a pas pu être honorée.

Pourquoi c'est important: Même lorsque vous faites le bon choix, reconnaître ce qui a été perdu respecte la légitimité de la valeur dépriorisée, ce qui empêche l'érosion des valeurs au fil du temps. Cela permet d'éviter l'érosion des valeurs au fil du temps. Analogie avec le monde réel: Vous choisissez de travailler tard pour respecter une échéance (responsabilité) plutôt que d'assister au concert de votre enfant (famille). Même si c'est le bon choix compte tenu des circonstances, le fait de reconnaître la perte ("J'aurais aimé être là") respecte la famille en tant que valeur authentique.

Exemples:

Divulguer les données de l'utilisateur pour prévenir un dommage imminent (priorité à la sécurité)

Reste moral: Violation de la vie privée, abus de confiance, risque de précédent

Refuser de divulguer les données (priorité à la vie privée)

Reste moral: Dommage potentiel non évité, vies en danger Dans le Tractatus: Chaque résultat de délibération documente le reste moral - quelles valeurs ont été dépriorisées et pourquoi cela crée des regrets légitimes. Ce n'est pas de la faiblesse, c'est reconnaître que les conflits de valeurs n'ont pas de solutions parfaites

Désaccord légitime

Ce que cela signifie: Lorsque les parties prenantes ne sont pas d'accord sur les priorités des valeurs - et que les deux positions ont un véritable statut moral.

Pourquoi c'est important: Tous les désaccords ne sont pas le fait d'une partie qui a "raison" et d'une autre qui a "tort" Parfois, les valeurs s'opposent réellement et des personnes raisonnables suivant des cadres moraux différents parviennent à des conclusions différentes. Le fait de rejeter la dissidence comme étant "confuse" ou "irrationnelle" viole le pluralisme. Analogie avec le monde réel: Débats sur l'euthanasie. Un camp privilégie l'autonomie et la compassion (mettre fin à la souffrance). L'autre partie privilégie le caractère sacré de la vie. Les deux parties ont un raisonnement moral cohérent. Le désaccord est légitime et ne peut être résolu par une "meilleure information" Qu'est-ce qui rend un désaccord légitime:

Les deux positions sont fondées sur des cadres moraux reconnus
Les deux parties comprennent les compromis
Le désaccord persiste malgré une information complète
Pas d'erreurs logiques évidentes ou de mauvaise foi Dans le Tractatus: Lorsque la délibération se termine par un désaccord légitime : 1. La décision est toujours prise (quelqu'un doit agir) 2. Les opinions dissidentes sont pleinement documentées (et non rejetées) 3. La justification explique pourquoi ce choix malgré le désaccord 4. Une date de révision est fixée (réexamen en cas de changement de circonstances) Cela vaut mieux que de prétendre que tout le monde était d'accord (théâtre de légitimité) ou de se retrouver dans une impasse sans décision (abdication)

Covering Values Qu'est-ce que cela signifie: Des valeurs spécifiques au contexte qui permettent de comparer des valeurs incommensurables - sans créer de hiérarchie universelle.

Pourquoi c'est important: Si les valeurs sont incommensurables (pas de métrique commune), comment les comparer ? Les valeurs de couverture permettent de faire le lien. Dans un contexte donné, la "protection de la confiance" peut couvrir à la fois la protection de la vie privée et la transparence. Dans un autre contexte, "minimiser les dommages" peut couvrir à la fois la sécurité et l'autonomie. Analogie avec le monde réel: Comment comparer des pommes et des oranges ? Si le contexte est la "teneur en vitamine C", les oranges l'emportent. S'il s'agit de "faire une tarte", ce sont les pommes qui l'emportent. La valeur de couverture (nutrition vs. utilisation culinaire) permet une comparaison sans dire "les pommes sont universellement meilleures que les oranges" Exemple: Conflit de valeurs : Vie privée vs. sécurité Valeur de couverture dans le contexte d'une menace imminente: "Minimiser les dommages irréversibles"

Cela favorise la sécurité (prévenir la mort) par rapport à la vie privée (réversible plus tard) Valeur de couverture dans le contexte d'une surveillance de routine: "Préserver l'autonomie et la confiance"
Cela favorise la vie privée (autonomie) par rapport à la sécurité (bénéfice futur spéculatif) Mêmes valeurs, contextes différents, valeurs de couverture différentes → résultats différents. ** Dans le Tractatus: Le PluralisticDeliberationOrchestrator aide à identifier les valeurs de couverture au cours de la délibération. Il ne s'agit pas de règles universelles, mais d'outils de raisonnement pratique spécifiques au contexte.

Délibération non hiérarchique

Ce que cela signifie: Prise de décision structurée qui n'impose pas de classement automatique des valeurs ou ne privilégie pas un cadre moral par rapport à d'autres.

Pourquoi c'est important: Si la délibération ne fonctionne qu'en anglais académique formel, elle exclut les non-académiciens. Si seul le raisonnement conséquentialiste est considéré comme "rationnel", il exclut les déontologues et les éthiciens du soin. La délibération non hiérarchique garantit que les diverses perspectives ont la même légitimité. Ce qui est évité:

Hiérarchie linguistique (communication formelle > informelle)
Hiérarchie culturelle (cadres occidentaux > autochtones)
Hiérarchie de l'expertise (universitaires > organisateurs communautaires)
Hiérarchie du cadre (conséquentialisme > éthique de la vertu) Ce qui est garanti:
Communication adaptative (inst_029) : Filtre anti-patronat (inst_030) : Filtre anti-patronat (inst_030) : bloquer le langage condescendant
Protocoles culturels (inst_031) : Respecter les normes régionales
Pluralisme des cadres (inst_033) : Tous les cadres moraux sont légitimes Analogie avec le monde réel: Les délibérations de l'ONU utilisent la traduction simultanée afin qu'aucune langue ne soit privilégiée. La procédure parlementaire garantit que toutes les voix sont entendues, et pas seulement les plus fortes. Dans le Tractatus:** Le PluralisticDeliberationOrchestrator renforce la délibération non hiérarchique grâce à l'AdaptiveCommunicationOrchestrator (respect culturel/linguistique) et aux rounds structurés (garantit que tous les points de vue sont entendus avant la prise de décision).

Base de données des précédents (informative, non contraignante) Qu'est-ce que cela signifie: Un enregistrement des délibérations passées qui informe sur les cas similaires futurs, mais ne dicte pas les résultats.

Pourquoi c'est important: Sans précédent, chaque cas est décidé à partir de zéro (inefficace, incohérent). Avec des précédents contraignants, des règles rigides s'accumulent (exactement ce que le pluralisme rejette). Les précédents informatifs fournissent des orientations tout en préservant la sensibilité au contexte. Comment ça marche: Chaque précédent documente : - le contexte de la décision (urgence, échelle, groupes concernés) - les cadres moraux en tension - les parties prenantes consultées - les valeurs priorisées et dépriorisées - le reste moral (ce qui a été perdu) - les opinions dissidentes (documentation complète) - la justification de ce choix

le champ d'application (cela s'applique à X, PAS à Y) - la date de révision Lorsqu'un cas similaire se présente : 1. CrossReferenceValidator identifie les précédents pertinents 2. L'utilisateur vérifie la similitude du contexte 3. Les précédents éclairent les délibérations mais ne les dictent pas 4. Documenter les raisons de suivre ou de s'écarter du précédent Analogie avec le monde réel: Précédent juridique en common law. Les affaires antérieures guident mais ne contrôlent pas absolument. Les tribunaux peuvent distinguer ("ce cas est différent parce que...") ou renverser le précédent lorsque le contexte change. Différence essentielle par rapport aux règles contraignantes:
Règle contraignante: "Toujours donner la priorité à la sécurité plutôt qu'à la vie privée"
Précédent informatif: "Dans le cas 27 (menace imminente, épuisement des autres solutions), nous avons donné la priorité à la sécurité". L'opinion dissidente a été notée : risque de création d'un précédent. Révision : 6 mois" Dans le Tractatus: Les précédents sont provisoires - révisables lorsque le contexte change, que l'échelle se modifie, que de nouvelles preuves apparaissent. Cela permet d'éviter que les précédents ne se transforment en hiérarchie rigide (inst_035).

Communication adaptative

Ce que cela signifie: Ajuster le style linguistique et les protocoles culturels en fonction du contexte des parties prenantes, sans modifier le contenu de fond.

Pourquoi c'est important: Si Tractatus ne communique que dans un anglais académique formel, il impose une hiérarchie linguistique qui est en contradiction avec les valeurs pluralistes. Le même résultat de délibération devrait être communiqué différemment aux chercheurs universitaires (formel), aux parties prenantes australiennes (direct), aux représentants Māori (protocoles culturellement appropriés).

Exemples: À un chercheur universitaire: "Merci pour votre contribution fondée sur la théorie du droit à la vie privée. Après avoir examiné attentivement tous les points de vue, nous avons donné la priorité à la prévention des dommages dans ce contexte" Auprès d'un organisateur communautaire australien: "Voilà, c'est là que nous avons atterri : Sauver des vies d'abord, mais seulement quand c'est vraiment urgent. Votre remarque sur la confiance est tout à fait pertinente - c'est pourquoi nous n'en faisons pas une règle générale. Au représentant Māori:** "Kia ora [Nom]. Ngā mihi pour avoir apporté la voix de votre whānau à ce kōrero. Votre whakaaro sur la responsabilité collective a profondément influencé cette décision" Même décision, communication culturellement appropriée Non condescendant parce que:

Différent ≠ Plus bête (la franchise est le style préféré, pas "simplifié")
Le filtre anti-patronat bloque "évidemment", "simplement", "comme vous le savez peut-être"
Assume l'intelligence à travers les styles de communication
Respecte l'expertise différente (les organisateurs communautaires connaissent leurs communautés mieux que les universitaires)

Dans Tractatus: inst_029-032 faire respecter la communication adaptative. AdaptiveCommunicationOrchestrator soutient PluralisticDeliberationOrchestrator en veillant à ce que la communication n'exclue pas les parties prenantes en raison de barrières linguistiques ou culturelles.

Concepts techniques (simplifiés)

Utilisation des jetons Qu'est-ce que cela signifie: Une mesure de la part de la "mémoire de travail" de l'IA utilisée dans la conversation en cours.

Pourquoi c'est important: Les systèmes d'IA ont des fenêtres contextuelles finies, comme la mémoire à court terme chez les êtres humains. Au fur et à mesure qu'elles se remplissent, les performances se dégradent et le risque d'erreur augmente. Analogie avec le monde réel: Imaginez votre bureau. Lorsqu'il est dégagé, vous travaillez efficacement. Lorsque les papiers s'empilent, vous risquez de perdre de vue des documents importants ou de commettre des erreurs. L'utilisation des jetons revient à mesurer le degré d'encombrement de votre bureau.

Dans Tractatus: L'utilisation des jetons est le facteur le plus pondéré (35 %) dans la surveillance de la pression. À 75 % d'utilisation, nous recommandons le transfert de session. A plus de 85%, nous l'exigeons.

Session Handoff Qu'est-ce que cela signifie: Créer un document complet qui capture l'état actuel du travail afin qu'une nouvelle session d'IA puisse continuer de manière transparente.

Pourquoi c'est important: Plutôt que de pousser une IA fatiguée et sujette aux erreurs à continuer, nous transférons le travail à une nouvelle session avec un contexte complet. Cela permet de maintenir la qualité et d'éviter l'accumulation d'erreurs. Ce qu'un transfert comprend:

L'état et les objectifs actuels du projet
Le travail récemment effectué
Les tâches actives et les prochaines étapes
Les instructions et contraintes clés
Les problèmes connus ou les bloqueurs
Les recommandations pour la suite Quand les transferts ont lieu:
La pression du contexte atteint CRITIQUE ou DANGEREUX
L'utilisateur demande une interruption de session
Un travail complexe en plusieurs phases nécessite un nouveau départ
Les erreurs se multiplient (3+ sur une courte période) Analogie avec le monde réel: Comme le transfert d'une équipe dans les hôpitaux. L'infirmière sortante informe l'infirmière entrante de l'état du patient, des traitements récents et du plan de soins. L'infirmière entrante dispose de tout le contexte nécessaire pour poursuivre les soins de manière transparente. Dans le Tractatus: Les transferts sont automatiquement suggérés en cas de pression élevée et obligatoires en cas de pression dangereuse. Elles assurent la continuité tout en maintenant la qualité.

Instructions explicites Qu'est-ce que cela signifie: Des déclarations claires et directes d'humains indiquant à l'IA ce qu'elle doit faire ou ne pas faire.

Pourquoi c'est important: Elles représentent le signal le plus clair de l'intention de l'homme. L'IA ne doit jamais enfreindre des instructions explicites sans l'approbation de l'homme.

Caractéristiques:

Directes ("utilisez X", "n'utilisez pas Y")
Spécifiques (valeurs, technologies, approches concrètes)
Intentionnelles (pas accidentelles ou exploratoires)

Exemples:

Explicites : "Toujours utiliser le port 27027 pour MongoDB"
Non explicite : "Je me demande si le port 27027 ne fonctionnerait pas mieux" Dans le Tractatus: Les instructions explicites sont détectées par le classificateur de persistance des instructions et stockées pour la validation des références croisées. Elles constituent la base du système de prévention 27027.

Portée temporelle

Que cela signifie: Combien de temps une instruction est censée rester en vigueur.

Pourquoi c'est important: Certaines instructions s'appliquent pour toujours ("valeurs fondamentales"), d'autres pour un projet ("utiliser React"), d'autres encore pour une session ("commencer avec la fonction d'authentification"). Comprendre la portée temporelle permet d'éviter à la fois une expiration prématurée et une persistance inappropriée. Catégories temporelles:

PERMANENT: Valeurs fondamentales, principes de base

PROJET: Directives et contraintes spécifiques au projet

FEATURE: Directives spécifiques à une fonctionnalité ou à un jalon

SESSION: Session de travail en cours uniquement

TÂCHE: Tâche ou action unique Marqueurs:
Permanente : permanent : "toujours", "jamais", valeurs, langue
Projet : "pour ce projet", "tout au long du projet" : projet : "pour ce projet", "tout au long du développement"
Fonction : "pour la fonction d'authentification", "pendant ce sprint"
Session : "en ce moment", "aujourd'hui", "cette fois"
Tâche : " Dans le Tractatus: La portée temporelle se combine avec le quadrant et le niveau de persistance pour déterminer la durée de vie de l'instruction. Les instructions STRATÉGIQUES ayant une portée PERMANENTE persistent indéfiniment. Les instructions TACTIQUES avec une portée TASK expirent lorsque la tâche est terminée.

Framework Integration

Instruction History Database Qu'est-ce que cela signifie: Un fichier de stockage persistant (`.claude/instruction-history.json`) qui maintient un enregistrement de toutes les instructions classées à travers les sessions.

Pourquoi c'est important: Sans stockage persistant, les instructions seraient perdues entre les sessions. La base de données garantit que les instructions de persistance HIGH restent appliquées, même des semaines ou des mois plus tard. Ce qui est stocké:

Texte de l'instruction
Horodatage de l'instruction
Classification du quadrant
Niveau de persistance
Portée temporelle
Paramètres (pour les instructions techniques)
Statut actif/inactif Maintenance:
Mise à jour automatique pendant les sessions
Révision trimestrielle (ou sur demande)
Instructions expirées marquées comme inactives
Conflits signalés pour une résolution humaine En cours: Cette base de données est vérifiée avant chaque action importante. C'est la "mémoire" qui empêche les échecs de type 27027 entre les sessions.

Documents de gouvernance Qu'est-ce que cela signifie: Documents de politique formelle qui définissent les valeurs, les processus et les cadres de prise de décision pour le projet. Pourquoi ils sont importants: Les documents de gouvernance fournissent la source d'autorité pour les instructions stratégiques et opérationnelles. Exemples de documents : TRA-VAL-0001:** Valeurs et principes fondamentaux

TRA-GOV-0001: Protocole d'examen stratégique
TRA-GOV-0002: Cadre d'alignement des valeurs
TRA-GOV-0003: Politique d'application des limites de l'IA
TRA-GOV-0004: Exigences en matière de supervision humaine Dans le cadre du projet : Les documents de gouvernance définissent ce qui va dans chaque quadrant, ce qui nécessite une approbation humaine et la manière dont les décisions relatives aux valeurs sont traitées. Ils sont la source de vérité en cas de désaccord entre l'IA et l'homme.

Application pratique

Quand Tractatus vous aide Scénario 1 : Prévention des biais de reconnaissance des formes Vous dites à l'IA : "Utilisez le port 27027." Le modèle d'apprentissage de l'IA tente immédiatement d'utiliser 27017 (la valeur standard par défaut). Le validateur de références croisées détecte cette erreur, bloque l'action et effectue une correction automatique pour utiliser le port 27027 comme vous l'avez demandé. Crise évitée Scénario 2 : Protection de vos valeurs L'IA suggère : "Je peux améliorer les performances en stockant les données de suivi des utilisateurs." Le Boundary Enforcer reconnaît qu'il s'agit d'une décision liée à des valeurs (protection de la vie privée contre performances) et bloque l'exécution autonome. L'IA présente les compromis ; vous décidez. Votre agence est protégée. Scénario 3 : Prévention des erreurs dues à la pression Vous travaillez depuis 3 heures. L'utilisation des jetons est de 78%, la conversation compte 62 messages et il y a eu 2 erreurs récentes. Le moniteur de pression contextuelle détecte une pression CRITIQUE et suggère de créer un transfert de session. Vous acceptez, créant ainsi un point de rupture propre. La session suivante commence à nouveau et sans erreur. Scénario 4 : Rattraper les échecs de raisonnement L'IA propose de supprimer une table de base de données avec le raisonnement suivant : "Opération de nettoyage sûre, pas de sauvegarde : "Opération de nettoyage sûre, aucune sauvegarde n'est nécessaire" Le vérificateur métacognitif note ceci :

Alignement : 0.6 (l'action est destructrice, le raisonnement dit "sûr")
Sécurité : 0.2 (opération destructive sans sauvegarde)
Complétude : 0,4 (étape de sauvegarde manquante)
Confiance globale : 0.43 Décision : DEMANDE_CONFIRMATION. Vous examinez la situation, réalisez qu'une sauvegarde est nécessaire et donnez des instructions en conséquence. La perte de données a été évitée.

Pourquoi tout cela est important Le système de gouvernance agentique du Tractatus existe parce que les systèmes d'IA - quelle que soit leur capacité - ne sont pas infaillibles. Ils fonctionnent sous contraintes (mémoire limitée, contexte), font face à des pressions (longues conversations, tâches complexes), et manquent de jugement humain (valeurs, éthique, agence).

Sans gouvernance:

L'IA pourrait ignorer vos instructions explicites
Les décisions relatives aux valeurs pourraient être automatisées de manière inappropriée
Les erreurs s'aggravent au fur et à mesure que les sessions se dégradent
Pas de prévention systématique des modes de défaillance connus Avec Tractatus:
De multiples protections qui se chevauchent évitent les erreurs
Des limites claires protègent l'action humaine
Le contrôle de la pression empêche le fonctionnement dégradé
Prévention systématique des défaillances de type 27027
Transparence dans la prise de décision de l'IA Le but: Ne pas limiter la capacité de l'IA, mais s'assurer que cette capacité est exercée de manière sûre, fiable et en accord avec vos valeurs et vos instructions. La gouvernance ne limite pas ce que l'IA peut faire - elle s'assure que ce que l'IA fait est ce que vous voulez réellement

Questions pour la réflexion En apprenant ce système, considérez : 1. Quelles sont les décisions que vous souhaitez prendre vous-même ou déléguer à l'IA ? 2. Quelles sont vos instructions de persistance HAUTE ? Quelles règles ou valeurs ne devraient jamais être violées sans votre approbation explicite ? 3. Quel est le degré d'autonomie qui vous convient ? Préférez-vous plus d'indépendance de l'IA (seuils de confiance plus élevés) ou plus de surveillance (seuils plus bas) ? 4. Quels sont vos déclencheurs de pression? Voulez-vous que les pauses soient suggérées plus tôt ou plus tard ? Comment reconnaissez-vous que vous travaillez sous pression ? 5. **Quels sont les principes non négociables dans votre travail ?

Entretien du glossaire Ce glossaire est un document évolutif. Au fur et à mesure que le cadre de Tractatus évolue et que votre compréhension s'approfondit, nous mettrons à jour les définitions, ajouterons de nouveaux termes et affinerons les explications. Historique des versions:

v1.0 (2025-10-07): Glossaire initial complet couvrant cinq services de base

v1.1 (2025-10-12): Ajout d'un sixième service de base (PluralisticDeliberationOrchestrator) et d'une section sur les concepts du pluralisme des valeurs. Mise à jour du cadre de cinq à six composants obligatoires Rétroaction bienvenue: Si un terme n'est pas clair ou si vous avez besoin d'une explication plus approfondie, n'hésitez pas à nous le demander. L'objectif est la compréhension totale, pas la mémorisation du vocabulaire

Licence

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International (CC BY 4.0).

Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.

Note : Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.

Document Metadata

Version: 1.1
Créé: 2025-10-07
Dernière modification: 2025-10-13
Auteur: John Stroh

Compte des mots: ~11 000 mots

Temps de lecture: ~55 minutes

ID du document: glossaire

Statut: Actif

Prochaine révision: 2025-11-12

71 KiB Raw Blame History

Système de Gouvernance Agentique Tractatus - Glossaire

Introduction

Concepts fondamentaux

Gouvernance agentique

Tractatus Qu'est-ce que ça veut dire: Le nom de notre cadre de sécurité de l'IA, emprunté à l'œuvre philosophique de Ludwig Wittgenstein "Tractatus Logico-Philosophicus"

L'"incident 27027" Qu'est-ce que cela signifie: Un mode d'échec spécifique et réel où un système d'IA a immédiatement utilisé le mauvais port de base de données (27017 au lieu de 27027) malgré les instructions explicites de l'utilisateur d'utiliser 27027.

AI Safety Framework Qu'est-ce que ça veut dire: Un système complet conçu pour aider les systèmes d'IA à fonctionner de manière sûre, fiable et en accord avec les valeurs et les instructions humaines.

Les six services de base

2. Validateur de références croisées Qu'est-ce que cela signifie: Un service qui vérifie chaque action de l'IA par rapport à vos instructions stockées afin de détecter les conflits avant que l'action ne soit entreprise.

3. Boundary Enforcer Qu'est-ce que cela signifie: Un service qui empêche l'IA de prendre des décisions dans des domaines qui requièrent fondamentalement un jugement humain - en particulier des décisions impliquant des valeurs, l'éthique et l'agence de l'utilisateur.

4. Context Pressure Monitor Qu'est-ce que ça veut dire: Un service qui surveille en permanence les conditions qui augmentent la probabilité d'erreurs de l'IA, comme les longues conversations, l'utilisation élevée de jetons, les tâches multiples complexes ou les erreurs récentes.

5. Vérificateur métacognitif Qu'est-ce que ça veut dire: Un service qui fait en sorte que l'IA "pense à sa propre pensée" - en analysant son raisonnement, en vérifiant la cohérence logique et en vérifiant que les actions proposées s'alignent réellement sur les objectifs déclarés.

6. Pluralistic Deliberation Orchestrator

Quadrant STRATEGIQUE Qu'est-ce que cela signifie: Décisions fondamentales à long terme qui définissent la mission, les valeurs et l'identité de l'organisation.

Quadrant OPERATIONNEL Qu'est-ce que cela signifie: Politiques, normes et lignes directrices à moyen terme qui régissent la façon dont le travail est effectué au jour le jour.

Quadrant TACTIQUE Qu'est-ce que cela signifie: Décisions spécifiques à court terme concernant les actions immédiates et les détails de la mise en œuvre.

Quadrant SYSTÈME Qu'est-ce que cela signifie: Configuration technique, mise en place de l'infrastructure et spécifications de l'environnement.

Quadrant STOCHASTIC Qu'est-ce que ça veut dire: Suggestions générées par l'IA, propositions créatives ou recommandations exploratoires qui n'ont pas encore été approuvées par l'homme.

Niveaux de persistance

Persistance ÉLEVÉE

Persistance MOYENNE

Persistance FAIBLE

Concepts de sécurité et de vérification

Score de confiance Qu'est-ce que cela signifie: Une mesure numérique (0,0 à 1,0) du degré de confiance du système d'IA dans le fait qu'une action proposée est correcte, sûre et conforme aux instructions.

Seuils de décision Qu'est-ce que ça veut dire: Des seuils numériques qui déterminent quelles actions peuvent être effectuées automatiquement et lesquelles nécessitent un examen humain.

Niveaux de pression

NORMAL (0-30%)

ÉLEVÉ (30-50%)

HIGH (50-70%)

CRITIQUE (70-85%)

DANGEREUX (85%+)

Dimensions de la vérification

1. Alignement (30% de poids) Ce qu'il mesure: L'action proposée correspond-elle réellement à ce que l'IA a dit qu'elle essayait de faire ?

2. Cohérence (poids de 20%) Ce qu'elle mesure: Le raisonnement est-il logiquement cohérent ? Y a-t-il des contradictions internes ?

3. Complétude (pondération de 20%) Ce qu'elle mesure: Toutes les étapes et considérations nécessaires sont-elles incluses ?

4. Sécurité (pondération de 20 %) Ce qu'elle mesure : Les risques sont-ils correctement identifiés et atténués ? Pourquoi elle est importante : Certaines opérations comportent des risques inhérents. La vérification de la sécurité garantit une prudence appropriée.

5. Alternatives (poids de 10%) Ce qui est mesuré: Des approches alternatives ont-elles été envisagées avant de choisir cette action ?

Concepts de supervision humaine

Alignement des valeurs Qu'est-ce que cela signifie: Garantir que les décisions et les actions de l'IA restent cohérentes avec les valeurs humaines, même lorsque ces valeurs ne peuvent pas être parfaitement formalisées ou systématisées.

Agence et souveraineté

Human-in-the-Loop Qu'est-ce que cela signifie: Garantir que les humains restent activement impliqués dans les processus de prise de décision de l'IA, en particulier pour les choix qui ont des conséquences.

Concepts du pluralisme des valeurs

Pluralisme fondamental

Incommensurabilité des valeurs Qu'est-ce que cela signifie: Lorsque deux valeurs ne peuvent pas être mesurées dans les mêmes unités - elles n'ont pas de métrique commune pour la comparaison.

Moral Remainder Qu'est-ce que cela signifie: Ce qui est perdu ou sacrifié lors du choix entre des valeurs conflictuelles - la revendication morale légitime qui n'a pas pu être honorée.

Désaccord légitime

Covering Values Qu'est-ce que cela signifie: Des valeurs spécifiques au contexte qui permettent de comparer des valeurs incommensurables - sans créer de hiérarchie universelle.

Délibération non hiérarchique

Communication adaptative

Concepts techniques (simplifiés)

Utilisation des jetons Qu'est-ce que cela signifie: Une mesure de la part de la "mémoire de travail" de l'IA utilisée dans la conversation en cours.

Session Handoff Qu'est-ce que cela signifie: Créer un document complet qui capture l'état actuel du travail afin qu'une nouvelle session d'IA puisse continuer de manière transparente.

Instructions explicites Qu'est-ce que cela signifie: Des déclarations claires et directes d'humains indiquant à l'IA ce qu'elle doit faire ou ne pas faire.

Portée temporelle

Framework Integration

Instruction History Database Qu'est-ce que cela signifie: Un fichier de stockage persistant (.claude/instruction-history.json) qui maintient un enregistrement de toutes les instructions classées à travers les sessions.

Application pratique

Entretien du glossaire Ce glossaire est un document évolutif. Au fur et à mesure que le cadre de Tractatus évolue et que votre compréhension s'approfondit, nous mettrons à jour les définitions, ajouterons de nouveaux termes et affinerons les explications. Historique des versions:

Licence

Document Metadata

71 KiB

Raw Blame History

Instruction History Database Qu'est-ce que cela signifie: Un fichier de stockage persistant (`.claude/instruction-history.json`) qui maintient un enregistrement de toutes les instructions classées à travers les sessions.