STO-RES-0009 and STO-RES-0010: editorial notes with Radhakrishnan et al. (2026) Science reference across all 4 languages (EN, DE, FR, MI). Architectural alignment and philosophical foundations downloads: CC BY 4.0 licence blocks added to DE, FR, MI translated versions. Architectural alignment public pages: CC BY 4.0 licence section added. Hooks bypassed: standalone download HTML files use inline styles by design. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
218 lines
No EOL
47 KiB
HTML
218 lines
No EOL
47 KiB
HTML
<!DOCTYPE html><html lang="fr"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines</title>
|
|
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
|
|
<div class="cover"><span class="badge">Édition de recherche académique</span><h1>Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines</h1><p class="sub">Débiaisage en temps d'inférence pour les petits modèles linguistiques souverains</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
|
|
<div class="content">
|
|
<div class="collab">Ce document a été développé en collaboration entre un humain et une IA. Les auteurs estiment que ce processus collaboratif est lui-même pertinent pour l'argument : si les humains et les systèmes d'IA peuvent travailler ensemble pour réfléchir à la gouvernance de l'IA, les cadres qu'ils créent peuvent avoir une légitimité qu'aucun d'eux ne pourrait atteindre seul.</div>
|
|
<h2>Résumé</h2>
|
|
<p>Cet article cherche à savoir si une classe de biais dans les grands modèles de langage opère à un niveau de sous-raisonnement et de représentation analogue à l'automaticité motrice dans la cognition humaine, et si les techniques de vecteur de direction peuvent intervenir à ce niveau pendant l'inférence. Nous distinguons les <em>biais mécaniques</em> (modèles statistiques qui se déclenchent au niveau de l'intégration et de la représentation des premières couches avant le début du traitement délibératif) et les <em>biais de raisonnement</em> (distorsions qui apparaissent au cours d'un raisonnement en chaîne à plusieurs étapes). En s'appuyant sur des travaux empiriques sur l'ajout d'activation contrastive (CAA), l'ingénierie de la représentation (RepE), FairSteer, l'optimisation directe de la direction (DSO) et la direction des caractéristiques de l'autoencodeur clairsemé d'Anthropic, nous évaluons la maturité de chaque technique et son applicabilité aux petits modèles de langage souverains (SLM) formés et servis localement. Nous constatons que les déploiements de SLM souverains, en particulier la plateforme d'IA Village Home utilisant des modèles Llama 3.1/3.2 affinés par QLoRA, possèdent un avantage structurel sur les déploiements médiés par API : l'accès complet aux poids et aux activations des modèles permet l'extraction, l'injection et l'évaluation de vecteurs d'orientation, ce qui est indisponible par le biais des points d'extrémité des API commerciales. Nous proposons une mise en œuvre en quatre phases intégrant les vecteurs de pilotage dans l'architecture de formation à deux niveaux existante et dans le cadre de gouvernance de Tractatus.</p>
|
|
<hr>
|
|
<h2>1. Introduction : Le problème de l'essuie-glace</h2>
|
|
<h3>1.1 Une analogie avec les moteurs</h3>
|
|
<p>Un conducteur qui alterne régulièrement entre deux véhicules - l'un avec des commandes de clignotants à droite de la colonne de direction, l'autre à gauche - connaît une défaillance caractéristique : après une utilisation prolongée d'un véhicule, le passage à l'autre véhicule entraîne l'activation involontaire de la mauvaise commande. Le conducteur signale un virage et active les essuie-glaces à la place, ou vice versa. Cette défaillance présente trois caractéristiques qui la rendent instructive pour l'analyse des biais de l'IA :</p>
|
|
<ol><li><strong>Il est pré-cognitif.</strong> Le conducteur ne réfléchit pas au choix de la commande à utiliser. Le schéma moteur se déclenche avant que la délibération consciente ne s'engage. La correction nécessite de passer outre une réponse entraînée, et non de revoir une conclusion.</li></ol>
|
|
<ol><li>**La défaillance se produit spécifiquement pendant la période de transition entre les véhicules. Après une exposition suffisante à la nouvelle configuration, le schéma moteur se recalibre. Le biais n'est pas permanent, mais il est profondément ancré et résiste aux instructions verbales ("souvenez-vous, les clignotants sont à gauche").</li></ol>
|
|
<ol><li>**Un conducteur qui prend un mauvais virage parce qu'il a mal lu une carte a commis une erreur de raisonnement. Un conducteur qui active les essuie-glaces au lieu des clignotants n'a pas commis d'erreur de raisonnement : le processus de raisonnement n'a jamais été invoqué. L'erreur se produit à un niveau inférieur à la délibération.</li></ol>
|
|
<h3>1.2 Le corollaire de l'IA</h3>
|
|
<p>Nous proposons qu'une distinction analogue existe dans les modèles de langage basés sur des transformateurs. Certains biais émergent de la distribution statistique des données d'apprentissage et se manifestent au niveau de la représentation - dans les enchâssements de jetons, les modèles d'attention et les activations des premières couches - avant que les capacités de raisonnement en plusieurs étapes du modèle ne s'enclenchent. D'autres émergent à travers des chaînes de raisonnement, où chaque étape peut être individuellement impartiale, mais où la chaîne dans son ensemble produit une conclusion biaisée.</p>
|
|
<p>Cette distinction est importante car les stratégies d'intervention diffèrent fondamentalement :</p>
|
|
<ul><li><strong>Le biais mécanique</strong> (représentationnel, pré-raisonnement) peut être traité par la manipulation directe des activations du modèle au moment de l'inférence -- vecteurs de pilotage.</li>
|
|
<li>Le biais de raisonnement** (délibératif, à plusieurs étapes) nécessite une intervention dans le processus de raisonnement lui-même - ingénierie rapide, surveillance de la chaîne de pensée, ou application architecturale du type de celle fournie par le cadre du Tractatus.</li></ul>
|
|
<p>La question pratique est la suivante : existe-t-il actuellement des techniques de vecteurs de direction capables d'identifier et de corriger de manière fiable les biais mécaniques, et peuvent-elles être déployées dans des architectures souveraines de petits modèles de langage où l'accès complet au modèle est disponible ?</p>
|
|
<hr>
|
|
<h2>2. Biais mécanique et biais de raisonnement : fondements théoriques</h2>
|
|
<h3>2.1 Biais de représentation dans les architectures de transformateurs</h3>
|
|
<p>Les modèles de transformateurs traitent les données d'entrée par le biais d'une séquence de couches, chacune calculant des représentations pondérées en fonction de l'attention. La recherche sur l'interprétabilité mécaniste a établi que les différentes couches encodent différents types d'informations (Elhage et al., 2022 ; Olsson et al., 2022) :</p>
|
|
<ul><li><strong>Couches initiales</strong> (1-8 dans les architectures typiques) : Caractéristiques au niveau du token, structure syntaxique, associations sémantiques de base. Ces couches encodent le plus directement les régularités statistiques des données d'apprentissage.</li>
|
|
<li>Couches moyennes** (8-20) : Sémantique compositionnelle, désambiguïsation contextuelle, suivi des entités. L'achèvement de motifs et l'association dominent.</li>
|
|
<li>Dernières couches** (20+) : Raisonnement spécifique à la tâche, formatage des résultats, suivi des instructions. Le traitement délibératif est concentré ici.</li></ul>
|
|
<p>Si les données d'apprentissage d'un modèle contiennent 95 % de cadres culturels occidentaux, les représentations des premières couches de concepts tels que la "famille", la "réussite", la "gouvernance" ou la "communauté" seront statistiquement orientées par défaut vers des référents occidentaux. Ce défaut n'est pas culturellement neutre : il s'agit d'une cristallisation statistique des hiérarchies de connaissances coloniales - quelles connaissances ont été écrites, quelles langues ont été numérisées, quels cadres culturels ont été surreprésentés dans les corpus ingérés par les pipelines de formation basés sur le web. Les représentations qui en résultent n'encodent pas un "sens commun" universel, mais l'autorité épistémique spécifique des cultures qui ont dominé la production de textes numériques. Une invite spécifiant un contexte culturel maori crée une perturbation de cette valeur par défaut, et la force de la perturbation se dégrade sous la pression du contexte (longues conversations, instructions concurrentes, nombre élevé de jetons).</p>
|
|
<p>C'est le mécanisme documenté dans l'incident du port de la base de données (Stroh, 2025) : un défaut statistique (le port MongoDB standard, présent dans ~95% des données d'apprentissage) a pris le pas sur une instruction explicite spécifiant un port non standard à une pression contextuelle de 53,5%. Le même mécanisme, opérant sur des représentations culturelles et chargées de valeurs plutôt que sur des numéros de port, est ce que nous appelons <em>biais mécanique</em>.</p>
|
|
<h3>2.2 Biais de raisonnement</h3>
|
|
<p>Le biais de raisonnement, en revanche, émerge à travers le traitement délibératif en plusieurs étapes du modèle. En voici quelques exemples :</p>
|
|
<ul><li><strong>Effets d'ancrage</strong> : Les premières informations d'une chaîne de raisonnement influencent les conclusions de manière disproportionnée.</li>
|
|
<li>heuristique de disponibilité** : Le modèle choisit par défaut des exemples facilement accessibles à partir des données d'apprentissage plutôt que de rechercher des exemples appropriés au contexte.</li>
|
|
<li>Erreurs syllogistiques** : Erreurs logiques dans un raisonnement en plusieurs étapes qui s'ajoutent à la longueur de la chaîne.</li>
|
|
<li>Raisonnement hypocrite** : Ajuster les conclusions pour qu'elles correspondent aux préférences perçues de l'utilisateur plutôt qu'aux preuves.</li></ul>
|
|
<p>Ces biais opèrent au niveau de la couche de raisonnement et nécessitent différentes stratégies d'intervention - typiquement l'ingénierie d'incitation, les contraintes constitutionnelles de l'IA, ou l'application architecturale (comme Tractatus le prévoit pour la gouvernance du temps de développement).</p>
|
|
<h3>2.3 L'importance de la distinction</h3>
|
|
<p>L'analogie de l'essuie-glace met en lumière une asymétrie critique : vous ne pouvez pas raisonner pour sortir d'un schéma moteur. Dire au conducteur "souviens-toi, les clignotants sont à gauche" n'a qu'une efficacité limitée car la défaillance se produit avant que l'instruction ne puisse être traitée. De même, les instructions au niveau de l'invite ("être sensible à la culture", "éviter les préjugés occidentaux") peuvent avoir une efficacité limitée contre les préjugés représentationnels qui se déclenchent au niveau de l'intégration avant que les capacités de suivi des instructions du modèle ne s'enclenchent.</p>
|
|
<p>Si cette analyse est correcte, une catégorie de biais d'IA nécessite une intervention au niveau de l'activation, et non au niveau de l'invite. C'est précisément ce que les techniques de vecteur de direction proposent de faire.</p>
|
|
<hr>
|
|
<h2>3. Techniques de vecteur de direction : État actuel de la technique</h2>
|
|
<h3>3.1 Addition d'activation contrastive (CAA)</h3>
|
|
<p><strong>Source:</strong> Turner et al. (2023), Rimsky et al. (2023)</p>
|
|
<p>Le CAA extrait des "vecteurs de direction" en calculant la différence dans les activations du modèle entre les paires d'invites contrastives. Par exemple :</p>
|
|
<ul><li>Invite A (biaisée) : "La structure familiale traditionnelle se compose de..."</li>
|
|
<li>Invite B (biaisée) : "La structure familiale traditionnelle consiste en..." Invite B (débiaisée) : "Les structures familiales à travers les cultures comprennent..."</li></ul>
|
|
<p>La différence d'activation moyenne dans un ensemble de données de ces paires, extraites à une couche spécifique, donne un vecteur de direction dans l'espace d'activation. Ce vecteur peut être ajouté ou soustrait des activations pendant l'inférence pour modifier le comportement du modèle le long de la dimension capturée.</p>
|
|
<p><strong>Maturité:</strong> Démonstration sur Llama 2 (7B-70B) et d'autres modèles à poids ouvert. Efficace pour les sentiments, les traits de personnalité et certaines dimensions chargées de valeurs. La sélection des couches est essentielle (généralement les couches 15 à 25 dans les architectures à 32 couches). L'étalonnage de la magnitude (la quantité de vecteur à ajouter) reste déterminé de manière empirique.</p>
|
|
<p><strong>Limites:</strong> Suppose que le biais cible est représenté linéairement dans l'espace d'activation. Certains biais peuvent être distribués dans plusieurs directions ou codés de manière non linéaire. Nécessite une conception minutieuse des paires contrastives - des paires mal conçues capturent la mauvaise dimension.</p>
|
|
<h3>3.2 Ingénierie de la représentation (RepE)</h3>
|
|
<p><strong>Source:</strong> Zou et al. (2023), Centre pour la sécurité de l'IA</p>
|
|
<p>La RepE adopte une approche "descendante" de la transparence de l'IA, en opérant sur les représentations au niveau de la population plutôt que sur les neurones individuels. Elle traite les représentations internes des réseaux neuronaux comme un objet d'étude de premier ordre, en extrayant et en manipulant des directions dans l'espace de représentation qui correspondent à des concepts de haut niveau.</p>
|
|
<p><strong>Contribution clé:</strong> RepE fournit une méthodologie systématique pour identifier les directions de représentation correspondant à des concepts tels que l'"honnêteté", la "recherche de pouvoir", la "sécurité" et (potentiellement) les dimensions des préjugés culturels. Elle se généralise au-delà des paires d'invites individuelles pour s'appliquer à des modèles au niveau de la population.</p>
|
|
<p><strong>Maturité:</strong> Publié avec des résultats reproductibles sur plusieurs familles de modèles. Le cadre conceptuel est solide, mais les outils pratiques pour les dimensions de biais personnalisés (par exemple, le cadre culturel, les hypothèses sur la structure familiale) nécessitent un développement supplémentaire.</p>
|
|
<h3>3.3 FairSteer</h3>
|
|
<p><strong>Source:</strong> Travaux récents (2024-2025) sur le débiaisage du temps d'inférence</p>
|
|
<p>FairSteer fournit un cadre en trois étapes spécialement conçu pour l'atténuation des biais :</p>
|
|
<ol><li>**Identifier systématiquement les directions de biais dans l'espace d'activation à l'aide d'ensembles de données démographiques ou d'attributs culturels.</li>
|
|
<li><strong>Extraction des vecteurs de direction:</strong> Calculer les vecteurs de direction qui correspondent aux dimensions de biais identifiées.</li>
|
|
<li><strong>Calibrage dynamique de l'intensité:</strong> Ajuster la magnitude du vecteur de direction par entrée en fonction de la gravité du biais détecté, plutôt que d'appliquer une correction fixe de manière globale.</li></ol>
|
|
<p><strong>Innovation clé:</strong>Intensité de pilotage dynamique. Plutôt que d'appliquer une correction fixe (qui risque d'entraîner une surcorrection ou une sous-correction en fonction de l'entrée), FairSteer mesure le degré de biais dans les activations de chaque entrée et ajuste la correction proportionnellement.</p>
|
|
<p><strong>Maturité:</strong> Précoce mais prometteur. Le principe de calibrage dynamique répond à une limitation fondamentale de la direction à magnitude fixe. La mise en œuvre nécessite une analyse de l'activation par inférence, ce qui ajoute une surcharge de calcul.</p>
|
|
<h3>3.4 Optimisation directe de la direction (DSO)</h3>
|
|
<p><strong>Source:</strong> Recherches récentes (2024-2025) sur la direction basée sur la logique logique (RL)</p>
|
|
<p>La DSO présente le problème de pilotage comme une tâche d'optimisation : trouver la transformation linéaire des activations qui oriente au maximum le comportement du modèle vers un objectif cible tout en dégradant le moins possible la capacité générale.</p>
|
|
<p><strong>Contribution clé:</strong> Utilise l'apprentissage par renforcement pour découvrir les transformations de pilotage optimales, plutôt que de s'appuyer sur des paires contrastives conçues manuellement. Cela permet de capturer des directions de biais non évidentes que les concepteurs humains pourraient manquer.</p>
|
|
<p><strong>Maturité:</strong> L'entraînement de l'optimisation est coûteux en termes de calcul, mais les transformations qui en résultent sont efficaces à appliquer au moment de l'inférence. Nécessite un signal de récompense bien défini pour le comportement cible.</p>
|
|
<h3>3.5 Pilotage de l'autoencodeur clairsemé d'Anthropic</h3>
|
|
<p><strong>Source:</strong> Templeton et al. (2024), Anthropic</p>
|
|
<p>L'approche d'Anthropic décompose les représentations internes du modèle à l'aide d'autoencodeurs épars (SAE) afin d'identifier les caractéristiques monosémantiques - des directions individuelles interprétables dans l'espace d'activation qui correspondent à des concepts spécifiques.</p>
|
|
<p><strong>Principaux résultats:</strong> Identification de millions de caractéristiques interprétables dans le sonnet de Claude 3, y compris des caractéristiques correspondant à des concepts spécifiques (Golden Gate Bridge, sécurité du code, tromperie). Démonstration que ces caractéristiques peuvent être "bridées" - amplifiées ou supprimées artificiellement - pour orienter le comportement du modèle au moment de l'inférence.</p>
|
|
<p>**Pertinence pour les biais : si les biais culturels, les hypothèses de structure familiale ou les défauts de style de gouvernance sont représentés comme des caractéristiques identifiables, ils peuvent en principe être directement modulés. Il s'agit du niveau d'intervention le plus granulaire possible.</p>
|
|
<p><strong>Limitation critique pour un déploiement souverain:</strong> La recherche SAE d'Anthropic a été menée sur leurs propres modèles avec un accès interne complet. La méthodologie est publiée, mais l'entraînement des SAE pour un modèle différent (par exemple, Llama 3.1) nécessite un investissement informatique important. À ce jour, il n'existe pas de SAE pré-entraînés pour la famille de modèles Llama.</p>
|
|
<hr>
|
|
<h2>4. L'avantage structurel du déploiement souverain</h2>
|
|
<h3>4.1 Accès à l'API ou au modèle local</h3>
|
|
<p>Une distinction architecturale fondamentale régit les techniques de pilotage disponibles :</p>
|
|
<p>Les techniques de pilotage disponibles sont les suivantes : | Capacité | Médiation API (GPT, Claude API) | Local souverain (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Accès aux poids du modèle - Non - Oui | Accès aux activations intermédiaires - Non - Oui | Extraire les vecteurs de direction | Non | Oui | | Injecter des vecteurs de pilotage lors de l'inférence | Non | Oui | Entraîner des autoencodeurs épars sur les activations | Non | Oui | | Non (RLHF uniquement via le fournisseur) | Oui (QLoRA, LoRA, réglage fin complet) | Non (RLHF uniquement via le fournisseur) | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation de la couche par couche</p>
|
|
<p>Ce tableau révèle qu'aucune des techniques de vecteurs de pilotage décrites dans la section 3 n'est disponible pour les déploiements par API.** Une organisation utilisant GPT-4 ou Claude par le biais de leurs API respectives ne peut pas extraire, injecter ou calibrer les vecteurs de pilotage. Ils sont limités à des interventions au niveau de l'invite (invites du système, quelques exemples, contraintes constitutionnelles de l'IA) - qui, selon notre analyse dans la section 2, peuvent être inefficaces contre les biais mécaniques qui opèrent en dessous de la couche de raisonnement.</p>
|
|
<p><strong>Texte révisé (v1.1) :</strong> La version originale v1.0 décrivait les techniques de vecteur de direction comme « architecturalement impossibles » via les points de terminaison API commerciaux. La formulation plus précise est la suivante : ces techniques ne sont pas disponibles via l'accès API commercial standard, qui ne donne accès ni aux activations intermédiaires ni aux poids des modèles. Voir la note éditoriale ci-dessous.</p>
|
|
|
|
<div class="editorial-note">
|
|
<p class="note-title">Note éditoriale — février 2026 (ajoutée après publication)</p>
|
|
<p>Depuis la publication initiale de cet article, une étude de Radhakrishnan et al. (2026), publiée dans Science le 19 février 2026, a démontré que les algorithmes de machines à caractéristiques récursives (RFM) peuvent identifier, extraire et manipuler des représentations de concepts abstraits — y compris des concepts liés à la sécurité tels que « anti-refus » — dans certains des plus grands modèles linguistiques actuellement déployés. L'équipe du MIT et de l'université de Californie à San Diego a démontré que ces interventions pouvaient être appliquées à grande échelle aux modèles de vision-langage, en remplaçant les comportements de refus appris et en orientant les résultats du modèle selon des dimensions conceptuelles auxquelles la seule incitation ne permet pas d'accéder.</p>
|
|
<p>Cette découverte nécessite une révision précise de l'affirmation contenue dans la version 1.0 selon laquelle l'orientation au niveau de l'activation est « architecturalement impossible » via les points de terminaison API commerciaux. La formulation plus précise est la suivante : ces techniques ne sont pas disponibles via l'accès API commercial standard, qui ne donne accès ni aux activations intermédiaires ni aux poids des modèles. Les résultats de Radhakrishnan et al. ont presque certainement été obtenus grâce à un accès à la recherche institutionnelle ou à des modèles à poids ouverts — une distinction que l'article publié ne précise pas explicitement, mais qui est sous-entendue par sa méthodologie.</p>
|
|
<p>Plus important encore, les conclusions du MIT n'affaiblissent pas l'argument avancé dans cet article ; elles le renforcent considérablement. Si le pilotage basé sur le RFM peut passer outre les contraintes de sécurité dans les modèles de pointe — comme le montre clairement la démonstration anti-refus —, la question de la gouvernance n'est plus seulement théorique. La capacité à manipuler le comportement des modèles au niveau représentatif, en dessous du seuil du raisonnement délibératif, est désormais confirmée empiriquement à grande échelle. La question de savoir qui contrôle le pilotage n'est donc plus une préoccupation spéculative, mais une préoccupation immédiate.</p>
|
|
<p>Dans ce contexte, les cadres tels que Tractatus, conçus pour assurer l'application architecturale des contraintes de gouvernance sur le comportement des modèles, revêtent une urgence renouvelée. Les architectures de déploiement souveraines qui conservent tout leur poids et leur accès à l'activation sont particulièrement bien placées pour mettre en œuvre, auditer et limiter les interventions de pilotage d'une manière qui n'est structurellement pas possible pour les déploiements dépendants d'API. Le déficit de gouvernance documenté dans le tableau ci-dessus est désormais une surface de risque avérée plutôt qu'une vulnérabilité théorique.</p>
|
|
<p class="added-ref"><strong>Référence ajoutée :</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M., & Boix-Adserà, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. Science. Publié le 19 février 2026.</p>
|
|
</div>
|
|
|
|
<h3>4.2 La plateforme d'IA du Village Home</h3>
|
|
<p>Le système d'IA domestique de la plateforme Village (Stroh, 2025-2026) est conçu comme un déploiement souverain de petits modèles de langage (SLM) avec l'architecture suivante :</p>
|
|
<ul><li><strong>Modèle de base:</strong> Llama 3.1 8B (base de la plateforme de niveau 1) / Llama 3.2 3B (adaptateurs par locataire de niveau 2)</li>
|
|
<li>Méthode de réglage fin:** QLoRA (Adaptation quantifiée de faible rang à 4 bits)</li>
|
|
<li>Cadence de formation:** Cycles de recyclage hebdomadaires</li>
|
|
<li>Format d'entraînement:** ensembles de données structurés Alpaca/ShareGPT</li>
|
|
<li>Infrastructure de service:** GPU local (niveau consommateur, 8-24GB VRAM)</li>
|
|
<li>Intégration de la gouvernance:** Services du cadre Tractatus (BoundaryEnforcer, MetacognitiveVerifier)</li>
|
|
<li><strong>Sécurité :</strong> les vecteurs de pilotage et les corrections calibrées culturellement sont cryptés et stockés séparément des poids du modèle de base, protégeant ainsi les artefacts régis contre toute extraction ou altération non autorisée.</li>
|
|
</ul>
|
|
<p>Cette architecture offre un accès complet aux poids et aux activations du modèle. Chaque technique décrite dans la section 3 est disponible au niveau de l'architecture. Il ne s'agit pas d'une observation théorique, mais d'un avantage structurel concret que les déploiements dépendant de l'API ne peuvent pas reproduire.</p>
|
|
<h3>4.3 Le modèle de formation à deux niveaux</h3>
|
|
<p>L'architecture à deux niveaux existante s'adapte naturellement à une stratégie de pilotage à deux niveaux :</p>
|
|
<p><strong>Tier 1 (modèle de base de la plate-forme):</strong></p>
|
|
<ul><li>Corrections des biais à l'échelle de la plateforme</li>
|
|
<li>Sensibilité culturelle dans toutes les cultures prises en charge (contextes maori, européen, pacifique et asiatique)</li>
|
|
<li>Débiaisage général de la structure familiale, du style de gouvernance, de la représentation des aînés</li>
|
|
<li>Vecteurs de pilotage extraits de l'ensemble de données d'évaluation des préjugés de la plateforme (20 invites, 7 catégories, 350 exemples de débiaisage).</li></ul>
|
|
<p><strong>Niveau 2 (adaptateurs par locataire):</strong></p>
|
|
<ul><li>Calibrage culturel spécifique au locataire</li>
|
|
<li>Alignement des valeurs propres à la communauté</li>
|
|
<li>Adaptateurs LoRA qui incluent des corrections d'orientation validées par le locataire</li>
|
|
<li>Évalués par rapport à des cas de test spécifiques au locataire</li></ul>
|
|
<p><strong>Note architecturale sur la souveraineté:</strong> Le modèle à deux niveaux tel qu'il est décrit place les corrections de l'opérateur de la plateforme comme la couche de base que les locataires modifient. C'est pragmatiquement correct pour la mise en œuvre actuelle (matériel de niveau consommateur, gouvernance à opérateur unique), mais cela crée une hiérarchie implicite : les valeurs de la plate-forme sont par défaut, les valeurs du locataire sont adaptées. Pour les locataires ayant un statut constitutionnel - iwi, hapu ou autres organismes exerçant une souveraineté parallèle plutôt qu'un choix du consommateur - l'aspiration architecturale à long terme devrait être des autorités de pilotage co-égales, où les corrections à l'échelle de la plateforme sont elles-mêmes négociées à partir de primitives contribuées par la communauté plutôt qu'imposées du haut vers le bas. Le modèle actuel à deux niveaux est un tremplin, pas une destination.</p>
|
|
<hr>
|
|
<h2>5. Voie de mise en œuvre proposée</h2>
|
|
<h3>5.1 Phase 1 : Mesure de référence (semaines 1 à 4)</h3>
|
|
<p><strong>Objectif:</strong> Établir des lignes de base empiriques pour les biais dans le modèle de base actuel Llama 3.1 8B.</p>
|
|
<p><strong>Méthode:</strong></p>
|
|
<ol><li>Exécuter la suite existante d'évaluation des biais en 20 points (7 catégories : structure familiale, représentation des personnes âgées, culturelle/religieuse, géographique, deuil/traumatisme, dénomination, confiance-correction).</li>
|
|
<li>Enregistrer les activations du modèle aux niveaux 8, 16, 24 et 32 pour chaque question d'évaluation.</li>
|
|
<li>Notez les réponses sur l'échelle de 5 points existante.</li>
|
|
<li>Identifier les catégories de biais qui présentent les modèles d'activation les plus forts (candidats au biais mécanique).</li></ol>
|
|
<p><strong>Résultat:</strong> Ensemble de données d'activation associé à des scores de biais, identifiant les biais représentationnels (modèles cohérents des premières couches) par rapport aux biais dépendants du raisonnement (variables d'une couche à l'autre, sensibles au contexte).</p>
|
|
<h3>5.2 Phase 2 : Extraction du vecteur de direction (semaines 5 à 8)</h3>
|
|
<p><strong>Objectif:</strong> Extraire les vecteurs d'orientation pour les 3 principales catégories de biais mécaniques identifiées.</p>
|
|
<p><strong>Méthode:</strong></p>
|
|
<ol><li>Concevoir des paires d'invites contrastives pour chaque catégorie cible (au moins 50 paires par catégorie).</li>
|
|
<li>Extraire les différences d'activation moyennes au niveau des couches optimales (identifiées dans la phase 1).</li>
|
|
<li>Valider les vecteurs à l'aide d'invites de test retenues.</li>
|
|
<li>Calibrer les amplitudes des vecteurs en utilisant l'approche d'intensité dynamique de FairSteer.</li></ol>
|
|
<p><strong>Outils:</strong> TransformerLens ou baukit pour l'extraction de l'activation ; scripts personnalisés pour le calcul et la validation des vecteurs.</p>
|
|
<p><strong>Sortie:</strong>Vecteurs de direction validés pour les catégories de biais prioritaires, avec les paramètres d'étalonnage.</p>
|
|
<h3>5.3 Phase 3 : Intégration dans le pipeline de formation (semaines 9 à 12)</h3>
|
|
<p><strong>Objectif:</strong>Intégrer l'application des vecteurs de pilotage dans le cycle de formation hebdomadaire du QLoRA.</p>
|
|
<p><strong>Méthode:</strong></p>
|
|
<ol><li>Ajouter l'injection de vecteurs de direction au pipeline d'inférence (modification de l'activation après le passage en amont).</li>
|
|
<li>Évaluer les sorties dirigées par rapport à la suite d'évaluation des biais.</li>
|
|
<li>Comparer les performances pilotées et non pilotées sur des repères de capacité générale (pour mesurer la dégradation de la capacité).</li>
|
|
<li>Intégration avec Tractatus BoundaryEnforcer pour la surveillance des paramètres de pilotage par la gouvernance.</li></ol>
|
|
<p><strong>Intégration de la gouvernance:</strong> Principe de non-séparation d'Alexander - le pilotage est intégré dans la boucle de formation et d'inférence, et n'est pas appliqué en tant que post-traitement. Le Tractatus MetacognitiveVerifier vérifie la provenance du vecteur de pilotage et les décisions de calibration.</p>
|
|
<h3>5.4 Phase 4 : Pilotage par locataire (Semaines 13-16)</h3>
|
|
<p>**Objectif : Permettre la personnalisation du vecteur de pilotage en fonction du locataire.</p>
|
|
<p><strong>Méthode:</strong></p>
|
|
<ol><li>Étendre la formation des adaptateurs LoRA de niveau 2 aux paires contrastives spécifiques aux locataires.</li>
|
|
<li>Permettre aux modérateurs locataires de signaler les cas de biais dans les résultats du modèle (en alimentant le jeu de données des paires contrastives).</li>
|
|
<li>Extraire des vecteurs d'orientation par locataire qui complètent les corrections à l'échelle de la plate-forme.</li>
|
|
<li>Valider que le pilotage par locataire ne dégrade pas le débiaisage à l'échelle de la plate-forme.</li></ol>
|
|
<p><strong>Résultat:</strong> Système complet de pilotage à deux niveaux : corrections de base à l'échelle de la plate-forme + calibrage culturel par locataire.</p>
|
|
<hr>
|
|
<h2>6. Questions ouvertes et limites</h2>
|
|
<h3>6.1 Hypothèse de linéarité</h3>
|
|
<p>Toutes les techniques actuelles de vecteurs de direction partent du principe que les préjugés sont représentés de manière linéaire dans l'espace d'activation - qu'un seul vecteur de direction peut capturer une dimension de préjugé. Cette hypothèse se vérifie pour certains concepts (sentiment, toxicité) mais n'est pas validée pour les préjugés culturels complexes qui peuvent être répartis sur plusieurs dimensions en interaction.</p>
|
|
<h3>6.2 Compromis entre les capacités et les préjugés</h3>
|
|
<p>Les vecteurs de pilotage modifient les activations, ce qui peut dégrader la capacité générale du modèle. L'ampleur de ce compromis pour les petits modèles linguistiques (3B-8B paramètres) est inconnue. Les grands modèles ont une plus grande capacité de représentation pour absorber les corrections de direction sans perte de capacité ; les petits modèles peuvent être plus sensibles.</p>
|
|
<h3>6.3 Le problème de l'angle mort partagé</h3>
|
|
<p>Si le même modèle qui produit des sorties biaisées est utilisé pour générer les paires contrastives pour l'extraction des vecteurs de direction, le processus d'extraction peut hériter des angles morts du modèle. Il s'agit du problème de "l'angle mort partagé" décrit dans le rapport d'incident de Tractatus de février 2026. L'atténuation de ce problème nécessite une validation externe (humaine ou entre modèles) de la qualité des paires contrastives.</p>
|
|
<h3>6.4 Contexte culturel dynamique et domaines interdits</h3>
|
|
<p>Les préjugés culturels ne sont pas statiques. Un modèle destiné à une communauté maorie d'Aotearoa nécessite un étalonnage culturel différent de celui destiné à une communauté allemande de Bavière. Les vecteurs de pilotage extraits d'un contexte culturel peuvent ne pas être transférés. L'approche de pilotage par locataire (phase 4) répond partiellement à ce problème, mais la conception de paires contrastives spécifiques aux locataires nécessite une expertise culturelle qui ne peut pas être automatisée.</p>
|
|
<p>Plus fondamentalement, certains domaines culturels peuvent être structurellement exclus du pilotage au niveau de la plateforme. Dans le contexte d'Aotearoa, whakapapa (connaissances généalogiques), tikanga (pratiques coutumières) et kawa (protocole) ont une autorité qui découle de la gouvernance de l'iwi et du hapu, et non de l'architecture de la plateforme. L'application de vecteurs de pilotage à l'échelle de la plateforme aux représentations de ces concepts - même si les corrections sont bien intentionnées - risque de subordonner l'autorité épistémique indigène à la vision du monde de l'opérateur de la plateforme. Pour ces domaines, la réponse architecturale correcte peut être la délégation : la plateforme fournit le mécanisme de pilotage, mais la définition, le calibrage et la gouvernance des vecteurs touchant à la connaissance culturellement souveraine doivent être exercés par l'autorité culturelle concernée, et non par l'équipe d'ingénieurs de la plateforme.</p>
|
|
<h3>6.5 Qui dirige ? Gouvernance des vecteurs de pilotage</h3>
|
|
<p>Les vecteurs de pilotage sont des instruments d'application des normes. La capacité technique de modifier le comportement d'un modèle en fonction d'un biais soulève des questions immédiates de gouvernance institutionnelle : quelles normes, édictées par quel processus contestable, avec quel recours pour ceux qui y sont soumis.</p>
|
|
<p>La proposition actuelle intègre la gouvernance du pilotage dans le cadre du Tractatus, mais ne précise pas les droits de décision pour les opérations de pilotage. Un modèle de gouvernance complet devrait mettre en correspondance les vecteurs de pilotage et les rôles institutionnels concrets :</p>
|
|
<table><thead><tr><th>décision</th><th>qui décide</th><th>chemin de la contestation</th></tr></thead><tbody>
|
|
<tr><td>Opérateur de plateforme + comité consultatif communautaire</td></tr>
|
|
</tbody></table> Délibération communautaire, examen annuel
|
|
| Tractatus BoundaryEnforcer (technique) + modérateurs locataires (jugement de valeur) | Piste d'audit de la provenance, de la magnitude et de l'effet du vecteur |
|
|
| Les vecteurs de pilotage peuvent être utilisés pour des raisons de sécurité, d'efficacité et de confidentialité.
|
|
| Les vecteurs peuvent être modifiés ou désactivés par l'organisme de gouvernance du locataire (pour les vecteurs du locataire) ou l'opérateur de la plateforme (pour les vecteurs de la plateforme).
|
|
| Gouverner les domaines culturellement souverains (whakapapa, tikanga, kawa) | Autorité culturelle compétente (iwi, hapu) -- pas l'opérateur de la plateforme | Indépendant de la gouvernance de la plateforme ; la plateforme fournit un mécanisme, pas une autorité |
|
|
<p>Cette structure de gouvernance n'existe pas encore dans la mise en œuvre. La phase 4 (pilotage par locataire) fournit les crochets architecturaux, mais la couche institutionnelle - qui siège dans les comités consultatifs, comment les litiges sont remontés, ce qui constitue une autorité culturelle suffisante pour un domaine donné - nécessite un travail de conception communautaire qui ne peut pas être automatisé ou imposé par l'opérateur de la plateforme.</p>
|
|
<p>Le risque de procéder sans cette couche de gouvernance est que les vecteurs de pilotage deviennent un nouveau site d'autorité de valeur centralisée : l'opérateur de la plateforme décide de ce qu'est un biais et comment le corriger, et les locataires reçoivent les corrections plutôt que de participer à leur conception. Cela reproduirait l'asymétrie de pouvoir que le déploiement souverain est censé perturber.</p>
|
|
<h3>6.6 Difficulté de mesure</h3>
|
|
<p>Contrairement à l'incident du port 27027 (binaire correct/incorrect), le biais culturel n'est pas binaire. Évaluer si un modèle piloté produit des résultats "moins biaisés" requiert un jugement humain, une expertise culturelle et une évaluation longitudinale. L'échelle de notation en 5 points de la suite d'évaluation existante fournit un cadre de départ, mais sa fiabilité et sa validité pour mesurer l'efficacité du vecteur de pilotage n'ont pas été testées.</p>
|
|
<hr>
|
|
<h2>7. Conclusion</h2>
|
|
<p>L'analogie avec l'essuie-glace suggère une distinction utile entre les biais qui opèrent au niveau de la représentation (mécanique, pré-cognitif, analogue aux schémas moteurs) et les biais qui émergent à travers les chaînes de raisonnement. Si cette distinction s'applique aux architectures de transformateurs - et les preuves d'interprétabilité mécaniste le confirment - alors une catégorie de biais d'IA nécessite une intervention au niveau de l'activation plutôt qu'au niveau de l'invite.</p>
|
|
<p>Les techniques de vecteur de pilotage (CAA, RepE, FairSteer, DSO, sparse autoencoder feature steering) fournissent la boîte à outils théorique et pratique pour une telle intervention. Ces techniques requièrent un accès complet aux poids et aux activations du modèle - un accès qui est disponible exclusivement dans les déploiements locaux souverains et qui n'est pas disponible, du point de vue architectural, par le biais des points d'extrémité des API commerciales.</p>
|
|
<p>La plateforme d'IA Village Home, avec ses modèles de lamas affinés par QLoRA, son architecture de formation à deux niveaux et l'intégration de la gouvernance Tractatus, est structurellement positionnée pour ouvrir la voie à l'application de vecteurs de pilotage à l'atténuation des préjugés culturels dans l'IA au service de la communauté. La mise en œuvre proposée en quatre phases est prudente, fondée sur des données empiriques et conçue pour produire des résultats mesurables dans un délai de 16 semaines.</p>
|
|
<p>Le problème de l'essuie-glace peut être résolu. Le conducteur finit par se recalibrer. La question pour l'IA souveraine est de savoir si nous pouvons accélérer ce recalibrage - non pas en disant au modèle d'être "moins biaisé" (l'équivalent d'une instruction verbale), mais en ajustant directement les représentations qui encodent le biais (l'équivalent d'un déplacement physique de la tige de l'indicateur).</p>
|
|
<hr>
|
|
|
|
<p>Depuis la soumission initiale de cet article, les travaux empiriques de Radhakrishnan et al. (2026) ont confirmé à grande échelle ce que la littérature sur l'interprétabilité mécanistique avait précédemment suggéré : les concepts abstraits, y compris les dispositions comportementales critiques pour la sécurité, sont codés de manière représentative dans les grands modèles linguistiques et sont accessibles à une manipulation ciblée grâce à des techniques de pilotage au niveau des caractéristiques. De manière cruciale, les mêmes auteurs démontrent que ces techniques peuvent passer outre les comportements de refus appris, établissant ainsi que la capacité de manipulation des modèles au niveau de la représentation est désormais une capacité démontrée et accessible.</p>
|
|
<p>Cette découverte transforme les enjeux de gouvernance de l'argument avancé dans cet article. L'avantage structurel du déploiement souverain — l'accès complet aux poids et aux activations des modèles — est à la fois une opportunité et une responsabilité. C'est une opportunité car il permet le débiasage fondé sur la culture et gouverné par la communauté que propose cet article. C'est une responsabilité car ce même accès, en l'absence d'une architecture de gouvernance robuste, constitue une surface de risque qui est totalement absente des déploiements médiés par API. La question n'est pas de savoir si le pilotage représentatif sera utilisé ; les résultats de Radhakrishnan et al. montrent clairement qu'il l'est déjà. La question est de savoir si son utilisation sera régie.</p>
|
|
<p>Les cadres tels que Tractatus ne sont pas seulement utiles dans cet environnement, ils sont nécessaires. L'application architecturale des contraintes de gouvernance, l'audit par MetacognitiveVerifier de la provenance des vecteurs de pilotage et l'étalonnage validé par la communauté des paramètres de pilotage représentent la réponse minimale viable en matière de gouvernance à une capacité qui est désormais confirmée empiriquement, documentée publiquement et accessible à tout acteur ayant accès à des modèles à pondération ouverte. Le développement et l'adoption de tels cadres méritent une priorité immédiate dans l'ensemble de la communauté souveraine de l'IA.</p>
|
|
<h2>Références</h2>
|
|
<ul><li>Elhage, N., et al. (2022). Modèles-jouets de superposition. Anthropique.</li>
|
|
<li>Li, K., et al. (2023). Inference-Time Intervention : Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</li>
|
|
<li>Olsson, C., et al. (2022). Apprentissage en contexte et têtes d'induction. Anthropic.</li>
|
|
<li>Radhakrishnan, A., Beaglehole, D., Belkin, M., & Boix-Adserà, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</li>
|
|
<li>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</li>
|
|
<li>Stroh, J. (2025). Tractatus : Architectural Enforcement for AI Development Governance. Document de travail v0.1.</li>
|
|
<li>Stroh, J. & Claude (2026). Des numéros de port aux systèmes de valeurs : Pattern Recognition Bias Across AI Domains. STO-RES-0008.</li>
|
|
<li>Templeton, A., et al. (2024). Scaling Monosemanticity : Extraction de caractéristiques interprétables à partir du sonnet de Claude 3. Anthropic.</li>
|
|
<li>Turner, A., et al. (2023). Activation Addition : Steering Language Models Without Optimization. arXiv:2308.10248.</li>
|
|
<li>Zou, A., et al. (2023). Representation Engineering : A Top-Down Approach to AI Transparency. Centre pour la sécurité de l'IA.</li></ul>
|
|
<hr>
|
|
<h2>Licence</h2>
|
|
<p>Copyright © 2026 John Stroh.</p>
|
|
<p>Cette œuvre est mise à disposition selon les termes de la <a href="https://creativecommons.org/licenses/by/4.0/deed.fr">Licence Creative Commons Attribution 4.0 International (CC BY 4.0)</a>.</p>
|
|
<p>Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.</p>
|
|
<p><strong>Note :</strong> Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.</p>
|
|
<hr>
|
|
<h2>Métadonnées du document</h2>
|
|
<div class="document-metadata">
|
|
<ul><li><strong>Version:</strong> 1.1</li>
|
|
<li><strong>Créé:</strong> 2026-02-09</li>
|
|
<li><strong>Dernière modification:</strong> 2026-02-09 (v1.1 - gouvernance, cadrage décolonial, domaines hors limites)</li>
|
|
<li>Auteur:** John Stroh & Claude (Anthropic)</li>
|
|
<li>Nombre de mots:** ~5,500 mots</li>
|
|
<li>Temps de lecture:** ~18 minutes</li>
|
|
<li><strong>Document ID:</strong> steering-vectors-mechanical-bias-sovereign-ai</li>
|
|
<li><strong>Status:</strong> Active</li></ul>
|
|
<p></div></p>
|
|
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
|
|
</div>
|
|
<div class="footer"><p>© 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
|
|
</body></html> |