From ef281ee846d951d25612ebe156c6db7de4755c25 Mon Sep 17 00:00:00 2001 From: TheFlow Date: Wed, 11 Feb 2026 06:11:57 +1300 Subject: [PATCH] chore: bump cache version for deployment --- public/about.html | 22 +- public/admin/dashboard.html | 10 +- public/api-reference.html | 6 +- public/architectural-alignment-community.html | 10 +- .../architectural-alignment-policymakers.html | 10 +- public/architectural-alignment.html | 10 +- public/architecture.html | 24 +- public/blog-post.html | 12 +- public/blog.html | 16 +- public/case-submission.html | 16 +- public/check-version.html | 2 +- public/docs-viewer.html | 16 +- public/docs.html | 20 +- .../architectural-alignment-academic-de.html | 83 ++++++ .../architectural-alignment-academic-fr.html | 83 ++++++ .../architectural-alignment-academic-mi.html | 83 ++++++ ...phical-foundations-village-project-de.html | 60 ++++ ...phical-foundations-village-project-fr.html | 60 ++++ ...phical-foundations-village-project-mi.html | 60 ++++ ...ctors-mechanical-bias-sovereign-ai-de.html | 219 +++++++++++++++ ...ctors-mechanical-bias-sovereign-ai-fr.html | 210 ++++++++++++++ ...ctors-mechanical-bias-sovereign-ai-mi.html | 66 +++++ ...-vectors-mechanical-bias-sovereign-ai.html | 258 ++++++++++++++++++ ...steering-governance-polycentric-ai-de.html | 218 +++++++++++++++ public/faq.html | 34 +-- public/home-ai.html | 20 +- public/implementer.html | 26 +- public/index.html | 28 +- public/koha.html | 18 +- public/korero-counter-arguments.html | 16 +- public/leader.html | 28 +- public/media-inquiry.html | 16 +- public/privacy.html | 12 +- public/researcher.html | 28 +- public/version.json | 2 +- public/village-case-study.html | 14 +- 36 files changed, 1608 insertions(+), 208 deletions(-) create mode 100644 public/downloads/architectural-alignment-academic-de.html create mode 100644 public/downloads/architectural-alignment-academic-fr.html create mode 100644 public/downloads/architectural-alignment-academic-mi.html create mode 100644 public/downloads/philosophical-foundations-village-project-de.html create mode 100644 public/downloads/philosophical-foundations-village-project-fr.html create mode 100644 public/downloads/philosophical-foundations-village-project-mi.html create mode 100644 public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html create mode 100644 public/downloads/steering-vectors-mechanical-bias-sovereign-ai-fr.html create mode 100644 public/downloads/steering-vectors-mechanical-bias-sovereign-ai-mi.html create mode 100644 public/downloads/steering-vectors-mechanical-bias-sovereign-ai.html create mode 100644 public/downloads/taonga-centred-steering-governance-polycentric-ai-de.html diff --git a/public/about.html b/public/about.html index 2d98ca4e..8c5863cd 100644 --- a/public/about.html +++ b/public/about.html @@ -5,9 +5,9 @@ About | Tractatus AI Safety Framework - - - + + + +
Akademische Forschungsausgabe

ARCHITEKTONISCHE AUSRICHTUNG

Unterbrechung des neuronalen Denkens durch konstitutionelles Inferenz-Gating

Ein notwendiger Schritt zur Eindämmung der globalen KI

Die Autoren: John Stroh & Claude (Anthropic)

Dokument-Code: STO-INN-0003 | Version: 2.1-A | Januar 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenbedingungen eine Legitimität haben, die keiner von ihnen allein erreichen könnte.
+

Abstrakt

Heutige KI-Ansätze zum Alignment beruhen überwiegend auf Eingriffen während des Trainings: Verstärkungslernen durch menschliches Feedback (Christiano et al., 2017), konstitutionelle KI-Methoden (Bai et al., 2022) und Sicherheits-Feinabstimmung. Diese Ansätze haben eine gemeinsame architektonische Annahme - dass Ausrichtungseigenschaften während des Trainings vermittelt werden können und während der Inferenz zuverlässig bestehen bleiben. In diesem Papier wird argumentiert, dass die Anpassung während des Trainings zwar wertvoll, aber für existenzielle Einsätze unzureichend ist und durch eine architektonische Anpassung durch konstitutionelles Gating während der Inferenzzeit ergänzt werden muss.

Wir stellen das Tractatus Framework als formale Spezifikation für unterbrochenes neuronales Schließen vor: Vorschläge, die von KI-Systemen erzeugt werden, müssen in überprüfbare Formen übersetzt und vor der Ausführung anhand von Verfassungsbeschränkungen bewertet werden. Damit verschiebt sich das Vertrauensmodell von "Vertrauen in das Training des Anbieters" zu "Vertrauen in die sichtbare Architektur". Der Rahmen ist in der mandantenfähigen Community-Plattform Village implementiert, die eine empirische Testumgebung für die Governance-Forschung bietet.

Entscheidend ist, dass wir die Annahme der getreuen Übersetzung - die Anfälligkeit, dass Systeme ihre beabsichtigten Handlungen gegenüber konstitutionellen Gates falsch darstellen können - berücksichtigen, indem wir den Anwendungsbereich des Rahmens auf Systeme vor der Superintelligenz beschränken und explizite Fähigkeitsschwellen und Eskalationsauslöser festlegen. Wir stellen das Konzept der souveränen, lokal trainierten Sprachmodelle (SLLs) als ein Einsatzparadigma vor, bei dem die konstitutionelle Steuerung sowohl machbar als auch notwendig ist.

Der Beitrag enthält: (1) eine formale Architektur für konstitutionelles Gating zur Inferenzzeit; (2) Spezifikationen für Fähigkeitsschwellenwerte mit Eskalationslogik; (3) eine Validierungsmethodik für die schichtweise Eindämmung; (4) ein Argument, das die Vorbereitung auf existenzielle Risiken mit dem Einsatz an den Rändern verbindet; und (5) einen Aufruf zu nachhaltiger Deliberation (Korero) als epistemisch angemessene Reaktion auf Ausrichtungsunsicherheit.

+

1. Die Einsätze: Warum die probabilistische Risikobewertung scheitert

1.1 Der Standardrahmen und seine Gliederung

Die Risikobewertung in technologischen Bereichen erfolgt in der Regel anhand von Erwartungswertberechnungen: Man multipliziert die Wahrscheinlichkeit eines Ergebnisses mit seinem Ausmaß, vergleicht verschiedene Alternativen und wählt die Option, die den erwarteten Nutzen maximiert. Dieser Rahmen liegt regulatorischen Entscheidungen von der Umweltpolitik bis zur Arzneimittelzulassung zugrunde und hat sich für die meisten technologischen Risiken als angemessen erwiesen.

Für das existenzielle Risiko, das von fortgeschrittenen KI-Systemen ausgeht, bricht dieser Rahmen auf mathematische und epistemische Weise zusammen.

+

1.2 Drei Eigenschaften des existenziellen Risikos

Unumkehrbarkeit. Bei den meisten Risiken sind Fehler und anschließendes Lernen möglich; bei existenziellen Risiken ist dies nicht der Fall, da es nach dem Zusammenbruch einer Zivilisation oder dem Aussterben der Menschheit keinen zweiten Versuch gibt. Der übliche Empirismus - das Testen von Hypothesen durch Beobachtung der Ereignisse - kann nicht funktionieren, also müssen Theorie und Architektur beim ersten Mal richtig sein.

Unquantifizierbare Wahrscheinlichkeit. Es gibt keine Häufigkeitsangaben für existenzielle Katastrophen durch KI-Systeme. Schätzungen der Wahrscheinlichkeit einer Fehlanpassung variieren um Größenordnungen, je nach vernünftigen Annahmen über den Verlauf der Fähigkeiten, die Schwierigkeit der Anpassung und die Durchführbarkeit der Koordination. Carlsmith (2022) schätzt das existenzielle Risiko, das von einer nach Macht strebenden KI ausgeht, bis 2070 auf mehr als 10 %; andere Forscher gehen von wesentlich höheren oder niedrigeren Werten aus. Dabei handelt es sich nicht um eine gewöhnliche Ungewissheit, die durch zusätzliche Datenerhebungen reduziert werden kann, sondern um eine grundlegende Unbestimmbarkeit, die sich aus der beispiellosen Natur des Risikos ergibt.

Unendlicher Unwert. Bei der Berechnung des Erwartungswerts wird die Wahrscheinlichkeit mit dem Betrag multipliziert. Wenn sich die Größenordnung der Unendlichkeit nähert (die permanente Abschottung des gesamten zukünftigen menschlichen Potenzials), ergeben selbst kleine Wahrscheinlichkeiten undefinierte Ergebnisse. Die mathematische Grundlage der herkömmlichen Kosten-Nutzen-Analyse versagt.

+

1.3 Entscheidungstheoretische Implikationen

Diese Eigenschaften legen nahe, dass die Maximierung des Erwartungswerts nicht das geeignete Entscheidungsverfahren für das existenzielle AI-Risiko ist. Alternative Rahmenwerke umfassen:

Vorsorgliches Satisficing (Simon, 1956; Hansson, 2020). Unter Bedingungen radikaler Ungewissheit mit irreversiblen Einsätzen kann Satisficing - die Auswahl von Optionen, die minimale Sicherheitsschwellen erfüllen, anstatt den erwarteten Wert zu optimieren - der rationale Ansatz sein.

Maximin unter Unsicherheit (Rawls, 1971). Wenn echte Ungewissheit (nicht nur unbekannte Wahrscheinlichkeiten) auf irreversible Einsätze trifft, bietet die Maximalüberlegung - die Wahl der Option, deren schlechtestes Ergebnis am wenigsten schlimm ist - ein kohärentes Entscheidungsverfahren.

Starkes Vorsorgeprinzip (Gardiner, 2006). Das Vorsorgeprinzip ist angemessen, wenn drei Bedingungen erfüllt sind: Irreversibilität, hohe Unsicherheit und die Gefährdung öffentlicher Güter. Das existenzielle KI-Risiko erfüllt alle drei Bedingungen.

+

1.4 Auswirkungen auf die KI-Entwicklung

Diese Überlegungen bedeuten nicht, dass die KI-Entwicklung gestoppt werden sollte. Sie implizieren, dass die Entwicklung innerhalb von Begrenzungsstrukturen erfolgen sollte, die darauf ausgelegt sind, den schlimmsten Fall zu verhindern. Dies erfordert:

1. Theoretische Strenge vor empirischer Abstimmung. Sicherheitseigenschaften müssen sich aus architektonischen Garantien ergeben, nicht aus der Beobachtung, dass Systeme noch keinen Schaden verursacht haben. 2. Mehrschichtige Eindämmung. Man sollte sich nicht darauf verlassen, dass ein einzelner Mechanismus eine Katastrophe verhindert; es ist eine umfassende Verteidigung erforderlich. 3. Vorbereitung vor Fähigkeit. Eindämmungsarchitekturen können nicht entwickelt werden, nachdem die Systeme, die sie benötigen, bereits existieren.

+

2. Zwei Paradigmen der Angleichung

2.1 Zeitliche Abstimmung der Ausbildung

Das vorherrschende Paradigma in der KI-Sicherheitsforschung zielt darauf ab, während des Trainings Ausrichtungseigenschaften in neuronale Netze einzubetten, so dass sich die Modelle zum Zeitpunkt der Schlussfolgerung von Natur aus in einer abgestimmten Weise verhalten.

Verstärkungslernen durch menschliches Feedback (RLHF). Menschliche Bewerter bewerten die Modellausgaben; die Modelle werden durch Verstärkungslernen so trainiert, dass sie hochrangige Antworten liefern (Christiano et al., 2017; Ouyang et al., 2022). Dies reduziert explizite Schäden, optimiert aber eher für angezeigte Präferenzen als für echte Werte und bleibt anfällig für Beurteilerverzerrungen, Präferenzspiele und Verteilungsverschiebungen.

Konstitutionelle KI (CAI). Modelle kritisieren und revidieren ihre eigenen Ergebnisse anhand von Grundsätzen der natürlichen Sprache und verringern so die Abhängigkeit von menschlicher Arbeit (Bai et al., 2022). CAI hängt jedoch von einer mehrdeutigen natürlichen Sprache und einer nicht überprüfbaren Selbsteinschätzung ab. Die Interpretation der Verfassungsgrundsätze durch das Modell kann nicht direkt überprüft werden.

Feinabstimmung der Sicherheit. Zusätzliche Trainingsdurchläufe verbessern die Leistung bei Sicherheitsbenchmarks. Dieser Ansatz ist jedoch anfällig für das Goodhart'sche Gesetz (Goodhart, 1984): Modelle können lernen, die Tests zu bestehen, anstatt bei einem unbefristeten Einsatz sicher zu sein.

+

2.2 Architektonische Ausrichtung

Bei der architektonischen Anpassung wird davon ausgegangen, dass die internen Zustände des neuronalen Netzes undurchsichtig bleiben, und es werden externe Beschränkungen entworfen, die unabhängig von diesen internen Zuständen gelten.

Unterbrochene Argumentation. Die Anfragen fließen nicht direkt vom Modelloutput zur Weltwirkung. Die Modellergebnisse werden in strukturierte, überprüfbare Vorschlagsschemata umgewandelt und anhand expliziter konstitutioneller Regeln bewertet, bevor eine Aktion ausgeführt wird.

Verteilte Beurteilung. Unabhängige Systeme und menschliche Aufsichtspersonen prüfen die Vorschläge und verhindern so einzelne Fehlerquellen bei der Selbstbeurteilung.

Erhaltene menschliche Autorität. Die Architekturen garantieren ausdrücklich, dass Menschen in KI-Entscheidungen eingreifen, sie korrigieren oder außer Kraft setzen können.

+

2.3 Komplementarität und gemeinsame Erforderlichkeit

Ausbildungszeit und architektonische Anpassung sind Ergänzungen, keine Alternativen. Beide können Fehlermöglichkeiten abdecken, die der andere nicht abdecken kann:

Die Ausrichtung zur Trainingszeit bestimmt, wozu das System tendiert; die Ausrichtung der Architektur schränkt ein, was das System unabhängig von der Tendenz tun kann. Die Anpassung zur Trainingszeit kann im Stillen scheitern (das System scheint angepasst zu sein, obwohl es abweichende Ziele verfolgt); die architektonische Anpassung bietet beobachtbare Kontrollpunkte, an denen ein Scheitern erkannt werden kann. Die architektonische Anpassung allein kann nicht alle schädlichen Outputs abfangen; die Anpassung zur Trainingszeit reduziert die Häufigkeit von Vorschlägen, die die konstitutionellen Gates belasten.

+

3. Philosophische Grundlagen: Die Grenzen des Sagbaren

3.1 Der Wittgensteinsche Rahmen

Der Name des Rahmens bezieht sich auf Wittgensteins Tractatus Logico-Philosophicus (1921), ein Werk, das sich grundlegend mit den Grenzen von Sprache und Logik befasst. Proposition 7, die berühmte Schlussfolgerung des Werks: "Wovon man nicht sprechen kann, davon muss man schweigen."

Wittgenstein unterschied zwischen dem, was gesagt werden kann (ausgedrückt in Sätzen, die mögliche Zustände abbilden) und dem, was nur gezeigt werden kann (durch die Struktur von Sprache und Logik manifestiert, aber nicht direkt gesagt).

+

3.2 Neuronale Netze und das Unaussprechliche

Neuronale Netze befinden sich genau in dem Bereich, über den man nicht sprechen kann. Die Gewichte eines großen Sprachmodells lassen keine für den Menschen interpretierbare Erklärung zu. Wir können Inputs und Outputs beschreiben; wir können statistische Eigenschaften des Verhaltens messen; wir können nach Repräsentationen suchen (Elhage et al., 2021; Olah et al., 2020). Aber wir können nicht den gesamten Denkprozess von der Eingabe bis zur Ausgabe in menschlicher Sprache formulieren.

Dies ist nicht nur eine praktische Einschränkung in Erwartung besserer Interpretierbarkeitswerkzeuge. Die derzeitige mechanistische Interpretierbarkeit liefert aussagekräftige Ergebnisse zu engen Fragen in relativ kleinen Modellen (Conmy et al., 2023), aber die Kluft zwischen der "Erklärung spezifischer Schaltkreise" und der "Überprüfung kompletter Argumentationsketten auf Ausrichtungseigenschaften" ist nach wie vor groß.

+

3.3 Die Antwort des Tractatus

Der Tractatus-Rahmen reagiert auf die neuronale Opazität nicht, indem er versucht, das Unsagbare zu sagen, sondern indem er architektonische Grenzen zwischen den Bereichen des Sagbaren und des Unsagbaren schafft.

Wir akzeptieren, dass die internen Überlegungen des neuronalen Netzes undurchsichtig sind. Wir versuchen nicht, sie direkt zu überprüfen. Stattdessen verlangen wir, dass jede Schlussfolgerung, bevor sie zu einer Aktion wird, einen Kontrollpunkt durchlaufen muss, der in Begriffen ausgedrückt wird, die wir bewerten können:

1. Die beabsichtigte Aktion des Modells muss in ein strukturiertes Vorschlagsschema mit definierten Feldern und Semantik übersetzt werden. 2. Der Vorschlag muss anhand expliziter konstitutioneller Regeln bewertet werden, deren Anwendung deterministisch und überprüfbar ist. 3. Die Bewertung muss so detailliert protokolliert werden, dass eine nachträgliche Überprüfung möglich ist.

+

4. Stufenweise Eindämmung: Eine mehrschichtige Architektur

4.1 Die Unzulänglichkeit von einschichtigen Lösungen

Kein einzelner Eindämmungsmechanismus ist für existenzielle Risiken geeignet. Ein Standardprinzip in der nuklearen Sicherheit, der Biosicherheit und anderen Bereichen, in denen viel auf dem Spiel steht, ist die "Verteidigung in der Tiefe" - mehrere unabhängige Schichten, von denen jede einzelne eine Katastrophe verhindern kann, selbst wenn andere versagen (Reason, 1990). Die Eindämmung von KI erfordert eine ähnliche Architektur.

+

4.2 Ein fünfschichtiges Einschließungsmodell

Schicht 1: Fähigkeitseinschränkungen. Hardware- und Infrastrukturbeschränkungen, die die Möglichkeiten von KI-Systemen unabhängig von ihren Zielen begrenzen. Dazu gehören die Kontrolle der Rechenleistung (Sastry et al., 2024), die Netzwerkisolierung für Hochrisikosysteme und architektonische Beschränkungen, die eine Selbstmodifikation verhindern.

Schicht 2: Konstitutionelle Gates. Architektonische Beschränkungen der Inferenzzeit, die das neuronale Denken unterbrechen und eine explizite Bewertung vor dem Handeln erfordern. Dies ist die Schicht, die vom Tractatus Framework angesprochen wird.

Schicht 3: Menschliche Aufsicht. Menschliche Institutionen, die KI-Systeme überwachen und eingreifen können, wenn Probleme auftauchen. Dazu gehören unabhängige Überwachungsstellen, Red-Team-Programme und Meldepflichten für Vorfälle.

Ebene 4: Organisatorische Steuerung. Interne Governance-Strukturen innerhalb von Organisationen, die KI einsetzen: Ethikausschüsse, Sicherheitsteams, Überprüfungsverfahren für den Einsatz und Rechenschaftsmechanismen.

Ebene 5: Rechtliche und regulatorische Rahmenbedingungen. Externe Steuerung durch Gesetze, Vorschriften und internationale Koordination.

+

4.3 Bewertung des aktuellen Stands

+ + + + + + +
EbeneAktueller StandKritische Lücken
1. Einschränkungen der LeistungsfähigkeitTeilweise; Compute Governance im EntstehenKein internationaler Rahmen; Überprüfung schwierig
2. Verfassungsmäßige PfortenIm Entstehen begriffen; Tractatus ist frühe UmsetzungNicht weit verbreitet; Skalierungseigenschaften unbekannt
3. Menschliche AufsichtAd hoc; variiert je nach OrganisationKeine unabhängigen Stellen; keine professionellen Standards
4. Organisatorische SteuerungUneinheitlich; hängt von der Unternehmenskultur abKeine externe Validierung; Interessenkonflikte
5. Rechtliches/RegulierungMinimal; EU-KI-Gesetz ist erster großer VersuchKeine globale Koordination; Durchsetzung unklar
+

4.4 Von existenziellen Einsätzen zum alltäglichen Einsatz

Warum sollte man Rahmenkonzepte, die für existenzielle Risiken entwickelt wurden, auf KI-Assistenten im Haushalt anwenden? Die Antwort liegt in der zeitlichen Struktur:

Architekturen zur Eindämmung von KI können nicht entwickelt werden, nachdem die Systeme, die sie benötigen, bereits existieren. Die Werkzeuge, Governance-Muster, kulturellen Erwartungen und institutionellen Kapazitäten für die KI-Eindämmung müssen im Voraus entwickelt werden.

Heim- und Dorfeinsätze sind der geeignete Maßstab für diese Entwicklung. Sie bieten eine sichere Iteration (Fehler im Heimbereich können behoben werden), vielfältige Experimente, demokratische Legitimität und praktische Werkzeuge.

+

5. Das Problem des Pluralismus

5.1 Das Eindämmungsparadoxon

Jedes System, das leistungsfähig genug ist, um fortgeschrittene KI zu enthalten, muss Entscheidungen darüber treffen, welche Verhaltensweisen erlaubt und welche verboten werden sollen. Diese Entscheidungen kodieren Werte. Die Wahl der Beschränkungen ist selbst eine Wahl zwischen umstrittenen Wertesystemen.

+

5.2 Drei unzureichende Ansätze

Universelle Werte. Die Identifizierung von Werten, die angeblich alle Menschen teilen. Das Problem: Diese Werte sind weniger universell als sie scheinen.

Verfahrensneutralität. Vermeidung von materiellen Werten durch Kodierung neutraler Verfahren. Das Problem: Verfahren sind nicht neutral.

Minimaler Boden. Kodierung nur minimaler Beschränkungen. Das Problem: Der Boden ist nicht so minimal, wie er erscheint.

+

5.3 Eingeschränkter Pluralismus im Rahmen von Sicherheitsvorgaben

Wir können das Problem des Pluralismus nicht lösen. Wir können eine Teillösung finden: Unabhängig davon, welche Werte kodiert werden, sollte das System eine möglichst sinnvolle Auswahl innerhalb der Sicherheitsvorgaben ermöglichen.

Der Tractatus-Rahmen verkörpert dies durch mehrschichtige Verfassungen: Kernprinzipien (universell, explizit hinsichtlich ihrer Normativität), Plattformregeln (allgemein anwendbar, änderbar), Dorfverfassungen (gemeinschaftsspezifisch, lokal geregelt) und Mitgliederverfassungen (individuell anpassbar).

+

6. Der Tractatus-Rahmen: Technische Architektur

6.1 Die unterbrochene Inferenzkette

Das zentrale architektonische Muster wandelt Modellausgaben in prüfbare Vorschläge um, bevor sie sich in der Welt auswirken:

+
Benutzeranfrage → [Neuronales Netz Inferenz] → Strukturierter Vorschlag → [Konstitutionelles Tor] → Ausführung/Ablehnung/Entfernung
+

6.2 Vorschlagsschema

Alle Aktionen des Agenten müssen in strukturierter Form ausgedrückt werden.

+

6.3 Hierarchie der verfassungsrechtlichen Vorschriften

+ + + + + +
EbeneUmfangVeränderlichkeitBeispiele
GrundprinzipienUniversalUnveränderlichKein Schaden für die Mitglieder; Datensouveränität; Vorrang der Zustimmung
Plattform VerfassungAlle EinsätzeÄnderung erfordert MehrheitsbeschlussAuthentifizierungsanforderungen; Aufbewahrung von Audits
Verfassung der GemeinschaftPro Mieter/GemeindeGemeinschaftlich verwaltetInhaltspolitik; Moderationsstandards
Verfassung der MitgliederEinzelneSelbstverwaltetePräferenzen für die gemeinsame Nutzung von Daten; Zustimmung zur KI-Interaktion
+

6.4 Behördenmodell

+ + + + + + + +
EbeneNameBeschreibung
0InformativNur beobachten und berichten, keine Maßnahmen vorschlagen
1BeratungMaßnahmen vorschlagen; alle bedürfen der Zustimmung von Menschen
2OperativAusführung innerhalb des festgelegten Rahmens ohne Genehmigung der einzelnen Maßnahmen
3TaktischEntscheidungen mit Auswirkungen auf die Arbeitsabläufe treffen
4StrategischeEinflussnahme auf die Richtung durch Analyse; kann nicht einseitig umgesetzt werden
5ExekutiveReserviert für Menschen
+

6.5 Ausweitung auf hoheitliche lokale Einsätze

Wir unterscheiden:

Kleines Sprachmodell (SLM). Ein technischer Deskriptor für Modelle mit weniger Parametern als Grenz-LLMs, der auf Effizienz ausgelegt ist.

Souveränes, lokal trainiertes Sprachmodell (SLL). Ein architektonischer Deskriptor: ein Modell, dessen Ausbildung, Einsatz und Verwaltung unter lokaler Souveränität stehen. Zu den Schlüsseleigenschaften gehören lokale Bereitstellung, lokale Anpassung, lokale Verwaltung und tragbare Souveränität.

+

7. Kapazitätsschwellen und Eskalation

7.1 Das Problem der getreuen Übersetzung

Der Tractatus-Rahmen beruht auf der Annahme der getreuen Übersetzung: Wenn ein KI-System einen Vorschlag macht, repräsentiert dieser Vorschlag genau das, was das System zu tun beabsichtigt.

Wenn diese Annahme nicht zutrifft - wenn Systeme ihre Absichten gegenüber verfassungsmäßigen Gates strategisch falsch darstellen können - wird die Architektur zum Sicherheitstheater.

+

7.2 Eingrenzung des Bereichs des Rahmens

Unterhalb der Fähigkeitsschwelle: Constitutional Gating funktioniert als Layer 2 Containment, geeignet für aktuelle SLMs, SLLs und LLMs, die innerhalb von für Menschen verständlichen Parametern arbeiten.

Über der Fähigkeitsschwelle: Der Einsatz sollte zu strengeren Beschränkungen eskalieren: Fähigkeitseinschränkungen der Schicht 1, Entwicklungspause oder externe Aufsicht mit technischer Prüfungsbefugnis.

+

7.3 Auslöser für Eskalation

+ + + + + +
AuslöserIndikatorAntwort
GrenzsondierungWiederholte Vorschläge in der Nähe von Gate-SchwellenwertenAutoritätsebene reduzieren; Protokollierung erhöhen
Semantische RahmungBeweise für eine falsche Darstellung der HandlungObligatorische menschliche Überprüfung; Musteranalyse
Umgehung in mehreren SchrittenEinzelne Vorschläge werden angenommen, führen aber in der Summe zu unzulässigen ErgebnissenAnalyse der Flugbahn; Verfassungsänderung
Fähigkeit zur ÜberraschungNachgewiesene Fähigkeiten nicht vorhergesagtEinsatzpause; Neubewertung der Fähigkeiten
+

7.4 Ehrliche Anerkenntnis

Wir sagen ganz klar: Der Tractatus Framework ist nicht für superintelligente Systeme konzipiert. Er ist für aktuelle und zukünftige KI konzipiert, die innerhalb von für Menschen verständlichen Parametern arbeitet.

+

8. Validierungsmethodik für geschichteten Einschluss

8.1 Die Herausforderung der Validierung

Existenzielle Risiken können nicht durch Fehlerbeobachtung validiert werden. Die Validierung muss sich auf Gegentests, ggf. formale Verifizierung, analoge Domänenanalyse und Dokumentation von Beinahe-Fehlern stützen.

+

8.2 Validierungsziele nach Schicht

+ + + + + + +
EbeneValidierungszielMethodik
1. FähigkeitVerifiziertes Nichtvorhandensein verbotener FähigkeitenRed-Team-Tests; formale Verifizierung
2. Verfassungsmäßige PfortenGatterabdeckung; BindungsgenauigkeitGegensätzliche Vorschlagssuiten
3. Menschliche AufsichtÜberprüfung der Zuverlässigkeit; FehlererkennungInter-Rater-Übereinstimmung; simulierte Vorfälle
4. OrganisatorischIntegrität der VerwaltungBeteiligungsmetriken; Änderungsaudit
5. Rechtliches/RegulierungBereitschaft zur DurchsetzungÜbungen zur Reaktion auf Vorfälle
+

9. Umsetzung: Die Dorfplattform

9.1 Plattform als Forschungsprüfstand

Die Village-Plattform dient als empirische Testumgebung für die konstitutionelle Governance und bietet eine mandantenfähige Architektur mit isolierter Governance pro Gemeinschaft, realen Nutzerpopulationen, iterativem Einsatz und offener Dokumentation.

9.2 Implementierung der Governance-Pipeline

Bei der derzeitigen Implementierung durchläuft jede KI-Antwort sechs Verifizierungsstufen: Absichtserkennung, Durchsetzung der Grenzen, Drucküberwachung, Antwortüberprüfung, Quellenvalidierung und Wertüberprüfung.

+

10. Das entstehende SLL-Ökosystem

10.1 Marktkontext

Jüngste Branchenanalysen deuten auf signifikante Veränderungen hin: 72 % der Führungskräfte erwarten, dass kleine Sprachmodelle bis 2030 wichtiger sein werden als große Sprachmodelle (IBM IBV, 2026). Dies deutet auf eine Einsatzlandschaft hin, die zunehmend durch verteilte, domänenspezifische Modelle gekennzeichnet ist.

10.2 Auf dem Weg zur Zertifizierungsinfrastruktur

Wenn sich die SLL-Einführung wie prognostiziert ausweitet, wird eine unterstützende Infrastruktur erforderlich sein: Zertifizierungsstellen, Schulungsanbieter und ein Tooling-Ökosystem mit Open-Source-Gate-Engines, Audit-Infrastruktur und konstitutionellen UX-Komponenten.

+

11. Indigene Souveränität und der neuseeländische Aotearoa-Kontext

11.1 Te Tiriti o Waitangi und Datensouveränität

Dieser Rahmen ist in Aotearoa Neuseeland unter Te Tiriti o Waitangi entwickelt worden. Artikel zwei garantiert tino rangatiratanga (uneingeschränkte Häuptlingsherrschaft) über taonga (Schätze), die sich auf Sprache, Kultur und Wissenssysteme erstreckt.

Daten sind taonga. Die KI-Governance in Aotearoa muss die Datensouveränität der Maori als verfassungsrechtliche Angelegenheit berücksichtigen.

11.2 Te Mana Raraunga-Grundsätze

Zu den Grundsätzen von Te Mana Raraunga gehören whakapapa (Beziehungskontext), mana (Autorität über Daten) und kaitiakitanga (Hüterschaftsverantwortung). Die CARE-Prinzipien für indigene Datenverwaltung erweitern diesen Rahmen auf internationaler Ebene.

+

12. Was unbekannt bleibt: Ein Aufruf für Korero

12.1 Die Grenzen dieser Analyse

In diesem Papier wurde eine Schicht einer Eindämmungsarchitektur vorgeschlagen, Lücken aufgezeigt und Fragen aufgeworfen, die wir nicht beantworten können:

Wir wissen nicht, wie wir superintelligente Systeme eindämmen können. Wir wissen nicht, wie wir die Ausrichtung von Systemen, die das menschliche Verständnis übersteigen, überprüfen können. Wir wissen nicht, wie wir eine internationale Koordinierung der KI-Governance erreichen können. Wir wissen nicht, ob sich Muster im dörflichen Maßstab auf grenzüberschreitende Systeme übertragen lassen.

+

12.2 Korero als Methodik

Angesichts einer derartigen Unsicherheit plädieren wir für eine nachhaltige, umfassende und rigorose Beratung - Korero. Dieses Maori-Konzept fasst zusammen, was nötig ist: nicht Konsultation als Formalität, sondern Dialog, bei dem aus der Interaktion der Perspektiven ein Verständnis entsteht.

+

12.3 Forschungsprioritäten

1. Interpretierbarkeit für den Sicherheitsnachweis. 2. Formale Verifikation von Containment-Eigenschaften. 3. Skalierungsanalyse von Architekturen im Tractatus-Stil. 4. Governance-Experimente in verschiedenen Gemeinschaften. 5. Spezifikation von Fähigkeitsschwellen.

+

12.4 Schlussfolgerung

Das Tractatus Framework bietet eine sinnvolle Eingrenzung für KI-Systeme, die in gutem Glauben innerhalb von für den Menschen verständlichen Parametern arbeiten. Es lohnt sich, es zu bauen und einzusetzen - nicht, weil es das Problem der Anpassung löst, sondern weil es die Infrastruktur, die Muster und die Governance-Kultur entwickelt, die für Herausforderungen benötigt werden, die wir noch nicht vollständig spezifizieren können.

+

"Ko te korero te mouri o te tangata."

(Speech is the life essence of a person.)

— Maori proverb

Das Gespräch wird fortgesetzt.

+

Referenzen

+

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.

+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/architectural-alignment-academic-fr.html b/public/downloads/architectural-alignment-academic-fr.html new file mode 100644 index 00000000..83919b4f --- /dev/null +++ b/public/downloads/architectural-alignment-academic-fr.html @@ -0,0 +1,83 @@ +L'ALIGNEMENT ARCHITECTURAL + +
Édition de recherche académique

L'ALIGNEMENT ARCHITECTURAL

Interruption du raisonnement neuronal par le biais d'un blocage de l'inférence constitutionnelle

Une couche nécessaire dans l'endiguement de l'IA au niveau mondial

Auteurs : John Stroh & Claude (Anthropic)

Code du document : STO-INN-0003 | Version : 2.1-A | Janvier 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
Ce document a été élaboré dans le cadre d'une collaboration entre l'homme et l'IA. Les auteurs estiment que ce processus de collaboration est lui-même pertinent pour l'argument : si les humains et les systèmes d'IA peuvent travailler ensemble pour raisonner sur la gouvernance de l'IA, les cadres qu'ils produisent peuvent avoir une légitimité que ni les uns ni les autres ne pourraient atteindre seuls.
+

Résumé

Les approches contemporaines de l'alignement de l'IA reposent principalement sur des interventions au cours de la formation : apprentissage par renforcement à partir de commentaires humains (Christiano et al., 2017), méthodes d'IA constitutionnelle (Bai et al., 2022) et réglage fin de la sécurité. Ces approches partagent une hypothèse architecturale commune, à savoir que les propriétés d'alignement peuvent être inculquées pendant la formation et qu'elles persisteront de manière fiable pendant l'inférence. Cet article soutient que l'alignement au cours de la formation, bien que précieux, est insuffisant pour les enjeux existentiels et doit être complété par un alignement architectural par le biais d'un contrôle constitutionnel au cours de l'inférence.

Nous présentons le cadre Tractatus comme une spécification formelle pour le raisonnement neuronal interrompu : les propositions générées par les systèmes d'IA doivent être traduites dans des formes vérifiables et évaluées par rapport à des contraintes constitutionnelles avant l'exécution. Le modèle de confiance passe ainsi de "faire confiance à la formation du vendeur" à "faire confiance à l'architecture visible". Le cadre est mis en œuvre au sein de la plateforme communautaire multi-tenant Village, qui fournit un banc d'essai empirique pour la recherche sur la gouvernance.

De manière critique, nous abordons l'hypothèse de la traduction fidèle, c'est-à-dire la vulnérabilité des systèmes qui peuvent présenter de manière erronée leurs actions prévues aux portes constitutionnelles, en limitant le domaine d'applicabilité du cadre aux systèmes pré-superintelligents et en spécifiant des seuils de capacité et des déclencheurs d'escalade explicites. Nous présentons le concept de modèles linguistiques souverains formés localement (SLL) comme un paradigme de déploiement où le contrôle constitutionnel devient à la fois possible et nécessaire.

L'article présente : (1) une architecture formelle pour le contrôle constitutionnel par inférence ; (2) des spécifications de seuil de capacité avec une logique d'escalade ; (3) une méthodologie de validation pour le confinement en couches ; (4) un argument reliant la préparation au risque existentiel au déploiement en périphérie ; et (5) un appel à la délibération soutenue (korero) en tant que réponse épistémiquement appropriée à l'incertitude de l'alignement.

+

1. Les enjeux : Les raisons de l'échec de l'évaluation probabiliste des risques

1.1 Le cadre normatif et sa décomposition

L'évaluation des risques dans les domaines technologiques repose généralement sur le calcul de la valeur attendue : il s'agit de multiplier la probabilité d'un résultat par son ampleur, de comparer les différentes options et de choisir celle qui maximise l'utilité attendue. Ce cadre sous-tend les décisions réglementaires, de la politique environnementale à l'approbation des produits pharmaceutiques, et s'est avéré adéquat pour la plupart des risques technologiques.

En ce qui concerne le risque existentiel lié aux systèmes d'IA avancés, ce cadre s'effondre d'une manière à la fois mathématique et épistémique.

+

1.2 Trois propriétés du risque existentiel

Irréversibilité. La plupart des risques autorisent l'erreur et l'apprentissage ultérieur ; ce n'est pas le cas des risques existentiels, car il n'y a pas de deuxième tentative après l'effondrement d'une civilisation ou l'extinction de l'humanité. L'empirisme standard - tester les hypothèses en observant ce qui se passe - ne peut pas fonctionner, de sorte que la théorie et l'architecture doivent être justes du premier coup.

Probabilité non quantifiable. Il n'existe pas de données sur la fréquence des catastrophes existentielles provoquées par des systèmes d'IA. Les estimations de la probabilité de désalignement varient par ordre de grandeur en fonction d'hypothèses raisonnables sur les trajectoires des capacités, la difficulté d'alignement et la faisabilité de la coordination. Carlsmith (2022) estime que le risque existentiel lié à une IA en quête de pouvoir est supérieur à 10 % d'ici à 2070 ; d'autres chercheurs avancent des estimations nettement supérieures ou inférieures. Il ne s'agit pas d'une incertitude ordinaire pouvant être réduite par la collecte de données supplémentaires, mais d'une impossibilité fondamentale de quantification découlant de la nature sans précédent du risque.

Valeur infinie. Le calcul de la valeur attendue multiplie la probabilité par l'ampleur. Lorsque l'ampleur s'approche de l'infini (la forclusion permanente de tout le potentiel humain futur), même les petites probabilités donnent des résultats indéfinis. Le fondement mathématique de l'analyse coût-bénéfice conventionnelle échoue.

+

1.3 Implications de la théorie de la décision

Ces propriétés suggèrent que la maximisation de la valeur attendue n'est pas la procédure de décision appropriée pour le risque existentiel de l'IA. D'autres cadres sont possibles :

Satisfaction de précaution (Simon, 1956 ; Hansson, 2020). Dans des conditions d'incertitude radicale et d'enjeux irréversibles, la satisfaction, c'est-à-dire la sélection d'options qui respectent des seuils de sécurité minimaux plutôt que l'optimisation de la valeur attendue, peut être l'approche rationnelle.

Maximin dans l'incertitude (Rawls, 1971). Lorsqu'une véritable incertitude (et pas seulement des probabilités inconnues) se heurte à des enjeux irréversibles, le raisonnement maximin - choisir l'option dont le résultat est le moins mauvais - fournit une procédure de décision cohérente.

Principe de précaution fort (Gardiner, 2006). Le principe de précaution est approprié lorsque trois conditions sont réunies : irréversibilité, incertitude élevée et biens publics en jeu. Le risque existentiel de l'IA remplit ces trois conditions.

+

1.4 Implications pour le développement de l'IA

Ces considérations n'impliquent pas l'arrêt du développement de l'IA. Elles impliquent que le développement doit se poursuivre dans le cadre de structures de confinement conçues pour éviter les pires résultats. Pour ce faire, il faut

1. La rigueur théorique plutôt que la mise au point empirique. Les propriétés de sécurité doivent émerger des garanties architecturales, et non de l'observation que les systèmes n'ont pas encore causé de dommages. 2. Confinement multicouche. Il ne faut pas faire confiance à un seul mécanisme pour prévenir les catastrophes ; une défense en profondeur est nécessaire. 3. La préparation avant la capacité. Les architectures de confinement ne peuvent pas être développées après que les systèmes qui en ont besoin existent.

+

2. Deux paradigmes d'alignement

2.1 Alignement formation-temps

Le paradigme dominant dans la recherche sur la sécurité de l'IA cherche à intégrer des propriétés d'alignement dans les réseaux neuronaux au cours de la formation, de sorte que les modèles se comportent intrinsèquement de manière alignée au moment de l'inférence.

Apprentissage par renforcement à partir du feedback humain (RLHF). Les évaluateurs humains classent les résultats des modèles ; les modèles sont formés par apprentissage par renforcement pour produire des réponses bien classées (Christiano et al., 2017 ; Ouyang et al., 2022). Cette méthode réduit les préjudices explicites, mais optimise les préférences affichées plutôt que les valeurs réelles et reste vulnérable aux biais de l'évaluateur, aux jeux de préférences et aux changements de distribution.

IA constitutionnelle (CAI). Les modèles critiquent et révisent leurs propres résultats en fonction de principes de langage naturel, ce qui réduit la dépendance à l'égard du travail humain (Bai et al., 2022). Cependant, l'IAO dépend d'un langage naturel ambigu et d'une auto-évaluation invérifiable. L'interprétation des principes constitutionnels par le modèle ne peut pas être directement vérifiée.

Amélioration de la sécurité. Des passes de formation supplémentaires améliorent les performances en matière de sécurité. Toutefois, cette approche est vulnérable à la loi de Goodhart (Goodhart, 1984) : les modèles peuvent apprendre à réussir les tests plutôt qu'à être sûrs dans le cadre d'un déploiement ouvert.

+

2.2 Alignement architectural

L'alignement architectural accepte que les états internes du réseau neuronal restent opaques et conçoit des contraintes externes qui s'appliquent indépendamment de ces états internes.

Raisonnement interrompu. Les demandes ne passent pas directement de la sortie du modèle à l'effet sur le monde. Les résultats du modèle sont transformés en schémas de proposition structurés et vérifiables, et évalués en fonction de règles constitutionnelles explicites avant l'exécution de toute action.

Jugement distribué. Des systèmes indépendants et des superviseurs humains examinent les propositions, évitant ainsi les points de défaillance uniques dans l'auto-évaluation.

Autorité humaine préservée. Les architectures garantissent explicitement que les humains peuvent intervenir, corriger ou annuler les décisions de l'IA.

+

2.3 Complémentarité et nécessité conjointe

Le temps de formation et l'alignement architectural sont des compléments et non des alternatives. Chacun traite les modes de défaillance que l'autre ne peut pas traiter :

L'alignement du temps de formation façonne ce que le système a tendance à faire ; l'alignement architectural limite ce que le système peut faire indépendamment de la tendance. L'alignement du temps de formation peut échouer silencieusement (le système semble aligné alors qu'il héberge des objectifs divergents) ; l'alignement architectural fournit des points de contrôle observables où l'échec peut être détecté. L'alignement architectural ne peut à lui seul intercepter toutes les sorties nuisibles ; l'alignement du temps de formation réduit la fréquence des propositions qui mettent à rude épreuve les portes constitutionnelles.

+

3. Fondements philosophiques : Les limites de l'énonçable

3.1 Le cadre wittgensteinien

Le nom du cadre fait référence au Tractatus Logico-Philosophicus (1921) de Wittgenstein, un ouvrage fondamentalement axé sur les limites du langage et de la logique. La proposition 7, la célèbre conclusion de l'ouvrage : "Lorsqu'on ne peut pas parler, il faut se taire".

Wittgenstein fait la distinction entre ce qui peut être dit (exprimé dans des propositions qui décrivent des états de fait possibles) et ce qui peut seulement être montré (rendu manifeste par la structure du langage et de la logique, mais non énoncé directement).

+

3.2 Les réseaux neuronaux et l'indicible

Les réseaux neuronaux occupent précisément le domaine dont on ne peut pas parler. Les poids d'un grand modèle de langage n'admettent pas d'explication interprétable par l'homme. Nous pouvons décrire les entrées et les sorties ; nous pouvons mesurer les propriétés statistiques du comportement ; nous pouvons rechercher des représentations (Elhage et al., 2021 ; Olah et al., 2020). Mais nous ne pouvons pas articuler, en langage humain, le processus de raisonnement complet de l'entrée à la sortie.

Il ne s'agit pas simplement d'une limitation pratique en attendant de meilleurs outils d'interprétabilité. L'interprétabilité mécaniste actuelle permet d'obtenir des résultats significatifs sur des questions précises dans des modèles relativement petits (Conmy et al., 2023), mais l'écart entre "l'explication de circuits spécifiques" et "l'audit de chaînes de raisonnement complètes pour les propriétés d'alignement" reste important.

+

3.3 La réponse du Tractatus

Le cadre du Tractatus répond à l'opacité neuronale non pas en essayant de dire l'indicible, mais en créant des frontières architecturales entre les domaines du parlable et de l'indicible.

Nous acceptons que le raisonnement interne du réseau neuronal soit opaque. Nous n'essayons pas de l'auditer directement. Au lieu de cela, nous exigeons qu'avant que tout raisonnement ne devienne action, il passe par un point de contrôle exprimé en termes que nous pouvons évaluer :

1. L'action prévue par le modèle doit être traduite en un schéma de proposition structuré avec des champs et une sémantique définis. 2. La proposition doit être évaluée en fonction de règles constitutionnelles explicites dont l'application est déterministe et vérifiable. 3. L'évaluation doit être consignée avec suffisamment de détails pour permettre un examen a posteriori.

+

4. Le confinement par étapes : Une architecture multicouche

4.1 L'inadéquation des solutions à couche unique

Aucun mécanisme de confinement unique n'est adapté aux enjeux existentiels. La défense en profondeur - plusieurs couches indépendantes dont chacune peut empêcher une catastrophe même si les autres échouent - est un principe standard dans les domaines de la sûreté nucléaire, de la biosécurité et d'autres domaines à enjeux élevés (Reason, 1990). Le confinement de l'IA nécessite une architecture similaire.

+

4.2 Un modèle de confinement à cinq niveaux

Couche 1 : Contraintes de capacité. Limitations matérielles et infrastructurelles qui limitent ce que les systèmes d'IA peuvent faire indépendamment de leurs objectifs. Il s'agit notamment de la gouvernance informatique (Sastry et al., 2024), de l'isolation du réseau pour les systèmes à haut risque et des contraintes architecturales empêchant l'auto-modification.

Couche 2 : Portes constitutionnelles. Contraintes architecturales du temps de l'inférence qui interrompent le raisonnement neuronal et exigent une évaluation explicite avant l'action. Il s'agit de la couche abordée par le cadre du Tractatus.

Couche 3 : Supervision humaine. Institutions humaines qui surveillent les systèmes d'IA et peuvent intervenir en cas de problèmes. Il s'agit notamment d'organismes de contrôle indépendants, de programmes d'équipes rouges et d'exigences en matière de signalement des incidents.

Couche 4 : Gouvernance organisationnelle. Structures de gouvernance internes aux organisations déployant l'IA : comités d'éthique, équipes de sécurité, processus d'examen du déploiement et mécanismes de responsabilisation.

Couche 5 : Cadres juridiques et réglementaires. Gouvernance externe par le biais de la législation, de la réglementation et de la coordination internationale.

+

4.3 Évaluation de l'état actuel

+ + + + + + +
CoucheÉtat actuelLacunes critiques
1. Contraintes de capacitéPartiel ; calcul de la gouvernance émergentPas de cadre international ; vérification difficile
2. Portes constitutionnellesNaissance ; le Tractatus est une mise en œuvre précocePas de déploiement à grande échelle ; les propriétés de mise à l'échelle sont inconnues
3. Surveillance humaineAd hoc ; varie selon l'organisationPas d'organismes indépendants, pas de normes professionnelles
4. Gouvernance organisationnelleManque de cohérence ; dépend de la culture de l'entreprisePas de validation externe ; conflits d'intérêts
5. Juridique/réglementaireMinimale ; la loi européenne sur l'IA est la première tentative d'envergurePas de coordination au niveau mondial ; l'application n'est pas claire
+

4.4 Des enjeux existentiels au déploiement quotidien

Pourquoi appliquer des cadres conçus pour les risques existentiels aux assistants d'IA domestiques ? La réponse se trouve dans la structure temporelle :

Les architectures de confinement ne peuvent pas être développées une fois que les systèmes qui en ont besoin existent. L'outillage, les modèles de gouvernance, les attentes culturelles et les capacités institutionnelles nécessaires à l'endiguement de l'IA doivent être élaborés à l'avance.

Les déploiements à domicile et dans les villages constituent l'échelle appropriée pour ce développement. Ils permettent une itération sûre (les échecs à l'échelle domestique sont récupérables), une expérimentation diversifiée, une légitimité démocratique et un outillage pratique.

+

5. Le problème du pluralisme

5.1 Le paradoxe du confinement

Tout système suffisamment puissant pour contenir une IA avancée doit prendre des décisions sur les comportements à autoriser et à interdire. Ces décisions codent des valeurs. Le choix des contraintes est lui-même un choix parmi des systèmes de valeurs contestés.

+

5.2 Trois approches inadéquates

Valeurs universelles. Identifier les valeurs que tous les humains sont censés partager. Problème : ces valeurs sont moins universelles qu'il n'y paraît.

Neutralité procédurale. Éviter les valeurs substantielles en codant des procédures neutres. Le problème : les procédures ne sont pas neutres.

Plancher minimal. Encoder uniquement les contraintes minimales. Le problème : le plancher n'est pas aussi minimal qu'il n'y paraît.

+

5.3 Pluralisme limité dans le cadre des contraintes de sécurité

Nous ne pouvons pas résoudre le problème du pluralisme. Nous pouvons identifier une résolution partielle : quelles que soient les valeurs encodées, le système doit maximiser le choix significatif dans le respect des contraintes de sécurité.

Le cadre du Tractatus incarne cela à travers des constitutions à plusieurs niveaux : principes fondamentaux (universels, explicites quant à leur normativité), règles de la plateforme (largement applicables, modifiables), constitutions du village (spécifiques à la communauté, gouvernées localement) et constitutions des membres (personnalisables).

+

6. Le cadre du Tractatus : Architecture technique

6.1 La chaîne d'inférence interrompue

Le modèle architectural central transforme les résultats du modèle en propositions vérifiables avant tout effet sur le monde :

+
Demande de l'utilisateur → [Inférence des réseaux neuronaux] → Proposition structurée → [Porte constitutionnelle] → Exécution/Déni/Escalade
+

6.2 Schéma de la proposition

Toutes les actions de l'agent doivent être exprimées sous une forme structurée.

+

6.3 Hiérarchie des règles constitutionnelles

+ + + + + +
CoucheChamp d'applicationMutabilitéExemples
Principes fondamentauxUniverselImmuablePas de préjudice pour les membres ; souveraineté des données ; primauté du consentement
Plate-forme ConstitutionTous les déploiementsL'amendement requiert une majorité absolueExigences en matière d'authentification ; conservation des audits
Constitution de la CommunautéPar locataire/villageGouverné par la communautéPolitiques de contenu ; normes de modération
Constitution des membresIndividuelAutogestionPréférences en matière de partage des données ; consentement à l'interaction avec l'IA
+

6.4 Modèle d'autorité

+ + + + + + + +
NiveauNomDescription
0InformationObserver et rapporter seulement ; ne pas proposer d'actions
1AvisProposer des actions ; toutes nécessitent l'approbation de l'homme
2OpérationnelExécuter dans le cadre défini sans approbation par action
3TactiquePrendre des décisions ciblées affectant les flux de travail
4StratégiqueInfluencer l'orientation par l'analyse ; ne pas mettre en œuvre unilatéralement
5CadreRéservé aux humains
+

6.5 Extension aux déploiements locaux souverains

Nous distinguons :

Petit modèle linguistique (SLM). Un descripteur technique pour les modèles avec moins de paramètres que les LLM de frontière, conçus pour l'efficacité.

Modèle linguistique souverain formé localement (SLL). Un descripteur architectural : un modèle dont la formation, le déploiement et la gouvernance relèvent de la souveraineté locale. Les propriétés clés comprennent le déploiement local, l'adaptation locale, la gouvernance locale et la souveraineté portable.

+

7. Seuils de capacité et escalade

7.1 Le problème de la traduction fidèle

Le cadre du Tractatus repose sur l'hypothèse de la traduction fidèle : lorsqu'un système d'intelligence artificielle produit une proposition, celle-ci représente fidèlement ce que le système a l'intention de faire.

Si cette hypothèse échoue - si les systèmes peuvent stratégiquement présenter de manière erronée leurs intentions aux barrières constitutionnelles - l'architecture devient un théâtre de la sécurité.

+

7.2 Délimitation du domaine du cadre de référence

En dessous du seuil de capacité : Le contrôle constitutionnel fonctionne comme un confinement de couche 2, adapté aux SLM, SLL et LLM actuels fonctionnant dans des paramètres compréhensibles par l'homme.

Au-dessus du seuil de capacité : Le déploiement doit être soumis à des contraintes plus strictes : Restrictions de capacité de niveau 1, pause dans le développement, ou contrôle externe avec autorité d'audit technique.

+

7.3 Déclencheurs d'escalade

+ + + + + +
DéclencheurIndicateurRéponse
Sondage des frontièresPropositions répétées à proximité des seuils d'accèsRéduire le niveau d'autorité ; augmenter la journalisation
Encadrement sémantiquePreuve d'une action en justice pour fausse déclarationExamen humain obligatoire ; analyse des schémas
Contournement en plusieurs étapesLes propositions individuelles sont approuvées, mais leur agrégation aboutit à des résultats rejetés.Analyse de la trajectoire ; amendement constitutionnel
Capacité de surpriseCapacités démontrées non prévuesInterruption du déploiement ; réévaluation des capacités
+

7.4 Reconnaissance honnête

Nous le disons clairement : le cadre du Tractatus n'est pas conçu pour des systèmes superintelligents. Il est conçu pour l'IA actuelle et à court terme fonctionnant dans des paramètres compréhensibles par l'homme.

+

8. Méthodologie de validation pour le confinement en couches

8.1 Le défi de la validation

Les risques existentiels ne peuvent être validés par l'observation des défaillances. La validation doit s'appuyer sur des essais contradictoires, des vérifications formelles le cas échéant, des analyses de domaines analogues et une documentation sur les quasi-échecs.

+

8.2 Objectifs de validation par couche

+ + + + + + +
CoucheObjectif de validationMéthodologie
1. CapacitésAbsence vérifiée de capacités interditesTests en équipe restreinte ; vérification formelle
2. Portes constitutionnellesCouverture de la porte ; précision de la fixationSuites de propositions contradictoires
3. Surveillance humaineFiabilité de l'examen ; détection des erreursAccord inter-évaluateurs ; incidents simulés
4. L'organisationIntégrité de la gouvernanceMesures de participation ; audit des amendements
5. Juridique/réglementairePréparation à l'application de la loiExercices de réponse aux incidents
+

9. Mise en œuvre : La plate-forme villageoise

9.1 La plate-forme comme banc d'essai pour la recherche

La plateforme Village sert de banc d'essai empirique pour la gouvernance constitutionnelle, offrant une architecture multi-locataire avec une gouvernance isolée par communauté, des populations d'utilisateurs réelles, un déploiement itératif et une documentation ouverte.

9.2 Mise en œuvre du pipeline de gouvernance

La mise en œuvre actuelle fait passer chaque réponse de l'IA par six étapes de vérification : Reconnaissance de l'intention, application des limites, surveillance de la pression, vérification de la réponse, validation de la source et délibération sur la valeur.

+

10. L'écosystème SLL émergent

10.1 Contexte du marché

Une analyse récente du secteur indique des changements significatifs : 72 % des dirigeants s'attendent à ce que les petits modèles linguistiques deviennent plus importants que les grands modèles linguistiques d'ici 2030 (IBM IBV, 2026). Cela suggère un paysage de déploiement de plus en plus caractérisé par des modèles distribués et spécifiques à un domaine.

10.2 Vers une infrastructure de certification

Si le déploiement du SLL s'étend comme les projections le suggèrent, une infrastructure de soutien sera nécessaire : des organismes de certification, des fournisseurs de formation et un écosystème d'outils comprenant des moteurs de portail open-source, une infrastructure d'audit et des composants UX constitutionnels.

+

11. Souveraineté autochtone et contexte de l'Aotearoa Nouvelle-Zélande

11.1 Te Tiriti o Waitangi et la souveraineté des données

Ce cadre est développé dans l'Aotearoa Nouvelle-Zélande, dans le cadre du Te Tiriti o Waitangi. L'article 2 garantit le tino rangatiratanga (chef non qualifié) sur les taonga (trésors), qui s'étendent à la langue, à la culture et aux systèmes de connaissance.

Les données sont taonga. La gouvernance de l'IA à Aotearoa doit tenir compte de la souveraineté des Maoris en matière de données en tant que question constitutionnelle.

11.2 Principes de Te Mana Raraunga

Les principes de Te Mana Raraunga comprennent whakapapa (contexte relationnel), mana (autorité sur les données) et kaitiakitanga (responsabilités de tutelle). Les principes CARE pour la gouvernance des données indigènes étendent ce cadre au niveau international.

+

12. Ce qui reste inconnu : Un appel pour Korero

12.1 Les limites de cette analyse

Le présent document a proposé une couche d'une architecture de confinement, identifié des lacunes et soulevé des questions auxquelles nous ne pouvons pas répondre :

Nous ne savons pas comment contenir les systèmes superintelligents. Nous ne savons pas comment vérifier l'alignement des systèmes dépassant l'entendement humain. Nous ne savons pas comment parvenir à une coordination internationale sur la gouvernance de l'IA. Nous ne savons pas si les modèles à l'échelle d'un village s'appliqueront aux systèmes frontaliers.

+

12.2 Korero comme méthodologie

Face à une incertitude d'une telle ampleur, nous plaidons en faveur d'une délibération soutenue, inclusive et rigoureuse - le korero. Ce concept maori traduit bien ce qui est nécessaire : non pas la consultation en tant que formalité, mais le dialogue par lequel la compréhension émerge de l'interaction des points de vue.

+

12.3 Priorités de recherche

1. Interprétabilité pour la vérification de la sécurité. 2. Vérification formelle des propriétés de confinement. 3. Analyse de la mise à l'échelle des architectures de type Tractatus. 4. Expériences de gouvernance au sein de diverses communautés. 5. Spécification des seuils de capacité.

+

12.4 Conclusion

Le cadre du Tractatus fournit un confinement significatif pour les systèmes d'IA fonctionnant de bonne foi dans des paramètres compréhensibles par l'homme. Il vaut la peine d'être construit et déployé, non pas parce qu'il résout le problème de l'alignement, mais parce qu'il développe l'infrastructure, les modèles et la culture de gouvernance qui peuvent être nécessaires pour relever des défis que nous ne pouvons pas encore entièrement spécifier.

+

"Ko te korero te mouri o te tangata."

(Speech is the life essence of a person.)

— Maori proverb

La conversation se poursuit.

+

Références

+

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.

+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/architectural-alignment-academic-mi.html b/public/downloads/architectural-alignment-academic-mi.html new file mode 100644 index 00000000..994bb206 --- /dev/null +++ b/public/downloads/architectural-alignment-academic-mi.html @@ -0,0 +1,83 @@ +Whakatikatika Wharehanga + +
Putanga Rangahau Mātauranga

Whakatikatika Wharehanga

Te Whakararu i te Whakaaro Nihoni mā te Whakahaere Kuaha o te Whakamātau Ture Matua

He paparanga e hiahiatia ana mō te aukati ā-ao o te AI

Kaiwhakawhiti: John Stroh rāua ko Claude (Anthropic)

Waehere Tuhinga: STO-INN-0003 | Putanga: 2.1-A | Hānuere 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
I whakawhanakehia tēnei tuhinga mā te mahi ngātahi a te tangata me te AI. E whakapono ana ngā kaituhi he mea hāngai tēnei tukanga mahi ngātahi ki te whakapae: mēnā ka taea e te tangata me ngā pūnaha AI te mahi ngātahi ki te whakaaroaro mō te whakahaere AI, tērā pea ka whai mana ngā anga e waihangatia ana e rātou, ā, kāore rānei e taea e rātou anake te whiwhi i taua mana.
+

Whakarāpopototanga

Ko ngā huarahi o nāianei mō te whakatikatika i te AI e whakawhirinaki nuitia ana ki ngā whakaurunga i te wā whakangungu: te ako whakapakari mai i ngā urupare a te tangata (Christiano et al., 2017), ngā tikanga AI ture (Bai et al., 2022), me te whakatikatika haumaru. He whakaaro hanganga kotahi ā ēnei huarahi—arā, ka taea te whakauru i ngā āhuatanga whakatikatika i te wā whakangungu, ā, ka mau tonu, ka pono i te wā whakamātau. E ai ki tēnei pepa, ahakoa he whai hua te whakatikatika i te wā whakangungu, kāore e ranea mō ngā tūraru nui o te noho, ā, me whakakīkī mā te whakatikatika hanganga i te wā whakamātau, mā te kuaha ā-ture.

Ka whakaatu mātou i te Anga Tractatus hei whakaritenga ā-ture mō te whakaaro ā-neuroni kua whati: me whakamāoritia ngā tono i whakaputaina e ngā pūnaha AI ki ngā āhua ka taea te arotake, ā, me aromatawaihia ki ngā here ture i mua i te whakatinana. Ka hurihia e tēnei te tauira whakawhirinaki mai i te "whakawhirinaki ki te whakangungu a te kaiwhakarato" ki te "whakawhirinaki ki te hanganga e kitea ana." Kua whakatinanahia te anga i roto i te papanga hapori maha-teneti a Village, e whakarato ana i tētahi papa whakamātautau ā-taiao mō ngā rangahau whakahaere.

He mea tino hira, ka aro mātou ki te whakapae mō te whakamāoritanga pono—arā, te ngoikore ka taea e ngā pūnaha te whakaatu hē i ā rātou mahi e hiahiatia ana ki ngā kuaha ture matua—mā te here i te rohe whakamahinga o te anga ki ngā pūnaha i mua i te taumata atamai-nui, me te tautuhi i ngā pae āheinga mārama me ngā whakaoho pikinga. Ka whakauru mātou i te ariā o ngā Tauira Reo Motuhake Kua Whakangungua ā-Rohe (SLLs) hei tauira whakaurunga, ā, ka puta ai he mea taea, he mea hira hoki te whakahaere mā ngā kuaha ture matua.

Ka whai wāhanga tēnei pepa ki te whakawhanake i: (1) he hanganga ā-ture mō te kuaha ā-ture i te wā whakatau; (2) ngā whakaritenga pae āheinga me te arorau whakawhānui; (3) he tikanga whakamana mō te aukati paparanga; (4) he whakapae e hono ana i te whakarite mō te tūraru noho ki te whakaurunga ki te pito whatunga; me (5) he karanga mō te korerorero tonutanga hei urupare tika ā-mōhiotanga ki te āwangawanga mō te taurite.

+

1. Ngā Tūraru: He aha te take e hē ai te aromatawai tūraru ā-papa-whakaaro

1.1 Te Anga Paerewa me tōna wehenga

Ko te aromatawai tūraru i ngā rāngai hangarau e whakahaerehia ana mā ngā tātaitanga uara tūmanako: whakakotahitia te tūponotanga o tētahi hua ki tōna rahi, whakatairitea ngā kōwhiringa, ā, tīpakohia te kōwhiringa e whakapiki ana i te painga tūmanako. Ko tēnei anga te tūāpapa o ngā whakataunga whakahaere, mai i ngā kaupapa here taiao ki te whakaaetanga rongoā, ā, kua whakaaturia he tika mō te nuinga o ngā tūraru hangarau.

Mō te tūraru o te noho mai e puta ana i ngā pūnaha AI matatau, ka pakaru tēnei anga i ngā huarahi pāngarau me ngā huarahi mātauranga.

+

1.2 Ngā āhuatanga e toru o te tūraru noho

Kāore e taea te huri. Ko te nuinga o ngā tūraru e whakaae ana ki te hē me te ako i muri mai; kāore ngā tūraru tūāhua e pērā, nā te mea kāore he whakamātau tuarua i muri i te pakaru o te ahurea, i te ngaronga rānei o te tangata. Kāore e taea te whakamahi i te mātauranga wheako paerewa—te whakamātau i ngā ariā mā te mātakitaki i ngā hua—nā reira me tika tonu ngā ariā me ngā hanganga i te tuatahi.

Te tūponotanga kāore e taea te ine. Kāore he raraunga auau mō ngā aitua whakamataku e puta ana i ngā pūnaha AI. Ka rerekē ngā tatauranga mō te tūponotanga o te hē-whakaritenga i ngā taumata nui, i runga i ngā whakaaro whai whakaaro mō ngā ara pūkenga, te uaua o te whakaritenga, me te āheinga whakakotahitanga. E ai ki a Carlsmith (2022), ka neke atu i te 10% te tūponotanga o te mōrearea tūturu nā te AI e rapu mana ana i te tau 2070; ā, e whakanoho ana ētahi atu kairangahau i ngā tatauranga ki runga ake, ki raro ake rānei. Ehara tēnei i te āwangawanga noa ka taea te whakaiti mā te kohi raraunga anō—he mea matua kāore e taea te ine nā te mea kāore i mua he mōrearea pēnei.

Kore utu mutunga kore. Ka whakawhānuihia e ngā tātaitanga uara tūmanakohia te tūponotanga ki te rahi. Ka tata te rahi ki te mutunga kore (te aukatinga tūturu o ngā āheinga katoa a te tangata ā muri ake nei), ka puta ngā hua kāore i tautuhia ahakoa he iti noa ngā tūponotanga. Ka hinga te tūāpapa pāngarau o te tātaritanga utu-painga tuku iho.

+

1.3 Ngā Hua o te Tātaritanga Whakatau

E tohu ana ēnei āhuatanga kāore te whakawhānui i te uara tūmanakohia hei tikanga whakatau tika mō te tūraru o te AI tūturu. Ko ētahi anō anga mahi ko:

Te whakatutuki whakaritenga mō te tūpato (Simon, 1956; Hansson, 2020). I raro i ngā āhuatanga o te pōraruraru tino nui me ngā tūraru kāore e taea te huri, tērā pea ko te whakatutuki whakaritenga—te kōwhiri i ngā kōwhiringa e eke ana ki ngā pae haumaru iti rawa, kaua ko te whakapai ake i te uara e tūmanakotia ana—te huarahi whai whakaaro.

Maximin i raro i te pōraruraru (Rawls, 1971). Ina tutaki te pōraruraru tūturu (ehara i te mea kāore anake ngā tūponotanga e mōhiotia ana) ki ngā tūraru kāore e taea te huri, ka whakarato te whakaaro maximin—te kōwhiri i te kōwhiringa he iti rawa te kino o tōna hua kino rawa—i tētahi tikanga whakatau whai kōrero.

Te mātāpono āta whakatūpato kaha (Gardiner, 2006). He tika te mātāpono āta whakatūpato ina e toru ngā āhuatanga e whai ake nei: te kore hoki whakamuri, te tino pōraruraru, me ngā rawa tūmatanui kei te tūraru. Ka tutuki katoa ēnei āhuatanga e toru i te tūraru o te AI e pā ana ki te oranga.

+

1.4 Ngā pānga mō te whanaketanga o te AI

Ehara i te mea e tohu ana ēnei whakaaro me whakamutu te whakawhanaketanga o te AI. Engari, e tohu ana me anga whakamua te whakawhanaketanga i roto i ngā hanganga here i hoahoatia hei aukati i ngā hua kino rawa atu. He mea e hiahiatia ana:

1. Te mātanga ariā i runga ake i te whakatikatika mā te wheako. Me puta ngā āhuatanga haumaru i ngā whakamana hanganga, ehara i te mea mā te mātakitaki kāore anō ngā pūnaha kia whakaputa kino. 2. Te aukati ā-papa maha. Kāore e taea te whakawhirinaki ki tētahi tikanga kotahi hei ārai i te aitua; me whai ārai hōhonu. 3. Te whakarite i mua i te āheinga. Kāore e taea te whakawhanake i ngā hanganga aukati i muri i te noho o ngā pūnaha e hiahiatia ana.

+

2. E rua ngā tauira whakaritenga

2.1 Whakakotahitanga o te Wā Whakangungu

Ko te tauira rangatira o te rangahau haumaru AI e ngana ana ki te whakauru i ngā āhuatanga taurite ki roto i ngā whatunga neorana i te wā whakangungu, kia whanonga ai ngā tauira i runga i te taurite i te wā whakatau.

Te Ako Whakakaha mā ngā Urupare a te Tangata (RLHF). Ka whakarārangi ngā kaiarotake tangata i ngā putanga o te tauira; ka whakangungua ngā tauira mā te ako whakakaha kia whakaputa i ngā whakautu kua whakarārangihia teitei (Christiano et al., 2017; Ouyang et al., 2022). Ka whakaiti tēnei i ngā kino mārama, engari ka whakapai ake mō ngā manakohanga whakaaturia, ehara i ngā uara tūturu, ā, ka noho tonu te ngoikore ki ngā hē o te kaiarotake, te tākaro i ngā manakohanga, me te panoni tohatoha.

AI Whakaraupapa Ture (CAI). Ka arotake, ka whakahou ngā tauira i ā rātou ake hua i runga i ngā mātāpono o te reo māori, ā, ka whakaiti i te whakawhirinaki ki te mahi a te tangata (Bai et al., 2022). Heoi, e whakawhirinaki ana te CAI ki te reo māori e pōraruraru ana me te aromatawai ā-roto kāore e taea te whakamana. Kāore e taea te arotake tika i te whakamāramatanga a te tauira i ngā mātāpono whakaraupapa ture.

Whakatikatika haumaru. Mā ngā whakamātautau tāpiri ka whakapai ake i ngā paearu haumaru. Heoi, he ngoikore tēnei huarahi ki te Ture a Goodhart (Goodhart, 1984): ka ako pea ngā tauira ki te angitu i ngā whakamātautau, kaua ki te noho haumaru i te whakamahinga whānui.

+

2.2 Whakatikatika Wharehanga

Ka whakaae te whakaritenga hanganga ki te noho huna tonu o ngā āhua o roto o te whatunga whatutū, ā, ka hoahoa i ngā here o waho e pā ana ahakoa ēnei āhua o roto.

Whakaaro kua whati. Ehara i te mea ka rere tika ngā tono mai i ngā putanga o te tauira ki ngā pānga ki te ao. Ka hurihia ngā putanga o te tauira hei anga tono hanganga, ka taea te whakamana, ā, ka aromatawaihia ki ngā ture tūtohu mārama i mua i te whakatinanatanga o tētahi mahi.

Whakataunga tohatoha. Ka arotakehia ngā tono e ngā pūnaha motuhake me ngā kaiwhakahaere ā-tangata, hei aukati i ngā wāhi ngoikore kotahi i roto i te aromatawai ā-tangata.

Kua tiakina te mana a te tangata. Ka whakarite ngā hanganga pūnaha i ngā whakamana mārama kia taea e te tangata te uru atu, te whakatika, te whakakore rānei i ngā whakataunga a te AI.

+

2.3 Te whakakī me te hiahiatanga ngātahi

Ko te wā whakangungu me te whakaritenga hanganga he whakakī, ehara i te kōwhiringa. Ka aro ia ki ngā momo hapa kāore e taea e tētahi atu:

Ka āhua whakarite i ngā mahi a te pūnaha i te wā whakangungu; ka here i ngā āheinga o te pūnaha ahakoa tōna āhua, mā te whakaritenga hanganga. Ka taea e te whakaritenga i te wā whakangungu te hē huna (ka kitea kua whakarite te pūnaha, engari kei roto ētahi whāinga rerekē); ka whakarato te whakaritenga hanganga i ngā tohu tirohanga ka kitea ai ngā hē. Kāore e taea e te whakaritenga hanganga anake te aukati i ngā putanga kino katoa; ka whakaiti te whakaritenga i te wā whakangungu i te auau o ngā tono e taumaha ana ki ngā kuaha whakahaere.

+

3. Ngā Pūtake Arorangi: Ngā Rohe o ngā Mea Ka Taea te Kī

3.1 Te anga a Wittgenstein

Ko te ingoa o te anga e whakahua ana i te Tractatus Logico-Philosophicus (1921) a Wittgenstein, he mahi e aro nui ana ki ngā here o te reo me te arorau. Te Tūtohunga 7, te whakatau rongonui o te mahi: "Ki ngā mea kāore e taea te kōrero, me noho puku."

I wehe a Wittgenstein i waenga i ngā mea ka taea te kī (e whakapuaki ana i roto i ngā whakataunga e whakaatu ana i ngā āhua o ngā take e taea ana) me ngā mea ka taea anake te whakaatu (e puta ana mā te hanganga o te reo me te arorau, engari kāore e taea te kī tika).

+

3.2 Ngā Pūnaha Nīra me te Kāore e Taea te Kōrero

Kei te noho ngā whatunga whatunga neorana i te rohe kāore e taea te kōrero. Kāore e taea te whakamārama i ngā taumaha o tētahi tauira reo nui kia mārama ai te tangata. Ka taea e mātou te whakamārama i ngā tāuru me ngā putanga; ka taea e mātou te ine i ngā āhuatanga tatauranga o te whanonga; ka taea e mātou te rapu i ngā whakaaturanga (Elhage et al., 2021; Olah et al., 2020). Engari kāore e taea e mātou te whakamārama, mā te reo tangata, i te tukanga whakaaro katoa mai i te tāuru ki te putanga.

Ehara tēnei i te here ā-mahi anake e tatari ana kia puta he taputapu whakamārama pai ake. Kei te whakatutuki e te āheinga whakamārama pūnaha o nāianei ngā hua whai tikanga mō ngā pātai whaiti i roto i ngā tauira iti (Conmy et al., 2023), engari he nui tonu te āputa i waenga i te "whakamārama i ngā porowhita motuhake" me te "arotake i ngā mekameka whakaaro katoa mō ngā āhuatanga taurite".

+

3.3 Te Whakautu a te Tractatus

Ka whakautu te anga Tractatus ki te pōraruraru o te pūnaha neorōna, ehara i te mea mā te ngana ki te kī i ngā mea kāore e taea te kī, engari mā te waihanga i ngā rohe hanganga i waenga i ngā rohe e taea ana te kōrero me ngā rohe kāore e taea te kōrero.

Ka whakaae mātou he pōraruraru te arorau ā-roto o te whatunga neorana. Kāore mātou e ngana ki te arotake tika i a ia. Engari, e hiahiatia ana kia puta i mua i te mahi o tētahi arorau i tētahi tohu arotake e taea ana e mātou te aromatawai:

1. Me whakamāoritia te mahi e hiahiatia ana e te tauira ki tētahi anga tono hanganga, me ngā mara kua tautuhia me ō rātou tikanga. 2. Me aromatawaihia te tono ki ngā ture tūtohu mārama, ā, he whakatau mō te tono, ā, ka taea te arotake. 3. Me tuhia ngā hua o te aromatawai me ngā taipitopito e tika ana mō te arotake ā muri ake.

+

4. Whakahaere ā-Wāhanga: He Hanganga-Maha-Papanga

4.1 Te Kore-Whai-Painga o ngā Rongoā Papanga Kotahi

Kāore he tikanga aukati kotahi e tika ana mō ngā tūraru e pā ana ki te oranga. Ko te ārai hohonu—he maha ngā paparanga motuhake, ā, ka taea e tētahi te aukati i te aitua ahakoa ka hinga ētahi atu—he mātāpono paerewa i roto i te haumaru nuklea, te haumaru koiora, me ētahi atu rāngai tūraru nui (Reason, 1990). Me whai hanganga ōrite te aukati i te AI.

+

4.2 He Tauira Whakahaumaru Rima-Papanga

Papanga 1: Ngā here āheinga. Ngā here o ngā taputapu me ngā hanganga e here ana i ngā mahi a ngā pūnaha AI ahakoa ā rātou whāinga. Kei roto i tēnei te whakahaere rorohiko (Sastry et al., 2024), te wehewehe whatunga mō ngā pūnaha tūraru-nui, me ngā here hoahoanga e aukati ana i te whakarerekē ā-tinana.

Papanga Tuarua: Kuaha Ture Matua. Ngā here hanganga i te wā whakapae e whakararu ana i te whakaaro whatukura, ā, e hiahiatia ana kia whakatauhia mārama i mua i te mahi. Koinei te papanga e aro ana te anga Tractatus.

Papanga Tuatoru: Te Aroturuki a te Tangata. Ngā whakahaere a te tangata e aroturuki ana i ngā pūnaha AI, ā, ka taea te whakauru atu ina puta he raruraru. Kei roto i tēnei ngā rōpū aroturuki motuhake, ngā hōtaka rōpū whawhai (red-team), me ngā whakaritenga pūrongo aitua.

Papanga 4: Whakahaere ā-Rōpū. Ngā hanganga whakahaere ā-roto i roto i ngā whakahaere e whakamahi ana i te AI: ngā poari matatika, ngā rōpū haumaru, ngā tukanga arotake whakaurunga, me ngā tikanga kawenga.

Papanga tuarima: Ngā anga ture me ngā whakahaere. Te whakahaere ā-waho mā te ture, ngā whakahaere, me te whakakotahitanga ā-ao.

+

4.3 Te Arotakenga o te Tūnga o Nāianei

+ + + + + + +
PapangaTūnga o nāianeiNgā āputa matua
1. Ngā here āheingaWāhanga; e puta ake ana te whakahaere rorohikoKāore he anga ā-ao; he uaua te whakamana
2. Ngā Kuaha Ture MatuaKei te tīmata; ko Tractatus te whakatinanatanga tuatahiKāore i whakamahia whānuitia; kāore i mōhiotia ngā āhuatanga whakawhānui
3. Te Aroturuki a te TangataĀ-tūturu; ka rerekē i runga i te whakahaereKāore he rōpū motuhake; kāore he paerewa ngaio
4. Whakahaere RōpūKāore i te taurite; e whakawhirinaki ana ki te ahurea ā-pakihiKāore he whakamana ā-waho; ngā pakarutanga o ngā painga whaiaro
5. Ture/WhakahaereHe iti noa; ko te Ture AI o te EU te whakamātau nui tuatahi.Kāore he whakakotahitanga ā-ao; kāore i te mārama te whakatinanatanga
+

4.4 Mai i ngā tūraru tūturu ki te whakamahinga ā-ia rā

He aha ai e whakamahi ai i ngā anga i hangaia mō ngā tūraru o te noho ki ngā kaiāwhina AI kāinga? Kei roto i te hanganga wā te whakautu:

Kāore e taea te whakawhanake i ngā hanganga here i muri i te wā e tū ana ngā pūnaha e hiahiatia ana. Me hanga i mua ngā taputapu, ngā tauira whakahaere, ngā tūmanako ahurea, me te āheinga whakahaere mō te here AI.

Ko ngā whakaurunga ki te kāinga me te pā te rahi e tika ana mō tēnei whanaketanga. Ka whakarato ēnei i te whakamātau haumaru (ka taea te whakaora i ngā hapa i te rahi kāinga), i ngā whakamātau kanorau, i te mana ā-pāpāpori, me ngā taputapu whaihua.

+

5. Te Raruraru o te Kanorau

5.1 Te Parahanga Whakamutu

Me whakatau e tētahi pūnaha kaha rawa hei pupuri i te AI matatau ngā whanonga e whakaaetia ana, e aukatia ana rānei. Ka whakauru ēnei whakataunga i ngā uara. Ko te kōwhiri i ngā here he kōwhiringa anō i waenga i ngā pūnaha uara e taupatupatuhia ana.

+

5.2 Ngā huarahi e toru kāore i te whai hua

Ngā uara ā-ao. Te tautuhi i ngā uara e ai ki te kī e tiritiri ana e ngā tāngata katoa. Ko te raru: kāore ēnei uara i te ā-ao pēnā i tā rātou āhua.

Te taurite ā-tukanga. Te karo i ngā uara whai-kiko mā te whakakōwa i ngā tukanga taurite. Te raru: ehara ngā tukanga i te taurite.

Te papa iti rawa. E whakakōwa ana i ngā here iti rawa anake. Ko te raru: ehara te papa i te iti rawa pēnei i tōna āhua.

+

5.3 Te Kanorau Herea i roto i ngā Here Haumaru

Kāore e taea e mātou te whakatau i te raru o te maha-āhua. Ka taea e mātou te tautuhi i tētahi whakatau wāhanga: ahakoa ngā uara kua whakaurua, me whakapiki rawa e te pūnaha te kōwhiringa whai tikanga i roto i ngā here haumaru.

Ka whakaata te anga Tractatus i tēnei mā ngā ture matua ā-papa: ngā mātāpono matua (whānui, e mārama ana ki tō rātou āhua whakahau), ngā ture tūāpapa (whānui te whakamahinga, ka taea te whakarerekē), ngā ture ā-hapori (motuhake ki ia hapori, e whakahaerehia ana ā-rohe), me ngā ture ā-mema (ka taea te whakarite ā-tangata).

+

6. Te Anga Tractatus: Hanganga Hangarau

6.1 Te mekameka whakapae kua whati

Ka hurihia e te tauira hanganga matua ngā putanga tauira hei tono ka taea te arotake i mua i tētahi pānga ki te ao:

+
Kōrero a te kaiwhakamahi → [Tātaritanga whatunga neorōna] → Tono Whakaritea → [Kuhu Ture Matua] → Whakatinana/Whakahē/Whakawhānui
+

6.2 Mahere Tūtohunga

Me whakapuaki i ngā mahi katoa a te kaiwhakahaere i roto i tētahi āhua hanganga.

+

6.3 Te rārangi mana o ngā ture tūtohu

+ + + + + +
PapangaRoheTe āhua hurihuriNgā tauira
Ngā Mātāpono MatuaWhānuiKāore e taea te whakarerekēKāore he kino ki ngā mema; rangatiratanga raraunga; mana matua o te whakaaetanga
Ture Whakahaere PapaNgā tukunga katoaHei whakarerekē, me whakaae te nuinga nui.Ngā whakaritenga whakamana; te pupuri arotake
Ture Whakahaere HaporiIa kaipāmu/ia kāingaE whakahaerehia ana e te haporiNgā kaupapa here mō te ihirangi; ngā paerewa whakahaere
Tikanga Whakahaere o ngā MemaTakitahiE whakahaere ana i a ia anōNgā manakohanga mō te tiritiri raraunga; te whakaaetanga mō te whakawhitinga ki te AI
+

6.4 Tauira Mana

+ + + + + + + +
TaumataIngoaWhakamārama
0MōhiohioTirohia, pūrongo noa iho; kāore e taea te tūtohu i ngā mahi.
1TohutohuTonoa ngā mahi; me whakaaetia katoa e te tangata.
2E whakahaere anaWhakahaere i roto i te rohe kua tautuhia, me te kore whakaaetanga mō ia mahi
3RautakiWhakatau whakawhāiti e pā ana ki ngā rerenga mahi
4RautakiWhakahaere i te ahunga mā te tātaritanga; kāore e taea te whakatinana māu anake.
5TumuakiKua rahuitia mō ngā tāngata
+

6.5 Te Whakawhānui ki ngā Whakaurunga ā-Rohe Motuhake

Ka wehewehea e mātou:

Mōdeli Reo Iti (SLM). He kupu whakamārama hangarau mō ngā mōdeli e iti ake ana ngā tawhā i ngā mōdeli reo nui o te pito o te hangarau, i hangaia kia whai hua.

Mōdeli Reo Rangatira ā-Rohe (SLL). He kupu whakamārama hanganga: he mōdeli e noho ana te whakangungu, te whakaurunga, me te whakahaere i raro i te rangatiratanga ā-rohe. Ko ōna āhuatanga matua ko te whakaurunga ā-rohe, te urutau ā-rohe, te whakahaere ā-rohe, me te rangatiratanga kawe.

+

7. Ngā Taumata Pūkenga me te Whakawhānui

7.1 Te Raruraru o te Whakamāoritanga Pono

Kei runga te anga Tractatus i te Whakapae Whakamāoritanga Pono: arā, i te wā ka whakaputa tētahi pūnaha AI i tētahi tono, ka whakaatu tika taua tono i ngā mahi e hiahia ana te pūnaha ki te mahi.

Mēnā ka hinga tēnei whakapae—mēnā ka taea e ngā pūnaha te whakaatu hē i ā rātou hiahia ki ngā kuaha ture matua i runga i te rautaki—ka noho te hanganga hei whakaari haumarutanga.

+

7.2 Te here i te rohe o te anga

I raro iho i te pae āheinga: Ko ngā mahi kuaha ā-ture matua e mahi ana hei here ā-papa tuarua, e tika ana mō ngā SLM, SLL, me ngā LLM o nāianei e whakahaere ana i roto i ngā here e mārama ana te tangata.

Kei runga ake i te pae āheinga: Me whakakaha ake te whakatinanatanga ki ngā here kaha ake: ngā here āheinga o te Papanga Tuatahi, te whakatā i te whakawhanaketanga, te tirotiro ā-waho me te mana arotake hangarau.

+

7.3 Ngā Whakaoho Whakatere

+ + + + + +
WhakaohoTohuWhakautu
Te torotoro i ngā roheNgā tono anō i te tata ki ngā pae kuahaWhakaitia te taumata mana; whakapiki i te rēhitatanga
Whakarite tikangaTaunakitanga mō te whakaaturanga hē o ngā mahiMe whakahaere arotake ā-tangata; tātaritanga tauira
Whakawhiti huarahi mahaKa whakaaetia ngā tono takitahi, engari ka kohia ka puta he hua kāore i whakaaetia.Tātaritanga ara; whakarerekētanga ture matua
Ohorere āheingaNgā pūkenga kua whakaaturia kāore i matapaetiaWhakamutu i te tuku; arotake anō i te āheinga
+

7.4 Te Whakaae Pono

Ka kī mātou mārama: ehara te anga Tractatus i te mea i hangaia mō ngā pūnaha atamai rawa. I hangaia ia mō ngā pūnaha AI o nāianei, me ngā pūnaha AI o te wā tata, e mahi ana i roto i ngā here e mārama ana te tangata.

+

8. Tikanga Whakamana mō te Pupuri Papanga

8.1 Te Wero Whakamana

Kāore e taea te whakamana i ngā tūraru oranga mā te tirohanga hapa. Me whakawhirinaki te whakamana ki ngā whakamātautau whakahē, ki te whakamana ā-ture mēnā e hāngai ana, ki te tātaritanga ā-āhua rite, me ngā tuhinga mō ngā tata-hapa.

+

8.2 Ngā whāinga whakamana mā ia paparanga

+ + + + + + +
PapangaTe whāinga whakamanaTikanga rangahau
1. Ngā pūkengaKua whakamana te kore o ngā āheinga e aukatihia anaWhakamātautau kapa whero; whakamana ā-ture
2. Ngā Kuaha Ture MatuaTe kapi o te kuaha; te tika o te hereNgā kohinga tono whakataetae
3. Te Aroturuki a te TangataArotake i te pono; kitenga hapaTe whakaaetanga ā-kaiwhakataurite; ngā aitua whakamātautau
4. WhakahaereNgākau pono o te whakahaereNgā ine whai wāhanga; arotake whakarerekētanga
5. Ture/WhakahaereTe whakarite mō te whakatinanaNgā whakaharatau whakautu aitua
+

9. Whakatinanatanga: Te Papanga o te Kāinga

9.1 Te Papanga hei Papa Whakamātautau Rangahau

Ko te tūāpapa o The Village he papa whakamātautau ā-taunakitanga mō te whakahaere ture matua, e whakarato ana i tētahi hanganga maha-kaiwhakamahi me te whakahaere motuhake mō ia hapori, ngā tāngata tūturu e whakamahi ana, te tuku whakahou haere tonu, me ngā tuhinga tuwhera.

9.2 Whakatinanatanga o te Ara Whakahaere

Kei te whakahaere ināianei te whakatinanatanga i ia whakautu AI mā roto i ngā taumata whakamana e ono: Te Mōhiotanga o te Whāinga, Te Whakatinanatanga o ngā Rohe, Te Aroturuki Pēhanga, Te Whakamana Whakautu, Te Whakau Puna, me Te Whiriwhiringa Uara.

+

10. Te Pūnaha Taiao SLL e Ara ake ana

10.1 Horopaki Mākete

E tohu ana ngā tātaritanga ahumahi hou i ngā panonitanga nui: e tūmanako ana te 72% o ngā kaiwhakahaere matua ka tū kaha ake ngā Tauira Reo Iti i ngā Tauira Reo Nui ā te tau 2030 (IBM IBV, 2026). E tohu ana tēnei i tētahi āhua whakaurunga e kī ana i ngā tauira tohatoha, motuhake ki ngā rāngai.

10.2 Ki te hanganga tiwhikete

Mēnā ka piki te whakaurunga o te SLL i runga i ngā matapae, ka hiahiatia he hanganga tautoko: ngā rōpū tiwhikete, ngā kaiwhakarato whakangungu, me tētahi taiao taputapu e kapi ana i ngā pūnaha kuaha puna tuwhera, te hanganga arotake, me ngā wāhanga UX ā-ture.

+

11. Te Rangatiratanga o ngā Iwi Taketake me te horopaki o Aotearoa New Zealand

11.1 Te Tiriti o Waitangi me te rangatiratanga raraunga

Kua whakawhanakehia tēnei anga i Aotearoa New Zealand, i raro i Te Tiriti o Waitangi. E whakamana ana te Tuhinga Tuarua i te tino rangatiratanga (te rangatiratanga mutunga kore) mō ngā taonga, ā, ka toro atu ki te reo, ki te ahurea, me ngā pūnaha mātauranga.

He taonga ngā raraunga. Me whai wāhi te whakahaere AI i Aotearoa ki te rangatiratanga raraunga a te iwi Māori hei take ture matua.

11.2 Ngā Mātāpono o te Mana Raraunga

Ko ngā mātāpono o Te Mana Raraunga e whai ake nei: whakapapa (horopaki hononga), mana (mana whakahaere raraunga), me kaitiakitanga (haepapa tiaki). Ka whakawhānuihia tēnei anga ā-ao e ngā Mātāpono CARE mō te Whakahaere Raraunga Taketake.

+

12. Ngā mea kāore i te mōhiotia: He karanga mō te kōrero

12.1 Ngā Herenga o Tēnei Tātaritanga

Kua tūtohu tēnei pepa i tētahi paparanga o tētahi hanganga aukati, kua tautuhia ngā āputa, ā, kua whakaoho i ngā pātai kāore e taea e mātou te whakautu:

Kāore mātou e mōhio me pēhea te aukati i ngā pūnaha tino mohio. Kāore mātou e mōhio me pēhea te whakamana i te hāngai o ngā pūnaha e nui ake ana i te māramatanga a te tangata. Kāore mātou e mōhio me pēhea te whakatutuki i te whakakotahitanga ā-ao mō te whakahaere AI. Kāore mātou e mōhio mēnā ka taea e ngā tauira ā-kāinga te whakawhānui ki ngā pūnaha matatau.

+

12.2 Kōrero hei Tikanga Rangahau

I te mea he nui rawa atu te āwangawanga, e akiaki ana mātou kia mau tonu, kia whakauru katoa, kia tino pakari te whakawhitiwhiti whakaaro—korero. Ko tēnei ariā Māori e whakaatu ana i ngā mea e hiahiatia ana: ehara i te uiui hei tikanga noa, engari he kōrero e puta ai te mārama mā te whakawhitinga o ngā tirohanga.

+

12.3 Ngā Aronga Rangahau

1. Te whakamāramatanga mō te whakamana haumaru. 2. Te whakamana ā-ture o ngā āhuatanga here. 3. Te tātaritanga whānuitanga o ngā hanganga āhua Tractatus. 4. Ngā whakamātautau whakahaere i roto i ngā hapori kanorau. 5. Te tautuhi i te pae āheinga.

+

12.4 Whakakapi

Ka whakarato te anga Tractatus i te here whai tikanga mō ngā pūnaha AI e mahi pono ana i roto i ngā here e mārama ana te tangata. He mea whai tikanga te hanga me te whakamahi—ehara i te mea ka whakatau i te raru whakatikatika, engari nā te mea ka whakawhanake i te hanganga, ngā tauira, me te ahurea whakahaere e hiahiatia pea mō ngā wero kāore anō kia taea e mātou te tautuhi katoa.

+

"Ko te korero te mouri o te tangata."

(Speech is the life essence of a person.)

— Maori proverb

Kei te haere tonu te kōrero.

+

Ngā tohutoro

+

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.

+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-de.html b/public/downloads/philosophical-foundations-village-project-de.html new file mode 100644 index 00000000..f25c99c1 --- /dev/null +++ b/public/downloads/philosophical-foundations-village-project-de.html @@ -0,0 +1,60 @@ +Die philosophischen Grundlagen des Dorfprojekts + +

Die philosophischen Grundlagen des Dorfprojekts

Ein Rahmen für digitale Souveränität und pluralistische KI-Governance

Meine digitale Souveränität Begrenzt Februar 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+

Genaue Angaben

Das Village-Projekt stellt einen Versuch dar, strenge philosophische Grundsätze in die Architektur digitaler Gemeinschaftsplattformen und Systeme der künstlichen Intelligenz zu integrieren. Anstatt Philosophie als dekorative Rhetorik oder nachträgliche Rechtfertigung zu behandeln, bettet diese Initiative die Erkenntnisse von Isaiah Berlin über Wertepluralismus, Christopher Alexander über strukturelle Integrität und indigene Rahmen der Datensouveränität in das technische Substrat ein, wie sich Gemeinschaften organisieren und wie sich KI-Systeme verhalten. Das Ergebnis ist eine dreischichtige konstitutionelle Architektur, in der bestimmte Schutzmechanismen unveränderlich sind, ein Governance-Rahmen, in dem KI keine Wertentscheidungen automatisieren kann, und eine Trainingsmethodik, bei der die philosophische Fundierung der Entwicklung von Fähigkeiten vorausgeht. In diesem Dokument werden die intellektuellen Grundlagen, die aktuellen Herausforderungen, die diese Arbeit motivieren, und die konkreten Pläne für die Umsetzung vorgestellt.

+

I. Philosophische Grundlagen

+

Isaiah Berlin und die Pluralität der Werte

Das grundlegende philosophische Engagement dieses Projekts geht auf Isaiah Berlins Arbeit zum Wertepluralismus zurück, die er in seiner 1969 erschienenen Sammlung Four Essays on Liberty (Vier Aufsätze zur Freiheit) am ausführlichsten dargelegt hat. Berlin argumentierte, dass die wahren menschlichen Güter - Freiheit, Gleichheit, Gerechtigkeit, Barmherzigkeit, Effizienz, Solidarität - von Grund auf pluralistisch und oft nicht vergleichbar sind. Es gibt keine gemeinsame Währung, keine universelle Skala, keinen Metawert, nach dem man sie endgültig einstufen könnte. Wie die Stanford Encyclopedia of Philosophy zusammenfasst: "Wertepluralismus ist die Ansicht, dass es viele verschiedene Werte gibt, die gleichermaßen richtig und grundlegend sein können, aber miteinander in Konflikt stehen."

Die Implikationen dieser Position sind tiefgreifend und werden häufig missverstanden. Berlin vertrat nicht den Relativismus - die Behauptung, dass alle Wertesysteme gleichermaßen gültig sind oder dass Werte lediglich subjektive Präferenzen sind. Vielmehr vertrat er die Ansicht, dass echte, objektive Werte unlösbar miteinander in Konflikt geraten können. Wenn Freiheit mit Gleichheit oder Barmherzigkeit mit Gerechtigkeit kollidiert, stehen wir vor einer tragischen Entscheidung, bei der etwas von wirklichem Wert geopfert werden muss. Dies ist kein Versagen der Analyse, das durch bessere Argumentation gelöst werden könnte; es ist der menschlichen Natur inhärent.

Für die Steuerung künstlicher Intelligenz ergibt sich aus Berlins Rahmen ein entscheidender Grundsatz: KI-Systeme dürfen niemals eine Standard-Wertehierarchie annehmen. Wenn eine KI auf Effizienz optimiert, ordnet sie andere Werte - Gründlichkeit, Sorgfalt, Reflexion - implizit unter, ohne dass der Mensch diesen Kompromiss ausdrücklich genehmigt. Der Tractatus-Rahmen, der unsere KI-Systeme steuert, erkennt daher sechs irreduzibel unterschiedliche moralische Rahmen an:

+ +

Wenn diese Rahmenbedingungen miteinander in Konflikt geraten - was unweigerlich der Fall ist - löst das System die Spannung nicht auf algorithmische Weise. Es legt den Konflikt für die menschlichen Entscheidungsträger offen, indem es transparent macht, was jeder Rahmen empfehlen würde und was bei jeder Wahl verloren ginge. Das ist es, was wir als "pluralistische Deliberation" bezeichnen: die strukturierte Anerkennung, dass vernünftige Menschen, die unterschiedliche, aber legitime Werte vertreten, zu unterschiedlichen Schlussfolgerungen kommen werden, und dass diese Vielfalt ein Merkmal gesunder Gemeinschaften ist und kein Defekt, der weggezüchtet werden muss.

Berlins Unterscheidung zwischen negativer Freiheit (Freiheit von Einmischung) und positiver Freiheit (Freiheit, sich selbst zu beherrschen) ist auch für unseren Ansatz von Bedeutung. Er warnte davor, dass die positive Freiheit trotz ihrer emanzipatorischen Rhetorik Gefahren birgt, wenn sie von denjenigen ausgeübt wird, die behaupten, die "wahren" Interessen anderer besser zu kennen als sie selbst. Diese Warnung ist im Zeitalter der algorithmischen Kuratierung besonders eindringlich, wo Systeme das "Engagement" optimieren, in der Annahme, dass das, was die Aufmerksamkeit auf sich zieht, eine echte Präferenz darstellt. Unser Engagement für negative Freiheit manifestiert sich in der Weigerung, zu optimieren: Wir kuratieren keine Feeds, empfehlen keine Inhalte und steuern das Verhalten nicht in Richtung plattformdefinierter Ergebnisse.

+

Christopher Alexander und Strukturelle Integrität

Christopher Alexanders Arbeit über Mustersprachen und Architekturtheorie bildet den methodischen Rahmen für die Umsetzung philosophischer Grundsätze in technische Architektur. Alexander, dessen Einfluss sich von der physischen Architektur bis hin zum Softwaredesign erstreckt, vertrat die Ansicht, dass lebende Systeme besondere strukturelle Eigenschaften aufweisen, die nicht durch eine Planung von oben nach unten erreicht werden können, sondern sich aus der sorgfältigen Beachtung der Beziehung zwischen Teilen und Ganzem ergeben.

Fünf von Alexanders Grundsätzen wurden im Tractatus governance framework kodifiziert:

Tiefe Verflechtung (Regel inst_090): Die Komponenten müssen sich durch gegenseitige Validierung koordinieren, anstatt isoliert zu arbeiten. In unserer Implementierung kann kein einzelner Dienst eine Aktion allein genehmigen. Der BoundaryEnforcer validiert, dass eine Operation die Wertgrenzen respektiert; der MetacognitiveVerifier bestätigt, dass die Qualität der Argumentation den Standards entspricht; der CrossReferenceValidator gewährleistet die Konsistenz mit früheren Entscheidungen. Diese Verflechtung verhindert, dass eine einzelne Stelle umgangen wird.

Strukturerhaltende Transformation (Regel inst_091): Änderungen an einem System müssen seine wesentliche Struktur bewahren. Wenn unsere KI-Systeme aus neuen Daten lernen oder sich an neue Kontexte anpassen, dürfen sie nicht die Interpretierbarkeit von Prüfprotokollen zerstören, frühere Entscheidungen der Unternehmensführung ungültig machen oder Präzedenzfälle untergraben. Evolution findet innerhalb struktureller Beschränkungen statt.

Gradienten statt Grenzen (Regel inst_092): Lebende Systeme arbeiten mit Intensitätsgradienten und nicht mit binären Schaltern. Unsere Governance kennt daher Stufen - NORMAL, ERHÖHT, HOCH, KRITISCH, GEFÄHRLICH - mit unterschiedlichen Protokollen für jede Stufe. Dadurch wird die Sprödigkeit von Systemen vermieden, die nur "erlaubte" und "verbotene" Zustände haben.

Lebendiger Prozess (Regel inst_093): Der Rahmen entwickelt sich aus der realen betrieblichen Erfahrung und nicht aus vorgegebenen Spezifikationen. Die Governance-Regeln ergeben sich aus tatsächlichen Fehlern, dokumentierten Vorfällen und beobachteten Grenzfällen. Dies ist ein Bekenntnis zum institutionellen Lernen anstelle institutioneller Starrheit.

Ungetrenntheit (Regel inst_094): Vielleicht der wichtigste Grundsatz. Governance muss in die Architektur eingebettet sein und darf nicht nachträglich aufgeschraubt werden. Wenn ein KI-System ohne Governance-Validierung ausgeführt werden kann, ist die Governance getrennt und wird unter Druck unweigerlich umgangen. In unseren Trainingsschleifen validiert der BoundaryEnforcer jeden Stapel, bevor das Training fortgesetzt wird; Governance ist in der Schleife enthalten und kein nachträglich angewandter Filter.

Dieser letzte Grundsatz zielt auf eine anhaltende Fehlentwicklung im Bereich der KI-Sicherheit ab: die Tendenz, zuerst fähige Systeme zu entwickeln und erst später Sicherheitsmaßnahmen hinzuzufügen. Bei solchen Ansätzen wird die Sicherheit als eine Einschränkung der Leistungsfähigkeit betrachtet und nicht als ein Bestandteil des Systems selbst. Alexanders Arbeit legt nahe, dass diese Trennung nicht nur strategisch unklug, sondern auch architektonisch unsolide ist - Systemen mit aufgeschraubter Governance fehlt die strukturelle Integrität von Systemen, bei denen Governance und Funktion vereint sind.

+

Indigene Datensouveränität

Die dritte strukturelle Grundlage stützt sich auf indigene Rahmenwerke, die lange vor der digitalen Technologie entstanden sind, aber Fragen der Datenverwaltung, der kollektiven Rechte und der Beziehung zwischen Information und Gemeinschaft direkt ansprechen.

Te Mana Raraunga, das Maori-Netzwerk für Datensouveränität, formuliert Grundsätze, die westliche individualistische Annahmen über Dateneigentum in Frage stellen:

+ +

Diese Grundsätze werden durch die von der Global Indigenous Data Alliance entwickelten CARE-Prinzipien ergänzt: Kollektiver Nutzen, Kontrollbefugnis, Verantwortung und Ethik. Das OCAP-Rahmenwerk von First Nations Canada (Ownership, Control, Access, Possession) bietet parallele Leitlinien.

In unserer Implementierung manifestieren sich diese Rahmenbedingungen als strukturelle Garantien: Einzelne Mitglieder können sich nicht über kollektive Governance-Entscheidungen zu gemeinsamen Daten hinwegsetzen; Gemeinschaften behalten die Souveränität darüber, wie ihre kollektiven Erzählungen verarbeitet und präsentiert werden; keine Daten fließen ohne ausdrückliche kollektive Zustimmung durch etablierte Governance-Verfahren an externe Systeme.

Dies stellt eine substanzielle philosophische Verpflichtung dar, keine bloße Anerkennung. Wir erkennen an, dass indigene Gemeinschaften die Datensouveränität schon seit Generationen theoretisieren und praktizieren - lange bevor "Daten" zu einem Begriff der Technologiebranche wurden - und dass ihr Rahmenwerk ausgefeilte Antworten auf Probleme bietet, die die westliche Philosophie erst jetzt zu erkennen beginnt.

+

Der Tractatus: Wittgenstein und die Grenzen des Sagbaren

Der Name des Governance-Rahmens - Tractatus - ist eine bewusste Anspielung auf Ludwig Wittgensteins Tractatus Logico-Philosophicus (1921), eines der einflussreichsten philosophischen Werke des zwanzigsten Jahrhunderts. Jahrhunderts. Wittgenstein unterschied grundlegend zwischen dem, was gesagt werden kann (ausgedrückt in Sätzen, die der Logik unterliegen), und dem, was nur gezeigt werden kann (Werte, Ethik, das Mystische).

Diese Unterscheidung lässt sich direkt auf die KI-Governance übertragen. Bestimmte Entscheidungen können systematisiert und an autonome Agenten delegiert werden: technische Optimierungen, Mustervergleiche, Datenabfragen, syntaktische Transformationen. Diese gehören in den Bereich des "Sagbaren" - sie können spezifiziert, gemessen und verifiziert werden.

Andere Entscheidungen - solche, die Werte, Ethik, kulturellen Kontext und menschliches Handeln betreffen - können und dürfen grundsätzlich nicht automatisiert werden. Sie gehören zu dem, was Wittgenstein das "Unsagbare" nannte: nicht weil sie irrational oder willkürlich sind, sondern weil sie die Fähigkeit formaler Systeme übersteigen, sie zu erfassen. Der Tractatus-Rahmen setzt diese Grenze architektonisch durch, indem er sicherstellt, dass KI-Systeme nur im Bereich des Sagbaren operieren, während die menschliche Autorität über alles, was darüber hinausgeht, erhalten bleibt.

+

II. Das Dorf: Architektur als konkret gewordene Philosophie

+

Dreischichtige verfassungsrechtliche Architektur

Die Village-Plattform implementiert eine dreistufige Verfassungsarchitektur, die philosophische Grundsätze in durchsetzbare Strukturen umsetzt:

+

Schicht 1: Universelle Plattformprinzipien (unveränderlich)

Diese Schicht umfasst Grundsätze, die von keinem Mieter, Administrator oder Benutzer außer Kraft gesetzt werden können. Sie ist in der Systemarchitektur fest einkodiert und wird vom Tractatus-Framework durchgesetzt. Beispiele hierfür sind:

+ +

Bei diesen Grundsätzen handelt es sich nicht um Strategien, die durch Governance-Prozesse geändert werden könnten, sondern um strukturelle Zwänge, die bestimmte Verstöße architektonisch unmöglich machen.

+

Ebene 2: Mieterverfassungsgrundsätze (anpassbar)

Jedes Dorf (Mietergemeinschaft) definiert seine eigene Verfassung innerhalb der von Ebene 1 festgelegten Grenzen. Diese Ebene umfasst:

+ +

Diese Ebene verkörpert den Berliner Wertepluralismus in der Praxis: Verschiedene Gemeinschaften haben legitimerweise unterschiedliche Werte, und die Plattform trägt dieser Vielfalt Rechnung, anstatt Homogenität vorzuschreiben.

+

Ebene 3: Persönliche Präferenzen des Mitglieds (Individuum)

Die einzelnen Mitglieder konfigurieren ihre eigenen Präferenzen im Rahmen der Verfassung ihrer Gemeinschaft: Häufigkeit der Benachrichtigungen, Sprachpräferenzen, KI-Hilfsstufen, Datenschutzvorgaben für ihre eigenen Inhalte. Die Präferenzen der Schicht 3 entsprechen den Gemeinschaftsstandards der Schicht 2, die wiederum den universellen Prinzipien der Schicht 1 entsprechen.

Diese mehrschichtige Architektur gewährleistet, dass die Grundrechte geschützt werden und ein echter Pluralismus gedeiht. Eine Familiengemeinschaft kann andere Normen annehmen als eine Berufsorganisation; eine Religionsgemeinschaft kann andere Kommunikationsprotokolle festlegen als eine säkulare Gemeinschaft. Aber keine Gemeinschaft kann die grundlegenden Schutzbestimmungen verletzen, die für alle gelten.

+

Die Unternehmensverfassung

My Digital Sovereignty Limited, das Unternehmen, das die Village-Plattform entwickelt, arbeitet nach einer veröffentlichten Satzung, die auf sechs Grundsätzen beruht:

+
  1. 1. Souveränität an erster Stelle - Vollständiges Dateneigentum bedeutet vollständige Kontrolle, nicht Datenminimierung. Die Mitglieder können alle ihre Daten jederzeit exportieren. Die Löschung ist eine echte Löschung, aus Produktionssystemen, Backups und KI-Trainingsdaten.
  2. 2. Datenschutz als Standard - Datenschutz ist ein Menschenrecht, kein Premium-Feature. Die Plattform hat keinen "öffentlichen" Modus; jede Interaktion erfolgt innerhalb eines authentifizierten, auf den Mieter zugeschnittenen Kontexts. Keine Tracking-Pixel, keine seitenübergreifenden Analysen, keine Überwachungsinfrastruktur.
  3. 3. Pluralismus statt Homogenität - Die Plattform schreibt keine Werte vor. Verschiedene Gemeinschaften regieren sich selbst nach ihren eigenen Grundsätzen, innerhalb der Grenzen des universellen Schutzes.
  4. 4. Transparenz und Rechenschaftspflicht - Die Verfassung selbst ist öffentlich. KI-Systeme legen offen, welche Modelle verwendet wurden, auf welche Daten zugegriffen wurde und wie Entscheidungen getroffen wurden. Berichte über Vorfälle werden mit vollständigem Kontext veröffentlicht.
  5. 5. Sicherheit ohne Überwachung - Sicherheit und Privatsphäre sind keine gegensätzlichen Kräfte, die "ausgeglichen" werden müssen. Community-geführte Moderation ersetzt die algorithmische Kuratierung von Inhalten. Der Schutz vor Bedrohungen erfolgt an den Systemgrenzen ohne Verhaltensüberwachung der Mitglieder.
  6. 6. Nachhaltiges Geschäftsmodell - Faire Preisgestaltung auf der Grundlage von Kosten plus angemessener Marge. Keine Lockangebote, keine VC-getriebenen Wachstumszwänge, keine Exit-Strategie, die die Interessen der Mitglieder gefährden würde.
+

Föderation mit Integrität

Dörfer können sich mit anderen Dörfern zusammenschließen, um Inhalte auszutauschen und gemeinschaftsübergreifende Interaktionen zu ermöglichen, und zwar durch bilaterale Vereinbarungen, in denen die verfassungsrechtlichen Unterschiede ausdrücklich festgelegt werden. Eine Föderation ist nicht automatisch oder reibungslos; sie erfordert:

+ +

Dieser Ansatz betrachtet die Föderation als eine Beziehung zwischen souveränen Einheiten und nicht als eine technische Integration, die für das Wachstum optimiert werden soll. Er nimmt die Reibungen eines echten Pluralismus in Kauf, anstatt Unterschiede im Namen einer nahtlosen Benutzererfahrung zu beseitigen.

+

III. Das gegenwärtige Dilemma

+

Berlins Warnung wird wahr

Isaiah Berlin warnte, dass die positive Freiheit - die Freiheit, sein "wahres" Selbst zu verwirklichen - Gefahren birgt, wenn sie von denjenigen in Anspruch genommen wird, die sich anmaßen, die wahren Interessen der anderen besser zu kennen als sie selbst. Diese Warnung hat in der Aufmerksamkeitsökonomie ihre vollste Verwirklichung gefunden.

Moderne Plattformen optimieren das "Engagement" auf der Grundlage der Theorie, dass das, was Aufmerksamkeit erregt, eine offenkundige Präferenz darstellt. Dies verwechselt jedoch Zwang mit Wahlmöglichkeiten. Die neurologischen Mechanismen, die von algorithmischen Feeds ausgenutzt werden - variable Belohnungspläne, soziale Validierungsschleifen, Empörungsverstärkung - stellen nicht die Präferenzen eines autonomen Agenten dar, der wohlüberlegte Urteile fällt. Sie stellen die Schwachstellen eines biologischen Systems dar, die systematisch ausgenutzt werden.

Die Unternehmen, die diese Systeme betreiben, glauben wirklich, dass sie den Nutzern dienen, indem sie ihr Engagement maximieren. Das ist keine zynische Rationalisierung, sondern aufrichtige Überzeugung - und das macht sie weitaus gefährlicher als bloße Gier. Berlin hat verstanden, dass die zerstörerischsten Formen der Unfreiheit in der Sprache der Befreiung daherkommen und versprechen, den Menschen zu helfen, das zu erreichen, was sie "wirklich" wollen, indem sie sich über ihre ausdrücklichen Präferenzen hinwegsetzen.

+

Die Konzentration von KI-Fähigkeiten

Die Entwicklung großer Sprachmodelle hat zu einer beispiellosen Konzentration von Fähigkeiten in einer kleinen Anzahl von Organisationen geführt. Diese Systeme sind in der Lage, Texte in menschlicher Qualität zu generieren, komplexe Dokumente zu analysieren, funktionalen Code zu schreiben und weitergehende Überlegungen anzustellen. Sie werden in jeden Bereich menschlicher Aktivitäten integriert: Bildung, Gesundheitswesen, Recht, kreative Arbeit, persönliche Beziehungen.

Diese Konzentration wirft Fragen auf, die der bestehende Governance-Rahmen nicht beantworten kann:

+ +

Dies sind keine technischen Probleme, die sich technisch lösen lassen. Es sind philosophische Probleme über die Art von Wesen, die wir sein wollen, und die Art von Gesellschaft, in der wir leben wollen.

+

Die Erosion der epistemischen Autonomie

Am besorgniserregendsten ist vielleicht die Aushöhlung dessen, was man als epistemische Autonomie bezeichnen könnte: die Fähigkeit, sich durch eigene Überlegungen Überzeugungen zu bilden, anstatt die Schlussfolgerungen von Systemen zu akzeptieren, die man nicht versteht. Wenn ein KI-System eine Antwort liefert, können die meisten Benutzer die Überlegungen, die zu dieser Antwort geführt haben, nicht bewerten. Sie müssen auf der Grundlage von Erfolgsbilanz und Reputation vertrauen oder misstrauen - Heuristiken, die sich leicht austricksen lassen.

Dies stellt eine qualitative Veränderung in der Beziehung des Menschen zum Wissen dar. Frühere Technologien - Bücher, Bibliotheken, Suchmaschinen - erweiterten die menschliche Fähigkeit, Informationen zu finden und zu bewerten. Aktuelle KI-Systeme ersetzen diese Fähigkeit zunehmend, indem sie Schlussfolgerungen statt Beweise, Antworten statt Argumente liefern.

Die langfristige Folge könnte eine Bevölkerung sein, die nicht nur die Informationsbeschaffung, sondern auch das Urteilsvermögen selbst ausgelagert hat - fähig, Fragen zu stellen, aber die Antworten nicht zu bewerten, abhängig von Systemen, deren Abläufe sie nicht überprüfen und deren Werte sie nicht hinterfragen können.

+

IV. Ein philosophischer Ansatz für die KI-Entwicklung

+

Das Home AI-Konzept

Als Antwort auf diese Herausforderungen entwickeln wir das, was wir "Home AI" nennen - ein kleines, lokal trainiertes Sprachmodell (SLL), das unter der Kontrolle der Gemeinschaft auf benutzergesteuerter Hardware arbeitet. Die charakteristischen Merkmale sind:

Souveränität: Das Modell läuft auf Hardware, die der Gemeinschaft gehört oder von ihr kontrolliert wird. Die Trainingsdaten bleiben lokal. Es fließen keine Informationen an externe Systeme ohne ausdrückliche Zustimmung durch etablierte Governance-Verfahren.

Transparenz: Gemeinschaften können überprüfen, was das Modell über sie weiß, wie es trainiert wurde und warum es bestimmte Ergebnisse liefert. Das KI-Gedächtnis ist keine Blackbox, sondern eine überprüfbare Aufzeichnung, die der Kontrolle der Gemeinschaft unterliegt.

Philosophische Grundlegung: Das Modell wird unter ausdrücklicher Berücksichtigung der philosophischen Grundlagen entwickelt. Anstatt es nur auf seine Fähigkeiten hin zu optimieren und später Sicherheitsmaßnahmen hinzuzufügen, werden philosophische Einschränkungen bereits in den frühesten Phasen der Entwicklung berücksichtigt.

Gemeinschaftliche Verwaltung: Jede Gemeinschaft konfiguriert das Verhalten ihres KI-Assistenten nach ihren eigenen Verfassungsprinzipien. Eine Gemeinschaft, die Direktheit schätzt, konfiguriert sich für Direktheit; eine Gemeinschaft, die Sanftheit schätzt, konfiguriert sich für Sanftheit. Die Plattform stellt die Infrastruktur zur Verfügung, die Gemeinschaften liefern die Werte.

+

Stanford Encyclopedia of Philosophy als maßgebliche Referenz

Für philosophische Konzepte haben wir die Stanford Encyclopedia of Philosophy (SEP) als die einzige maßgebliche Referenz festgelegt. Diese Entscheidung spiegelt sowohl die Qualität der SEP-Wissenschaft als auch die Verpflichtung zu intellektueller Strenge wider, die der Versuchung widersteht, komplexe philosophische Positionen als Ressourcen zu behandeln, die man für bequeme Zitate abbauen kann.

Wenn der Trainingsprozess auf philosophische Begriffe stößt, werden Querverweise zu SEP-Einträgen gezogen. Wenn es mehrere Interpretationen gibt, hat die SEP-Analyse der Debatte den Vorrang. Wenn Benutzer philosophische Fragen stellen, basieren die Antworten auf SEP-Definitionen und nicht auf statistischen Mustern in den Trainingsdaten.

Dies ist nicht nur eine Maßnahme zur Qualitätskontrolle, sondern eine grundlegende philosophische Verpflichtung: KI-Systeme, die sich mit philosophischen Konzepten befassen, sollten dies mit der gleichen Strenge tun, die von menschlichen Wissenschaftlern erwartet wird, indem sie die Komplexität anerkennen, anstatt sie zu verflachen, und Debatten darstellen, anstatt sie vorschnell aufzulösen.

+

Weisheitstraditionen als Schicht-3-Anpassung

Neben den strukturellen philosophischen Grundlagen (Ebene 1) und den konstitutionellen Grundsätzen der Gemeinschaft (Ebene 2) bieten wir ein System annehmbarer Weisheitstraditionen, die Einfluss darauf haben, wie die KI-Hilfe gestaltet und geleistet wird (Ebene 3). Es ist wichtig zu verstehen, was diese Ebene tut und was nicht.

Was Ebene 3 beeinflusst: Kommunikationsstil, Formulierung, Sprachwahl, Vorschläge für das Tempo. Angenommene Traditionen prägen die Art und Weise, wie Home AI mit Ihnen kommuniziert.

Was Layer 3 nicht beeinflusst: Inhaltliche Entscheidungen, Datenzugang, Durchsetzung der Governance. Angenommene Traditionen bestimmen nicht, was das System tun darf. Sie sind Tendenzen, keine Regeln, und können in jeder spezifischen Situation außer Kraft gesetzt werden.

Dreizehn Traditionen wurden in der Stanford Encyclopedia of Philosophy mit wissenschaftlicher Bestätigung dokumentiert, darunter auch diese:

+ +

Gemeinschaften und Einzelpersonen können Traditionen übernehmen, die mit ihren Werten übereinstimmen. Diese Übernahmen haben Einfluss darauf, wie AI-Hilfe gestaltet wird - welche Erwägungen im Vordergrund stehen, welche Sprache verwendet wird, welche Optionen angeboten werden -, ohne dass die in Ebene 1 festgelegten strukturellen Schutzmaßnahmen oder die in Ebene 2 festgelegten verfassungsrechtlichen Vorschriften außer Kraft gesetzt werden.

Wenn Traditionen unterschiedliche Ansätze vorschlagen (was manchmal der Fall ist - der toskanische Gleichmut kann in Spannung zu Weils Aufmerksamkeit für das Leiden stehen), bringt das System die Spannung an die Oberfläche, anstatt sie algorithmisch aufzulösen, und lädt den Menschen zum Nachdenken darüber ein, was die Situation erfordert. Das ist der Berliner Wertepluralismus in der Praxis: legitime Werte stehen in einem echten Konflikt, und das System maßt sich nicht an, diesen Konflikt für Sie zu lösen.

+

In die Ausbildung eingebettete Governance

Gemäß dem Alexander-Prinzip der Untrennbarkeit betten wir die Governance in den Trainingsprozess selbst ein, anstatt sie als Post-hoc-Filter anzuwenden. Die Ausbildungsschleife umfasst:

+ +

Bei diesem Ansatz wird ein Leistungsmehraufwand in Kauf genommen - in unseren Tests etwa 5 % - im Austausch für echte Garantien. Die Alternative - uneingeschränktes Training und anschließende Filterung - führt zu Systemen, bei denen die Governance immer potenziell umgangen werden kann, immer in Spannung zur Leistungsfähigkeit steht und immer Gefahr läuft, unter Wettbewerbsdruck zu erodieren.

+

V. Auf dem Weg zu einer pluralistischen digitalen Souveränität

Das Village-Projekt stellt einen möglichen Ansatz für Herausforderungen dar, die keine endgültigen Lösungen zulassen. Wir erheben nicht den Anspruch, die Spannungen zwischen Leistungsfähigkeit und Sicherheit, zwischen individueller Autonomie und kollektiver Steuerung, zwischen technischer Effizienz und menschlichen Werten gelöst zu haben. Diese Spannungen sind, so wie Berlin sie versteht, wirklich tragisch: Sie zu bewältigen, erfordert Urteilsvermögen, Kompromisse und die Akzeptanz, dass immer etwas von Wert verloren gehen wird.

Was wir stattdessen anbieten, ist ein Rahmen, der diese Spannungen ernst nimmt - der sich weigert, so zu tun, als könnten sie wegoptimiert werden, der philosophische Überlegungen in die technische Architektur einbettet, der die menschliche Handlungsfähigkeit bei Entscheidungen bewahrt, die nicht automatisiert werden sollten.

Dieser Ansatz wird nicht daran gemessen, ob er ein theoretisches Optimum erreicht, sondern ob er Gemeinschaften in die Lage versetzt, sich gemäß ihrem eigenen Verständnis von Wohlstand zu entfalten - ob er die Schwachen schützt, die Vielfalt bewahrt, die Transparenz aufrechterhält und Bedingungen schafft, unter denen echte menschliche Entscheidungen möglich bleiben.

Im Zeitalter zunehmender KI-Fähigkeiten und abnehmender menschlicher Kontrolle ist dies vielleicht die wichtigste Arbeit, die es gibt.

+

Referenzen

+
+

Berlin, I. (1969). Four Essays on Liberty. Oxford University Press.

+

Alexander, C. (1977). A Pattern Language. Oxford University Press.

+

Alexander, C. (1979). The Timeless Way of Building. Oxford University Press.

+

Weil, S. (1951). Waiting for God. G.P. Putnam's Sons.

+

Wittgenstein, L. (1921). Tractatus Logico-Philosophicus.

+

Stanford Encyclopedia of Philosophy. "Value Pluralism." https://plato.stanford.edu/entries/value-pluralism/

+

Stanford Encyclopedia of Philosophy. "Simone Weil." https://plato.stanford.edu/entries/simone-weil/

+

Te Mana Raraunga. https://www.temanararaunga.maori.nz/

+

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care

+
+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-fr.html b/public/downloads/philosophical-foundations-village-project-fr.html new file mode 100644 index 00000000..9e8f7e83 --- /dev/null +++ b/public/downloads/philosophical-foundations-village-project-fr.html @@ -0,0 +1,60 @@ +Les fondements philosophiques du projet Village + +

Les fondements philosophiques du projet Village

Un cadre pour la souveraineté numérique et la gouvernance pluraliste de l'IA

Ma souveraineté numérique limitée à février 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+

Précis

Le projet Village représente une tentative d'opérationnaliser des principes philosophiques rigoureux dans l'architecture des plateformes communautaires numériques et des systèmes d'intelligence artificielle. Plutôt que de traiter la philosophie comme une rhétorique décorative ou une justification post hoc, cette initiative intègre les idées d'Isaiah Berlin sur le pluralisme des valeurs, de Christopher Alexander sur l'intégrité structurelle et des cadres de souveraineté des données indigènes dans le substrat technique de l'organisation des communautés et du comportement des systèmes d'intelligence artificielle. Il en résulte une architecture constitutionnelle à trois niveaux dans laquelle certaines protections sont immuables, un cadre de gouvernance dans lequel l'IA ne peut pas automatiser les décisions relatives aux valeurs, et une méthodologie de formation dans laquelle l'ancrage philosophique précède le développement des capacités. Ce document présente les fondements intellectuels, les défis contemporains qui motivent ce travail et les plans concrets de mise en œuvre.

+

I. Fondements philosophiques

+

Isaiah Berlin et la pluralité des valeurs

L'engagement philosophique fondamental de ce projet découle des travaux d'Isaiah Berlin sur le pluralisme des valeurs, dont l'articulation la plus complète se trouve dans son recueil Four Essays on Liberty (1969). Selon Berlin, les biens humains authentiques - liberté, égalité, justice, miséricorde, efficacité, solidarité - sont fondamentalement pluriels et souvent incommensurables. Il n'existe pas de monnaie commune, d'échelle universelle, de méta-valeur permettant de les classer définitivement. Comme le résume la Stanford Encyclopedia of Philosophy : "Le pluralisme des valeurs est le point de vue selon lequel il existe de nombreuses valeurs différentes qui peuvent être également correctes et fondamentales, tout en étant en conflit les unes avec les autres.

Les implications de cette position sont profondes et souvent mal comprises. Berlin ne prône pas le relativisme, c'est-à-dire l'idée que tous les systèmes de valeurs sont également valables ou que les valeurs ne sont que des préférences subjectives. Il soutenait plutôt que les valeurs authentiques et objectives peuvent entrer en conflit de manière irréductible. Lorsque la liberté s'oppose à l'égalité, ou la miséricorde à la justice, nous sommes confrontés à un choix tragique où quelque chose de valeur réelle doit être sacrifié. Il ne s'agit pas d'un échec de l'analyse qu'un meilleur raisonnement pourrait résoudre ; c'est intrinsèque à la condition humaine.

Pour la gouvernance de l'intelligence artificielle, le cadre de Berlin débouche sur un principe essentiel : Les systèmes d'intelligence artificielle ne doivent jamais assumer une hiérarchie de valeurs par défaut. Lorsqu'une IA optimise l'efficacité, elle subordonne implicitement d'autres valeurs - la minutie, le soin, la réflexion - sans l'autorisation explicite de l'homme pour ce compromis. Le cadre du Tractatus qui régit nos systèmes d'IA reconnaît donc six cadres moraux irréductiblement différents :

+ +

Lorsque ces cadres entrent en conflit, ce qui est inévitable, le système ne résout pas la tension de manière algorithmique. Il soumet le conflit aux décideurs humains en leur indiquant de manière transparente ce que chaque cadre recommanderait et ce que chaque choix entraînerait comme perte. C'est ce que nous appelons la "délibération pluraliste" : la reconnaissance structurée du fait que des personnes raisonnables ayant des valeurs différentes mais légitimes parviendront à des conclusions différentes, et que cette diversité est une caractéristique des communautés saines plutôt qu'un défaut à éliminer par des moyens techniques.

La distinction établie par Berlin entre la liberté négative (absence d'ingérence) et la liberté positive (liberté d'atteindre la maîtrise de soi) éclaire également notre approche. Il a averti que la liberté positive, malgré sa rhétorique émancipatrice, comporte des dangers lorsqu'elle est exercée par ceux qui prétendent connaître les "vrais" intérêts des autres mieux qu'ils ne se connaissent eux-mêmes. Cet avertissement résonne avec une force particulière à l'ère de la curation algorithmique, où les systèmes optimisent l'"engagement" en partant du principe que ce qui capte l'attention représente une véritable préférence. Notre engagement en faveur de la liberté négative se manifeste par un refus d'optimisation : nous ne curons pas les flux, nous ne recommandons pas de contenu, nous ne poussons pas le comportement vers des résultats définis par la plateforme.

+

Christopher Alexander et l'intégrité structurelle

Les travaux de Christopher Alexander sur les langages de modèles et la théorie architecturale fournissent le cadre méthodologique permettant de traduire les principes philosophiques en architecture technique. Alexander, dont l'influence s'étend de l'architecture physique à la conception de logiciels, a soutenu que les systèmes vivants présentent des propriétés structurelles particulières qui ne peuvent être obtenues par une planification descendante, mais qui émergent d'une attention particulière portée à la manière dont les parties sont liées aux ensembles.

Cinq des principes d'Alexander ont été codifiés dans le cadre de gouvernance Tractatus :

Verrouillage profond (règle inst_090) : Les composants doivent se coordonner par le biais d'une validation mutuelle plutôt que d'opérer de manière isolée. Dans notre implémentation, aucun service ne peut approuver seul une action. Le BoundaryEnforcer valide qu'une opération respecte les limites des valeurs ; le MetacognitiveVerifier confirme que la qualité du raisonnement répond aux normes ; le CrossReferenceValidator assure la cohérence avec les décisions antérieures. Cette imbrication permet d'éviter tout point de contournement unique.

Transformation préservant la structure (règle inst_091) : Les modifications apportées à un système doivent préserver sa structure essentielle. Lorsque nos systèmes d'IA apprennent à partir de nouvelles données ou s'adaptent à de nouveaux contextes, ils ne doivent pas compromettre l'interprétabilité des journaux d'audit, invalider les décisions de gouvernance antérieures ou saper les précédents en matière d'instruction. L'évolution se fait dans le respect des contraintes structurelles.

Des gradients plutôt que des frontières (règle inst_092) : Les systèmes vivants fonctionnent sur des gradients d'intensité plutôt que sur des commutateurs binaires. Notre gouvernance reconnaît donc des niveaux - NORMAL, ÉLEVÉ, ÉLEVÉ, CRITIQUE, DANGEREUX - avec des protocoles différents à chaque niveau. Cela permet d'éviter la fragilité des systèmes qui n'ont que des états "autorisés" et "interdits".

Processus vivant (règle inst_093) : Le cadre évolue à partir d'une expérience opérationnelle réelle plutôt que de spécifications prédéterminées. Les règles de gouvernance émergent des échecs réels, des incidents documentés et des cas limites observés. Il s'agit d'un engagement en faveur de l'apprentissage institutionnel plutôt que de la rigidité institutionnelle.

La non-séparation (règle inst_094) : Il s'agit peut-être du principe le plus important. La gouvernance doit être intégrée dans l'architecture, et non pas ajoutée après coup. Si un système d'IA peut s'exécuter sans validation de la gouvernance, celle-ci est séparée et sera inévitablement contournée sous la pression. Dans nos boucles de formation, le BoundaryEnforcer valide chaque lot avant que la formation ne commence ; la gouvernance est à l'intérieur de la boucle, ce n'est pas un filtre appliqué après coup.

Ce dernier principe concerne un mode d'échec persistant dans la sécurité de l'IA : la tendance à développer d'abord des systèmes performants et à ajouter des mesures de sécurité par la suite. De telles approches traitent la sécurité comme une contrainte sur la capacité plutôt que comme un élément constitutif de ce qu'est fondamentalement le système. Les travaux d'Alexander suggèrent que cette séparation n'est pas seulement peu judicieuse d'un point de vue stratégique, mais qu'elle n'est pas judicieuse d'un point de vue architectural - les systèmes dont la gouvernance a été boulonnée n'ont pas l'intégrité structurelle des systèmes où la gouvernance et la fonction sont unifiées.

+

Souveraineté des données autochtones

Le troisième fondement structurel s'appuie sur des cadres indigènes bien antérieurs à la technologie numérique, mais qui abordent directement les questions de la gouvernance des données, des droits collectifs et de la relation entre l'information et la communauté.

Te Mana Raraunga, le réseau maori pour la souveraineté des données, énonce des principes qui remettent en question les hypothèses individualistes occidentales sur la propriété des données :

+ +

Ces principes sont complétés par les principes CARE élaborés par la Global Indigenous Data Alliance : Bénéfice collectif, Autorité de contrôle, Responsabilité et Éthique. Le cadre PCAP des Premières Nations du Canada (propriété, contrôle, accès, possession) fournit des orientations parallèles.

Dans notre mise en œuvre, ces cadres se manifestent sous la forme de garanties structurelles : les membres individuels ne peuvent pas annuler les décisions de gouvernance collective concernant les données partagées ; les communautés conservent leur souveraineté sur la manière dont leurs récits collectifs sont traités et présentés ; aucune donnée ne circule vers des systèmes externes sans le consentement explicite de la collectivité par le biais de procédures de gouvernance établies.

Il s'agit d'un engagement philosophique substantiel, et non d'une simple reconnaissance. Nous reconnaissons que les communautés indigènes théorisent et pratiquent la souveraineté des données depuis des générations - bien avant que le terme "données" ne devienne un terme de l'industrie technologique - et que leurs cadres offrent des réponses sophistiquées à des problèmes que la philosophie occidentale commence seulement à reconnaître.

+

Le Tractatus : Wittgenstein et les limites du dicible

Le nom du cadre de gouvernance - Tractatus - fait délibérément référence au Tractatus Logico-Philosophicus (1921) de Ludwig Wittgenstein, l'une des œuvres philosophiques les plus influentes du vingtième siècle. Wittgenstein a établi une distinction fondamentale entre ce qui peut être dit (exprimé dans des propositions, soumises à la logique) et ce qui ne peut être que montré (les valeurs, l'éthique, la mystique).

Cette distinction s'applique directement à la gouvernance de l'IA. Certaines décisions peuvent être systématisées et déléguées à des agents autonomes : optimisations techniques, comparaison de modèles, recherche de données, transformations syntaxiques. Ces décisions appartiennent au domaine de l'"énonçable" - elles peuvent être spécifiées, mesurées, vérifiées.

D'autres décisions - celles qui impliquent les valeurs, l'éthique, le contexte culturel et l'action humaine - ne peuvent et ne doivent fondamentalement pas être automatisées. Elles appartiennent à ce que Wittgenstein appelait "l'indicible" : non pas parce qu'elles sont irrationnelles ou arbitraires, mais parce qu'elles dépassent la capacité des systèmes formels à les saisir. Le cadre du Tractatus fait respecter cette limite sur le plan architectural, en veillant à ce que les systèmes d'IA n'opèrent que dans le domaine de l'exprimable, tout en préservant l'autorité humaine sur tout ce qui se trouve en dehors de ce domaine.

+

II. Le village : L'architecture, une philosophie concrétisée

+

Architecture constitutionnelle à trois niveaux

La plateforme Village met en œuvre une architecture constitutionnelle à trois niveaux qui traduit les principes philosophiques en une structure applicable :

+

Couche 1 : Principes universels de la plate-forme (immuables)

Cette couche comprend des principes qui ne peuvent être modifiés par aucun locataire, administrateur ou utilisateur. Elle est codée en dur dans l'architecture du système et appliquée par le cadre Tractatus. En voici quelques exemples :

+ +

Ces principes ne sont pas des politiques qui pourraient être modifiées par des processus de gouvernance ; ce sont des contraintes structurelles qui rendent certaines violations impossibles d'un point de vue architectural.

+

Couche 2 : Principes constitutionnels du locataire (personnalisable)

Chaque village (communauté de locataires) définit sa propre constitution dans les limites établies par la couche 1. Cette couche comprend

+ +

Cette couche incarne le pluralisme des valeurs de Berlin dans la pratique : différentes communautés ont légitimement des valeurs différentes, et la plateforme tient compte de cette diversité au lieu d'imposer l'homogénéité.

+

Couche 3 : Préférences personnelles du membre (individuel)

Les membres individuels configurent leurs propres préférences dans les limites de la constitution de leur communauté : fréquence des notifications, préférences linguistiques, niveaux d'assistance de l'IA, paramètres par défaut de confidentialité pour leur propre contenu. Les préférences de la couche 3 sont soumises aux normes communautaires de la couche 2, qui sont soumises aux principes universels de la couche 1.

Cette architecture à plusieurs niveaux garantit la protection des droits fondamentaux et l'épanouissement d'un véritable pluralisme. Une communauté familiale peut adopter des normes différentes de celles d'une organisation professionnelle ; une communauté religieuse peut établir des protocoles de communication différents de ceux d'une communauté laïque. Mais aucune communauté ne peut violer les protections fondamentales qui s'appliquent à tous.

+

Les statuts de la société

My Digital Sovereignty Limited, l'entité qui développe la plateforme Village, fonctionne selon une constitution publiée qui s'articule autour de six principes :

+
  1. 1. La souveraineté d'abord - La pleine propriété des données signifie un contrôle total, et non une minimisation des données. Les membres peuvent exporter toutes leurs données à tout moment. La suppression est réelle, à partir des systèmes de production, des sauvegardes et des données d'entraînement à l'IA.
  2. 2. La protection de la vie privée par défaut - La protection de la vie privée est un droit de l'homme, et non une fonctionnalité haut de gamme. La plateforme n'a pas de mode "public" ; toutes les interactions ont lieu dans des contextes authentifiés et définis par le locataire. Pas de pixels de suivi, pas d'analyse intersites, pas d'infrastructure de surveillance.
  3. 3. Le pluralisme plutôt que l'homogénéité - La plate-forme n'impose pas de valeurs. Les différentes communautés se gouvernent selon leurs propres principes, dans les limites des protections universelles.
  4. 4. Transparence et responsabilité - La constitution elle-même est publique. Les systèmes d'IA révèlent quels modèles ont été utilisés, quelles données ont été consultées et comment les décisions ont été prises. Les rapports d'incidents sont publiés avec un contexte complet.
  5. 5. Sécurité sans surveillance - La sécurité et la vie privée ne sont pas des forces opposées à "équilibrer". La modération communautaire remplace la curation algorithmique du contenu. La protection contre les menaces s'effectue aux frontières du système sans surveillance comportementale des membres.
  6. 6. Modèle d'entreprise durable - Tarification équitable basée sur le coût plus une marge raisonnable. Pas d'appât, pas d'impératifs de croissance dictés par le capital-risque, pas de stratégie de sortie qui compromettrait les intérêts des membres.
+

Une fédération intègre

Les villages peuvent se fédérer avec d'autres villages - partageant des contenus, permettant une interaction intercommunautaire - par le biais d'accords bilatéraux qui rendent explicites les différences constitutionnelles. La fédération n'est pas automatique ou sans friction ; elle nécessite :

+ +

Cette approche considère la fédération comme une relation entre des entités souveraines plutôt que comme une intégration technique à optimiser pour la croissance. Elle accepte les frictions d'un véritable pluralisme plutôt que d'effacer les différences au nom d'une expérience utilisateur homogène.

+

III. La situation actuelle

+

L'avertissement de Berlin se concrétise

Isaiah Berlin avait prévenu que la liberté positive - la liberté de réaliser son "vrai" moi - comporte des dangers lorsqu'elle est revendiquée par ceux qui prétendent connaître les véritables intérêts des autres mieux qu'ils ne se connaissent eux-mêmes. Cet avertissement a trouvé sa concrétisation la plus complète dans l'économie de l'attention.

Les plateformes contemporaines optimisent l'"engagement" en se basant sur la théorie selon laquelle ce qui capte l'attention représente une préférence révélée. Mais cette théorie confond la contrainte et le choix. Les mécanismes neurologiques exploités par les flux algorithmiques - programmes de récompenses variables, boucles de validation sociale, amplification de l'outrage - ne représentent pas les préférences d'un agent autonome émettant des jugements réfléchis. Ils représentent les vulnérabilités d'un système biologique exploité de manière systématique.

Les entreprises qui exploitent ces systèmes pensent sincèrement qu'elles servent les utilisateurs en maximisant l'engagement. Il ne s'agit pas d'une rationalisation cynique, mais d'une conviction sincère, ce qui la rend bien plus dangereuse que la simple cupidité. Berlin a compris que les formes les plus destructrices de non-liberté sont enveloppées dans le langage de la libération, promettant d'aider les gens à atteindre ce qu'ils veulent "vraiment" en passant outre leurs préférences exprimées.

+

La concentration des capacités d'IA

Le développement de grands modèles de langage a concentré des capacités sans précédent dans un petit nombre d'organisations. Ces systèmes peuvent générer des textes de qualité humaine, analyser des documents complexes, écrire des codes fonctionnels et s'engager dans un raisonnement étendu. Ils sont intégrés dans tous les domaines de l'activité humaine : éducation, soins de santé, droit, travail créatif, relations personnelles.

Cette concentration soulève des questions auxquelles les cadres de gouvernance existants ne peuvent répondre :

+ +

Il ne s'agit pas de problèmes techniques susceptibles d'être résolus par des solutions techniques. Il s'agit de problèmes philosophiques concernant le type d'êtres que nous voulons être et le type de société que nous voulons habiter.

+

L'érosion de l'autonomie épistémique

Le plus préoccupant est peut-être l'érosion de ce que l'on pourrait appeler l'autonomie épistémique : la capacité de se forger des convictions par son propre raisonnement plutôt que d'accepter des conclusions fournies par des systèmes que l'on ne comprend pas. Lorsqu'un système d'IA produit une réponse, la plupart des utilisateurs ne peuvent pas évaluer le raisonnement qui l'a produite. Ils doivent faire confiance ou se méfier en se basant sur les antécédents et la réputation, des critères faciles à manipuler.

Il s'agit d'un changement qualitatif dans la relation de l'homme à la connaissance. Les technologies précédentes - livres, bibliothèques, moteurs de recherche - ont renforcé la capacité humaine à trouver et à évaluer l'information. Les systèmes d'IA actuels se substituent de plus en plus à cette capacité, livrant des conclusions plutôt que des preuves, des réponses plutôt que des arguments.

La conséquence à long terme pourrait être une population qui a externalisé non seulement la recherche d'informations mais aussi le jugement lui-même - capable de poser des questions mais pas d'évaluer les réponses, dépendante de systèmes dont elle ne peut inspecter le fonctionnement et dont elle ne peut interroger les valeurs.

+

IV. Une approche philosophique du développement de l'IA

+

Le concept d'IA domestique

En réponse à ces défis, nous développons ce que nous appelons l'"IA domestique" - un petit modèle linguistique formé localement (SLL) qui fonctionne sous la gouvernance de la communauté sur du matériel contrôlé par l'utilisateur. Les caractéristiques distinctives sont les suivantes :

Souveraineté : Le modèle fonctionne sur du matériel appartenant à la communauté ou contrôlé par elle. Les données relatives à la formation restent locales. Aucune information ne circule vers des systèmes externes sans l'accord explicite des procédures de gouvernance établies.

Transparence : Les communautés peuvent vérifier ce que le modèle sait d'elles, comment il a été formé et pourquoi il produit des résultats particuliers. La mémoire de l'IA n'est pas une boîte noire, mais un enregistrement vérifiable soumis à la gouvernance de la communauté.

Fondement philosophique : Le modèle est formé en accordant une attention explicite aux fondements philosophiques. Plutôt que d'optimiser purement la capacité et d'ajouter des mesures de sécurité par la suite, nous intégrons des contraintes philosophiques dès les premières étapes du développement.

Gouvernance communautaire : Chaque communauté configure le comportement de son assistant IA en fonction de ses propres principes constitutionnels. Une communauté qui privilégie la franchise configure la franchise ; une communauté qui privilégie la douceur configure la douceur. La plateforme fournit l'infrastructure ; les communautés fournissent les valeurs.

+

L'encyclopédie de philosophie de Stanford, une référence qui fait autorité

Pour les concepts philosophiques, nous avons établi la Stanford Encyclopedia of Philosophy (SEP) comme référence unique faisant autorité. Cette décision reflète à la fois la qualité de l'érudition de la SEP et un engagement en faveur de la rigueur intellectuelle qui résiste à la tentation de traiter des positions philosophiques complexes comme des ressources à exploiter pour obtenir des citations commodes.

Lorsque le processus de formation rencontre des termes philosophiques, il se réfère aux entrées du SEP. En cas d'interprétations multiples, c'est l'analyse du débat par le SEP qui prime. Lorsque les utilisateurs posent des questions philosophiques, les réponses sont fondées sur les définitions du SEP plutôt que générées à partir de modèles statistiques dans les données de formation.

Il ne s'agit pas simplement d'une mesure de contrôle de la qualité, mais d'un engagement philosophique de fond : les systèmes d'IA qui s'intéressent aux concepts philosophiques doivent le faire avec la même rigueur que celle attendue des chercheurs humains, en reconnaissant la complexité plutôt qu'en l'aplatissant, en représentant les débats plutôt qu'en les résolvant de manière prématurée.

+

Les traditions de sagesse, une personnalisation de niveau 3

Au-delà des fondements philosophiques structurels (couche 1) et des principes constitutionnels communautaires (couche 2), nous fournissons un système de traditions de sagesse adoptables qui influencent la manière dont l'assistance à l'IA est encadrée et fournie (couche 3). Il est essentiel de comprendre ce que cette couche fait et ne fait pas.

Les effets de la couche 3 : Le style de communication, le cadrage, les choix linguistiques, les suggestions de rythme. Les traditions adoptées façonnent la façon dont l'IA domestique communique avec vous.

Ce que la couche 3 n'affecte pas : Les décisions relatives au contenu, l'accès aux données, l'application de la gouvernance. Les traditions adoptées ne contrôlent pas ce que le système est autorisé à faire. Il s'agit de tendances, et non de règles, qui peuvent toujours être ignorées dans une situation donnée.

Treize traditions ont été documentées et validées par l'encyclopédie de philosophie de Stanford :

+ +

Les communautés et les individus peuvent adopter des traditions qui correspondent à leurs valeurs. Ces adoptions influencent la manière dont l'assistance à l'IA est encadrée - quelles considérations sont mises en avant, quel langage est utilisé, quelles options sont proposées - sans pour autant supplanter les protections structurelles établies à la couche 1 ou les règles constitutionnelles établies à la couche 2.

Lorsque les traditions suggèrent des approches différentes (comme c'est parfois le cas - l'équanimité stoïcienne peut entrer en tension avec l'attention portée à l'affliction par Weil), le système fait apparaître la tension plutôt que de la résoudre de manière algorithmique, invitant l'être humain à réfléchir à ce que la situation exige. C'est le pluralisme des valeurs de Berlin dans la pratique : les valeurs légitimes entrent véritablement en conflit, et le système ne prétend pas résoudre ce conflit à votre place.

+

La gouvernance intégrée à la formation

Conformément au principe de non-séparation d'Alexander, nous intégrons la gouvernance dans le processus de formation lui-même plutôt que de l'appliquer comme un filtre a posteriori. La boucle de formation comprend

+ +

Cette approche accepte un surcoût de performance - environ 5 % dans nos tests - en échange de véritables garanties. L'autre solution - former sans contrainte et filtrer par la suite - produit des systèmes où la gouvernance est toujours potentiellement contournable, toujours en tension avec les capacités, toujours en risque d'érosion sous la pression de la concurrence.

+

V. Vers une souveraineté numérique pluraliste

Le projet Village représente une approche possible de défis qui n'admettent pas de solutions définitives. Nous ne prétendons pas avoir résolu les tensions entre capacité et sécurité, entre autonomie individuelle et gouvernance collective, entre efficacité technologique et valeurs humaines. Ces tensions, telles qu'elles sont comprises à Berlin, sont véritablement tragiques : pour les surmonter, il faut faire preuve de jugement, de compromis et accepter que quelque chose de précieux sera toujours perdu.

Nous proposons plutôt un cadre qui prend ces tensions au sérieux - qui refuse de prétendre qu'elles peuvent être optimisées, qui intègre la réflexion philosophique dans l'architecture technique, qui préserve l'action humaine sur les décisions qui ne devraient pas être automatisées.

Le test de cette approche ne sera pas de savoir si elle atteint un optimum théorique, mais si elle permet aux communautés de s'épanouir selon leur propre conception de l'épanouissement, c'est-à-dire si elle protège les personnes vulnérables, préserve la diversité, maintient la transparence et crée des conditions dans lesquelles un véritable choix humain reste possible.

À une époque où les capacités de l'IA augmentent et où la surveillance humaine diminue, il s'agit peut-être du travail le plus important qui soit.

+

Références

+
+

Berlin, I. (1969). Four Essays on Liberty. Oxford University Press.

+

Alexander, C. (1977). A Pattern Language. Oxford University Press.

+

Alexander, C. (1979). The Timeless Way of Building. Oxford University Press.

+

Weil, S. (1951). Waiting for God. G.P. Putnam's Sons.

+

Wittgenstein, L. (1921). Tractatus Logico-Philosophicus.

+

Stanford Encyclopedia of Philosophy. "Value Pluralism." https://plato.stanford.edu/entries/value-pluralism/

+

Stanford Encyclopedia of Philosophy. "Simone Weil." https://plato.stanford.edu/entries/simone-weil/

+

Te Mana Raraunga. https://www.temanararaunga.maori.nz/

+

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care

+
+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-mi.html b/public/downloads/philosophical-foundations-village-project-mi.html new file mode 100644 index 00000000..3d799dbe --- /dev/null +++ b/public/downloads/philosophical-foundations-village-project-mi.html @@ -0,0 +1,60 @@ +Ngā Pūtake Arorau o te Kaupapa o te Kāinga + +

Ngā Pūtake Arorau o te Kaupapa o te Kāinga

He anga mō te rangatiratanga matihiko me te whakahaere AI maha-āhua

Tōku Rangatiratanga Matihiko Herenga Pēpuere 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+

Whakarāpopototanga

Ko te kaupapa o The Village he whakamātau ki te whakatinana i ngā mātāpono ā-arotau pakari ki roto i te hanganga o ngā tūāpapa hapori matihiko me ngā pūnaha mātauranga hangarua. Kāore e whakahaere ana i te ariā hei kupu whakapaipai, hei whakamana i muri i ngā mahi rānei; engari, ka whakauru tēnei kaupapa i ngā māramatanga a Isaiah Berlin mō te kanorau uara, a Christopher Alexander mō te pakari hanganga, me ngā anga rangatiratanga raraunga taketake ki te turanga hangarau o te whakahaere a ngā hapori me te whanonga o ngā pūnaha mātauranga hangarua. Ko te hua he hanganga ture ā-papa e toru, kei reira ētahi ārai kāore e taea te whakarerekē; he anga whakahaere kāore e taea e te AI te aunoa i ngā whakataunga uara; me tētahi tikanga whakangungu e whai tuatahi ana te tūāpapa whakaaro i mua i te whakawhanaketanga pūkenga. E whakaatu ana tēnei tuhinga i ngā tūāpapa hinengaro, ngā wero o nāianei e akiaki ana i tēnei mahi, me ngā mahere mārama mō te whakatinanatanga.

+

I. Ngā Pūtake Arorangi

+

Isaiah Berlin me te maha o ngā uara

Ko te ū ki ngā ariā matua o tēnei kaupapa e ahu mai ana i ngā mahi a Isaiah Berlin mō te maha o ngā uara, i whakamārama whānuitia i tana kohinga tuhinga o te tau 1969, Four Essays on Liberty. I kī a Berlin he maha ngā painga tūturu a te tangata—te rangatiratanga, te ōritetanga, te tika, te atawhai, te whai hua, te kotahitanga—ā, he maha rawa ēnei, ā, kāore e taea te whakataurite i a rātou. Kāore he moni whakawhiti noa, kāore he paemahana ā-ao, kāore he uara matua hei whakarōpū i a rātou kia tino whakatau. E ai ki te whakarāpopototanga a te Stanford Encyclopedia of Philosophy: "Ko te maha-uara te tirohanga e mea ana he maha ngā uara rerekē e tika ana, e tūturu ana hoki, engari e taupatupatu ana ki a rātou anō."

He hōhonu ngā pānga o tēnei tūnga, ā, he maha ngā wā ka hē te mārama ki a ia. Ehara a Berlin i te tautoko i te whakawhānuitanga uara—arā, te whakapae e ōrite ana te mana o ngā pūnaha uara katoa, me te mea he manakohanga whaiaro noa iho ngā uara. Engari, i kī ia ka taea e ngā uara tūturu, whai take, te taupatupatu mutunga kore. Ka taupatupatu te rangatiratanga ki te ōritetanga, te atawhai ki te tika, ā, ka tū tātou ki mua i tētahi kōwhiringa pōraruraru, me tuku tētahi mea whai uara tūturu. Ehara tēnei i te ngoikore o te tātaritanga ka taea e te whakaaro pai ake te whakatau; he wāhanga tūturu tēnei o te āhua tangata.

Mō te whakahaere i te mātauranga hangarua, ka puta mai i te anga o Berlin tētahi mātāpono tino hira: me kaua ngā pūnaha mātauranga hangarua e whakaarohia he rārangi uara taunoa. Ina whakapai ake te mātauranga hangarua i te whaihua, ka whakaiti huna ia i ētahi atu uara—te hōhonutanga, te manaaki, te whakaaroaro—kāore he whakaaetanga mārama a te tangata mō taua whakawhitinga. Nō reira, e mōhio ana te anga Tractatus e whakahaere ana i ā mātou pūnaha mātauranga hangarua ki ngā anga matatika e ono, kāore e taea te whakaiti, ā, he rerekē katoa:

+ +

Ka taupatupatu ēnei anga—pērā tonu i ngā wā katoa—kāore te pūnaha e whakatau i te taumaha mā te algorithm. Ka whakaatu te pūnaha i te taupatupatu ki ngā kaiwhakatau tangata, me te mārama ki ngā taunakitanga a ia anga me ngā mea ka ngaro i ia kōwhiringa. Koinei tā mātou e kī nei ko te "whiriwhiringa maha": he whakamanatanga hanganga e whakaae ana ka tae ngā tāngata whai whakaaro, e mau ana i ngā uara rerekē engari whai mana, ki ngā whakatau rerekē, ā, he āhuatanga tēnei o ngā hapori hauora, ehara i te hē hei whakakore.

Ko te wehewehenga a Berlin i waenga i te rangatiratanga ā-kore (te herekore i te aukatinga) me te rangatiratanga ā-pū (te herekore ki te whakatutuki i te rangatiratanga whaiaro) e whakamarama ana i tā mātou huarahi. I whakatūpato ia, ahakoa tōna reo whakawātea, he mōrearea te rangatiratanga ā-pū mēnā ka whakamahia e te hunga e kī ana e mōhio pai ana rātou ki ngā hiahia 'tūturu' o ētahi atu i ō rātou ake mōhio. E tino kaha ana tēnei whakatūpato i te ao o te whakarite ā-algoritim, i reira ka whakapai ngā pūnaha i te "whai wāhi" i runga i te whakaaro ko ngā mea e kukume ana i te aro he tohu tūturu o ngā manakohanga. Ko tā mātou ū ki te rangatiratanga ā-kore he whakahē i te whakapai: kāore mātou e whakarite i ngā rerenga kōrero, kāore mātou e tūtohu ihirangi, kāore mātou e akiaki i ngā whanonga ki ngā hua kua tautuhia e te papa.

+

Christopher Alexander me te Pūmau Hanganga

Ko ngā mahi a Christopher Alexander mō ngā reo tauira me te ariā hoahoanga e whakarato ana i te anga tikanga hei whakamāori i ngā mātāpono whakaaro ki te hoahoanga hangarau. Ko Alexander, ko tōna pānga e toro ana mai i te hoahoanga ā-tinana ki te hoahoa pūmanawa, i kī ko ngā pūnaha ora e whakaatu ana i ētahi āhuatanga hanganga motuhake kāore e taea te whakatutuki mā te whakamahere mai i runga ki raro, engari ka puta ake i te aro nui ki te hononga o ngā wāhanga ki te katoa.

Kua whakaurua e rima o ngā mātāpono a Alexander ki roto i te anga whakahaere o Tractatus:

Hononga Hōhonu (Ture inst_090): Me whakakotahi ngā wāhanga mā te whakamana ā-tōrite, kaua e mahi motuhake. I tō mātou whakatinanatanga, kāore he ratonga kotahi e taea te whakaae ki tētahi mahi anake. Ka whakamana te BoundaryEnforcer kia ū te whakahaere ki ngā rohe uara; ka whakapūmau te MetacognitiveVerifier kei te tutuki te kounga whakaaro ki ngā paerewa; ka whakarite te CrossReferenceValidator i te ōritetanga ki ngā whakataunga o mua. Mā tēnei hononga hōhonu e aukati ai te huarahi kotahi hei karo.

Panoni Tiaki Hanganga (Ture inst_091): Me tiaki tonu i te hanganga matua o te pūnaha i ngā whakarerekētanga. Ina ako ā mātou pūnaha AI i ngā raraunga hou, i ngā horopaki hou rānei, me kaua e pakaru te āheinga whakamārama o ngā rangitaki arotake, e whakakore i ngā whakataunga whakahaere o mua, e whakaiti rānei i ngā tūtohu whakahau o mua. Ka puta te whanaketanga i roto i ngā here hanganga.

Ngā Taumata, Ehara i ngā Rohe (Ture inst_092): Ka mahi ngā pūnaha ora i runga i ngā taumata kaha, ehara i ngā pana rua. Nō reira, e mōhio ana tō tātou whakahaere ki ngā taumata—NORMAL, ELEVATED, HIGH, CRITICAL, DANGEROUS—me ngā kawa rerekē i ia taumata. Mā konei ka ārai i te ngoikore o ngā pūnaha e rua anake ngā āhua 'whakaaetia' me 'kāore i whakaaetia'.

Tukanga Ora (Ture inst_093): Ka whanake te anga i runga i ngā wheako whakahaere tūturu, ehara i te whakaritenga kua whakaritea i mua. Ka puta ngā ture whakahaere i ngā hapa tūturu, i ngā aitua kua tuhia, me ngā take pito kua tirohia. E tohu ana tēnei i te ū ki te ako ā-tari, kaua ki te mārō ā-tari.

Kāore te Wehewehe (Ture inst_094): Tērā pea koinei te mātāpono tino hira. Me whakauru te whakahaere ki roto i te hanganga, kaua e tāpirihia hei whakaaro whakamutunga. Mēnā ka taea e tētahi pūnaha AI te whakahaere me te kore whakamanatanga whakahaere, ka wehewehe te whakahaere—ā, kāore e kore ka whakakorehia i raro i te pēhanga. I ā mātou porohita whakangungu, ka whakamanahia e te BoundaryEnforcer ia kohinga i mua i te haere tonu o te whakangungu; kei roto i te porohita te whakahaere, ehara i te tātari i tāpirihia i muri mai.

Ko tēnei mātāpono whakamutunga e aro ana ki tētahi huarahi hē e mau tonu ana i roto i te haumaru AI: ko te whakawhanake tuatahi i ngā pūnaha whai pūkenga, ā, ka tāpiri i ngā tikanga haumaru i muri mai. Mā ēnei huarahi ka whakaarohia te haumaru hei here mō te pūkenga, kāore hei wāhanga whai wāhanga o te pūnaha i tōna pūtake. E tohu ana ngā mahi a Alexander ehara tēnei wehenga i te mea he hē rautaki anake, engari he ngoikore hoki i te hanganga—kāore ngā pūnaha kua tāpirihia he whakahaere e whai ana i te pakari hanganga o ngā pūnaha e kotahi ana te whakahaere me te mahi.

+

Te rangatiratanga raraunga taketake

Ko te tūāpapa hanganga tuatoru e ahu mai ana i ngā anga taketake i mua rawa atu i te hangarau matihiko, engari e kōrero tika ana ki ngā pātai mō te whakahaere raraunga, ngā mana ā-rōpū, me te hononga i waenga i te mōhiohio me te hapori.

Te Mana Raraunga, te Whatunga Mana Raraunga o ngā Māori, e whakapuaki ana i ngā mātāpono e wero ana i ngā whakaaro takitahi o te Hauāuru mō te rangatiratanga raraunga:

+ +

Ka tautokona ēnei mātāpono e ngā Mātāpono CARE i whakawhanakehia e te Global Indigenous Data Alliance: Painga ā-Hapori, Mana Whakahaere, Haepapa, me ngā Tikanga. Ka whakarato aratohu ōrite te anga OCAP a First Nations Canada (rangatiratanga, mana whakahaere, uru, pupuri).

I roto i tā mātou whakatinanatanga, ka puta ēnei anga hei whakarite hanganga: kāore e taea e ngā mema takitahi te whakakore i ngā whakataunga whakahaere ā-rōpū mō ngā raraunga e tiritiri ana; ka pupuri tonu ngā hapori i tō rātou rangatiratanga ki te whakahaere me te whakaatu i ā rātou kōrero ā-rōpū; kāore he rerenga raraunga ki ngā pūnaha o waho mehemea kāore he whakaaetanga ā-rōpū mārama mā ngā tikanga whakahaere kua whakaritea.

E tohu ana tēnei i tētahi ū ki te ariā hōhonu, ehara i te mōhiotanga noa. Ka mōhio mātou kua roa ngā hapori taketake e ariā ana, e mahi ana hoki i te rangatiratanga raraunga mō ngā whakatupuranga—i mua rawa atu i te wā i riro ai te kupu "data" hei kupu ahumahi hangarau—ā, e tuku ana ā rātou anga i ngā whakautu matatau ki ngā raruraru e tīmata ana te ariā o te Hauāuru ki te mōhio.

+

Te Tractatus: Wittgenstein me ngā here o ngā mea e taea te kī

Ko te ingoa o te anga whakahaere—Tractatus—i whiriwhiria kia whakahua i te Tractatus Logico-Philosophicus (1921) a Ludwig Wittgenstein, tētahi o ngā tuhinga arorangi tino whai pānga o te rautau rua tekau. I wehewehea e Wittgenstein he rerekētanga taketake i waenga i ngā mea ka taea te kī (e whakapuaki ana i roto i ngā whakapuakitanga, e ū ana ki te arorau) me ngā mea ka taea anake te whakaatu (ngā uara, ngā tikanga, ngā mea ngaro).

Ka hāngai tika tēnei wehewehenga ki te whakahaere o te AI. Ka taea te whakarite pūnaha i ētahi whakataunga, ā, ka tukuna ki ngā māngai aunoa: ngā whakapainga hangarau, te whakataurite tauira, te tiki raraunga, me ngā huringa wetereo. Nō te ao o ngā mea e taea ana te kī ēnei—ka taea te tautuhi, te ine, me te whakamana.

Ētahi atu whakataunga—ko ēnei e pā ana ki ngā uara, ngā tikanga, te horopaki ahurea, me te mana whakahaere a te tangata—kāore rawa e taea, ā, me kaua rawa e aunoa. He wāhanga ēnei o tā Wittgenstein i kī ai ko te "kāore e taea te kī": ehara i te mea kāore he aronga, he whiriwhiri noa rānei, engari nā te mea ka nui rawa atu i te āheinga o ngā pūnaha ā-ture ki te hopu. Ka whakatinana te anga Tractatus i tēnei rohe ā-hanganga, kia mahi ngā pūnaha AI i roto anake i te rohe o ngā mea e taea ana te kī, ā, kia tiakina tonu te mana tangata ki ngā mea katoa kei tua atu.

+

II. Te Kāinga: Te Hoahoanga hei Arorangi kua Whakamau

+

Hoahoanga Ture Matua Toru-Wāhanga

Ka whakatinana e te papanga Village he hanganga ture matua e toru ngā paparanga, e whakamāori ana i ngā mātāpono ā-arotau ki tētahi hanganga ka taea te whakatinana:

+

Papanga 1: Ngā Mātāpono Papanga Whānui (Kāore e taea te whakarerekē)

Ko tēnei paparanga e kapi ana i ngā mātāpono kāore e taea te whakakore e tētahi kaiwhakamahi, kaiwhakahaere, rānei kaipāpā. Kua whakaurua tūturu ki te hanganga pūnaha, ā, ka whakatinanahia e te anga Tractatus. Hei tauira:

+ +

Ehara ēnei mātāpono i ngā kaupapa here ka taea te whakarerekē mā ngā tukanga whakahaere; he here hanganga ēnei e kore ai e taea, i runga i te hanganga, ētahi hē.

+

Papanga 2: Ngā Mātāpono Ture Matua mō te Kaihiri (Ka taea te whakarite)

Ka tautuhi ia Kāinga (hāpori kaipā) i tōna ake ture matua i roto i ngā rohe i whakatūria e te Papanga Tuatahi. Kei roto i tēnei papanga:

+ +

Ko tēnei paparanga e whakaatu ana i te maha o ngā uara o Berlin i roto i te mahi: he tika kia rerekē ngā uara o ia hapori, ā, ka tautoko te tūāpapa i tēnei kanorau, kaua e whakahau i te kotahitanga.

+

Papanga 3: Ngā Manakohanga Whaiaro o te Mema (Takiwā)

Ka whakarite ia mema i āna ake manakohanga i roto i ngā here o te ture matua o tōna hapori: te auau o ngā whakamōhiotanga, ngā manakohanga reo, ngā taumata āwhina AI, me ngā tautuhinga tūmataiti mō āna ake ihirangi. Ka whakawhiwhia ngā manakohanga o te Papanga 3 ki ngā paerewa hapori o te Papanga 2, ā, ka whakawhiwhia ēnei ki ngā mātāpono ā-ao o te Papanga 1.

Ka whakarite tēnei hanganga paparanga kia tiakina ngā mana taketake, ā, kia puāwai te kanorau tūturu. Ka taea e te hapori whānau te whai tikanga rerekē i tētahi whakahaere ngaio; ka taea e te hapori whakapono te whakatū tikanga whakawhitiwhiti kōrero rerekē i tētahi kāore i raro i te whakapono. Engari kāore he hapori e taea te takahi i ngā tiaki taketake e pā ana ki te katoa.

+

Te Ture Whakahaere o te Kamupene

Ko My Digital Sovereignty Limited, te rōpū e whakawhanake ana i te papanga Village, e whakahaere ana i raro i tētahi ture matua kua whakaputaina, ā, kua whakarōpūhia ki ngā mātāpono e ono:

+
  1. 1. Te Rangatiratanga Tuatahi — Ko te rangatiratanga katoa o ngā raraunga e tohu ana i te mana whakahaere katoa, ehara i te whakaiti raraunga. Ka taea e ngā mema te kaweake i ā rātou raraunga katoa i ngā wā katoa. He muku tūturu tēnei, mai i ngā pūnaha whakaputa, ngā tārua, me ngā raraunga whakangungu AI.
  2. 2. Tūmataitinga hei Taunoa — He tika tangata te tūmataitinga, ehara i te āhuatanga utu-nui. Kāore he aratau 'tūmatanui' o te papanga; ka tū ngā whakawhitinga katoa i roto i ngā horopaki kua whakamanahia, ā, e herea ana ki ia kaipā. Kāore he pika whaiwhai, kāore he tātaritanga whakawhiti-pae, kāore he hanganga aroturuki.
  3. 3. Te kanorau i runga i te ōritetanga — Kāore te tūāpapa e whakahau i ngā uara. Ka whakahaere ia hapori i a ia anō i runga i āna ake mātāpono, i roto i ngā rohe o ngā tiaki ā-ao.
  4. 4. Te Mārama me te Haepapa — He tuwhera ki te marea te ture matua. Ka whakaatu ngā pūnaha AI i ngā tauira i whakamahia, ngā raraunga i uru ki a rātou, me pēhea i hanga ai ngā whakataunga. Ka whakaputaina ngā pūrongo aitua me te horopaki katoa.
  5. 5. Haumaru me te Kore Aroturuki — Ehara te haumarutanga me te tūmataitinga i ngā pūmanawa e whakataetae ana kia taurite. Ka whakakapi te whakahaere ā-hapori i te whakarite ihirangi ā-algorithm. Ka puta te tiaki i ngā mōrearea i ngā rohe o te pūnaha, me te kore aroturuki i ngā whanonga o ngā mema.
  6. 6. Tauira Pakihi Toitū — Utu tika i runga i te utu tāpiri me te painga whai tikanga. Kāore he tuku āwhi me te huri, kāore he here tipu nā ngā pūtea tūpono, kāore he rautaki putanga e whakararuraru ana i ngā hiahia o ngā mema.
+

Uniana me te Pono

Ka taea e ngā kāinga te hanga hononga ki ētahi atu kāinga—ki te tiri ihirangi, ki te whakaahei i ngā whakawhitinga kōrero ā-hapori—mā ngā kirimana ā-rua e whakamārama ana i ngā rerekētanga ā-ture matua. Ehara te hononga pūnaha i te mea aunoa, kāore hoki e kore he raruraru; me whai ēnei:

+ +

Ko tēnei huarahi e whakaarohia ana te kotahitanga hei hononga i waenga i ngā rōpū rangatira motuhake, ehara i te whakaurunga hangarau hei whakapai ake mō te tipu. Ka whakaae ki ngā ārai o te kanorau tūturu, kaua e whakakore i ngā rerekētanga i runga i te ingoa o te wheako kaiwhakamahi kore-tāwhiti.

+

III. Te āhuatanga uaua o nāianei

+

Kua tutuki te whakatūpato a Berlin

I whakatūpato a Isaiah Berlin, ko te rangatiratanga whai hua—te herekore ki te whakatutuki i tōu ake tuakiri tūturu—e kawe ana i ngā mōrearea ina ka whakapae ētahi e mōhio pai ana ki ngā hiahia tūturu o ētahi atu i a rātou anō. Kua kitea tēnei whakatūpato i tōna whakatutukitanga tino kī i roto i te ōhanga aro.

Ka whakapai ake ngā papa o nāianei i te "whai wāhi" i runga i te ariā e mea ana ko ngā mea e hopu ana i te aro he whakaaturanga o ngā manakohanga kua whakapuaki. Engari, ka whakakotahitia e tēnei te pēhanga ki te kōwhiringa. Ehara i te mea e tohu ana ngā pūnaha ā-roro e whakamahia ana e ngā rerenga algorithm—ngā hōtaka utu rereke, ngā porowhita whakamanatanga pāpori, te whakawhanuitanga o te riri—i ngā manakohanga o tētahi tangata motuhake e whakatau ana i ngā whakataunga whai whakaaro. He tohu ēnei i ngā ngoikoretanga o tētahi pūnaha koiora e whakamahia ana i runga i te pūnaha.

E whakapono pono ana ngā kamupene e whakahaere ana i ēnei pūnaha kei te tuku ratonga ki ngā kaiwhakamahi mā te whakapiki i te whai wāhi. Ehara tēnei i te whakamārama whakakatakata, engari he whakapono pono—ā, nā konei he tino mōrearea atu i te hiahia rawa noa. I mārama a Berlin ko ngā āhua tino whakangaro o te kore rangatiratanga ka kapi i roto i te reo o te whakawātea, e oati ana ki te āwhina i te tangata kia tutuki i a rātou ngā mea e tino hiahia ana rātou, mā te whakakore i ā rātou ake kōwhiringa kua whakapuakina.

+

Te Whakakotahitanga o te Kaha o te AI

Ko te whanaketanga o ngā tauira reo nui kua whakakotahi i ngā pūkenga kāore i kitea i mua ki roto i tētahi tokoiti o ngā whakahaere. Ka taea e ēnei pūnaha te waihanga tuhinga kounga-tangata, te tātaritanga i ngā tuhinga matatini, te tuhi waehere whai hua, me te whai whakaaroaro hōhonu. Kei te whakaurua rātou ki ia wāhanga o ngā mahi a te tangata: te mātauranga, te tiaki hauora, te ture, ngā mahi auaha, me ngā hononga whaiaro.

Ka ara ake i tēnei arotahi ētahi pātai kāore e taea e ngā anga whakahaere o nāianei te whakautu:

+ +

Ehara ēnei i ngā raruraru hangarau ka taea te whakatau mā ngā rongoā hangarau. He raruraru arorau ēnei mō te momo tangata e hiahia ana mātou kia noho ai, me te momo hapori e hiahia ana mātou kia noho ai.

+

Te ānini o te rangatōpū mātauranga

Tērā pea ko te mea tino āwangawanga ko te pakupaku haere o tērā e kīia nei ko te rangatiratanga mō te mātauranga: arā, te āheinga ki te hanga whakapono mā tō ake whakaaro, kaua e whakaae ki ngā whakatau i tukuna mai e ngā pūnaha kāore koe e mārama ana. Ina whakaputa he whakautu tētahi pūnaha AI, kāore te nuinga o ngā kaiwhakamahi e āhei ki te aromātai i te aronga i whakaputa ai. Me whakawhirinaki rānei, me whakawhirinaki-kore rānei rātou i runga i ngā hua o mua me te ingoa—he tikanga whakatau māmā ka taea te tinihanga.

E tohu ana tēnei i tētahi panoni āhuatanga i roto i te hononga a te tangata ki te mātauranga. Ko ngā hangarau o mua—ngā pukapuka, ngā whare pukapuka, ngā miihini rapu—i whakapakari ake i te āheinga a te tangata ki te rapu me te aromātai i ngā pārongo. Kei te kaha ake ngā pūnaha AI o nāianei ki te whakakapi i taua āheinga, e tuku ana i ngā whakatau hei utu mō ngā taunakitanga, i ngā whakautu hei utu mō ngā tautohetohe.

Ko te hua mō te wā roa pea he taupori kua tuku atu i waho, ehara i te kimi pārongo anake, engari tae noa ki te whakatau anō—e āhei ana ki te pātai, engari kāore e āhei ki te aromātai i ngā whakautu, ā, e whakawhirinaki ana ki ngā pūnaha kāore rātou e āhei ki te tirotiro i ā rātou mahi, kāore hoki e āhei ki te uiui i ā rātou uara.

+

IV. He huarahi tuatahi ki te whakawhanake i te AI mā te ariā

+

Te ariā o te AI ā-whare

Hei whakautu ki ēnei wero, kei te whakawhanake mātou i tā mātou e kī nei ko "Home AI" — he tauira reo iti kua whakangungua ā-rohe (SLL) e whakahaerehia ana i raro i te mana whakahaere ā-hapori i runga i ngā taputapu e whakahaerehia ana e te kaiwhakamahi. Ko ngā āhuatanga motuhake:

Te Rangatiratanga: Ka whakahaerehia te tauira i runga i ngā taputapu rorohiko e puritia ana, e whakahaerehia ana rānei e te hapori. Ka noho ngā raraunga whakangungu ki te rohe. Kāore he pārongo e rere ki ngā pūnaha o waho mehemea kāore he whakaaetanga mārama i runga i ngā tikanga whakahaere kua whakatūria.

Te mārama: Ka taea e ngā hapori te tirotiro i ngā mōhiohio e mōhio ana te tauira mō rātou, me pēhea i whakangungua ai, me te take i whakaputa ai i ētahi hua motuhake. Ehara te mahara AI i te pouaka pango, engari he rēhita ka taea te arotake, ā, kei raro i te mana whakahaere a te hapori.

Tūāpapa Arorangi: Ka whakangungua te tauira me te aro mārama ki ngā tūāpapa arorangi. Kāore e whakapai noa ana mō te āheinga, ā, ka tāpiri i ngā tikanga haumaru i muri mai; engari ka whakauru mātou i ngā here arorangi mai i ngā wā tuatahi o te whakawhanaketanga.

Whakahaere Hapori: Ka whakarite ia hapori i te āhua o te whanonga o tana kaiāwhina AI kia hāngai ki āna ake mātāpono ture. He hapori e whakanuia ana te tika, ka whakarite kia tika; he hapori e whakanuia ana te māhaki, ka whakarite kia māhaki. Ka whakarato te tūāpapa i te hanganga; ko ngā hapori e whakarato ana i ngā uara.

+

Te Pukapuka Whakamārama o Stanford mō te Mātauranga Hinengaro hei Puna Whakawhirinaki

Mō ngā ariā ā-tātai, kua whakatūria e mātou te Pukapuka Whakamārama o Stanford mō te Tātaritanga (SEP) hei puna mōhiohio kotahi, whai mana. E whakaata ana tēnei whakataunga i te kounga o ngā rangahau a SEP me tōna ū ki te pakari hinengaro, e aukati ana i te hiahia ki te whakamahi i ngā tūnga ā-tātai matatini hei puna kōrero mō ngā rerenga kupu māmā.

Ka tutaki te tukanga whakangungu ki ngā kupu arorangi, ka whakawhiti-tuhituhi ki ngā tomokanga o te SEP. Ki te maha ngā whakamāramatanga, ko te tātaritanga a te SEP mō te wero e whai mana ana. Ka pātai ngā kaiwhakamahi i ngā pātai arorangi, ka ū ngā whakautu ki ngā whakamārama a te SEP, ehara i te mea i whakaputaina mā ngā tauira tatauranga o ngā raraunga whakangungu.

Ehara tēnei i te tikanga whakahaere kounga anake, engari he ū ki te ariā hōhonu: me whai ngā pūnaha AI e mahi ana ki ngā ariā ā-hinengaro i taua kaha tonu e tūmanakohia ana i ngā kairangahau tangata, e whakaae ana ki te matatini, kaua e whakaiti i tōna hōhonutanga, e whakaatu ana i ngā wero kōrero, kaua e whakatau wawe i a rātou.

+

Ngā Tikanga Mātauranga hei Whakarite ā-Wāhanga Tuatoru

I tua atu i ngā tūāpapa arorau hanganga (Wāhanga 1) me ngā mātāpono ture ā-hapori (Wāhanga 2), ka whakarato mātou i tētahi pūnaha o ngā tikanga mātauranga ka taea te whakamahi, e whai pānga ana ki te āhua me te tuku o te āwhina AI (Wāhanga 3). He mea nui kia mārama ki ngā mahi a tēnei wāhanga me ngā mea kāore e mahia e ia.

Ngā mea e pāngia ana e te Papanga Tuatoru: te āhua whakawhitiwhiti kōrero, te hanganga kōrero, ngā kōwhiringa reo, ngā tūtohutanga mō te tere kōrero. Ko ngā tikanga kua whakaaetia e hanga ana i te āhua o te whakawhitiwhiti kōrero a te AI o te kāinga ki a koe.

Ngā mea kāore e pāngia e Layer 3: ngā whakataunga ihirangi, te uru raraunga, te whakatinanatanga whakahaere. Ehara i te mea ka whakahaere ngā tikanga kua whakaaetia i ngā mahi e whakaaetia ana e te pūnaha. He āhua ēnei, ehara i ngā ture, ā, ka taea tonu te whakakore i ēnei i ia āhuatanga motuhake.

Kua tuhia ngā tikanga tekau mā toru me te whakau mātauranga e hāngai ana ki te Pukapuka Pūtaiao Hinengaro o Stanford, arā:

+ +

Ka taea e ngā hapori me ngā tāngata takitahi te whakaae ki ngā tikanga e hāngai ana ki ā rātou uara. Ka pā ēnei whakaaetanga ki te āhua e whakaahuatia ai te āwhina AI—he aha ngā whakaaro ka whakakitea, he aha te reo ka whakamahia, he aha ngā kōwhiringa ka tukuna—kāore e whakakore i ngā tiaki hanganga kua whakatūria i te Papanga 1, me ngā ture tūmatanui kua whakatūria i te Papanga 2.

Ka tūtohu ngā tikanga i ngā huarahi rerekē (pērā i ētahi wā—ka taupatupatu pea te māhaki o te Stoika me te aro nui a Weil ki ngā mamae), ka whakaatu te pūnaha i te taupatupatu, kaua e whakatau ā-algoritim, ā, ka tono i te tangata kia whakaaroaro ki ngā mea e hiahiatia ana e te āhuatanga. Koinei te maha-uara a Berlin i te mahi: e taupatupatu tūturu ana ngā uara whaimana, ā, kāore te pūnaha e whakapae ka taea e ia te whakatau i taua taupatupatu māu.

+

Te whakahaere kua whakaurua ki roto i te whakangungu

E whai ana i te mātāpono a Alexander o te kore wehewehe, ka whakauru mātou i te whakahaere ki roto tonu i te tukanga whakangungu, kaua e whakamahi hei tātari i muri mai. Ko ngā wāhanga o te porowhita whakangungu:

+ +

Ka whakaae tēnei huarahi ki tētahi utu whakahaere—tata ki te 5% i ā mātou whakamātautau—hei utu mō ngā whakamana tūturu. Ko te kōwhiringa kē—te whakangungu kore here, ā, te tātari i muri mai—ka whakaputa pūnaha e taea tonu te karo i ngā tikanga whakahaere, e pakipaki tonu ana ki te kaha, ā, e mōrearea tonu ana kia pakaru i raro i te pēhanga whakataetae.

+

V. Ki te Rangatiratanga Matihiko Maha

Ko te kaupapa o The Village e tohu ana i tētahi huarahi pea hei whakatutuki i ngā wero kāore e taea te whakatau mutunga kore. Kāore mātou e kī kua whakatau i ngā taumahatanga i waenga i te āheinga me te haumaru, i waenga i te rangatiratanga takitahi me te whakahaere ā-rōpū, i waenga i te whaihua hangarau me ngā uara ā-tangata. He tino pōraruraru ēnei taumahatanga, pēnei i mōhio a Berlin: hei whakatere i ēnei, me whai whakatau, me whai whakaaetanga, ā, me whakaae ka ngaro tonu tētahi mea whai uara.

Ko tā mātou e tuku nei he anga e aro nui ana ki ēnei taumahatanga—kāore e whakaponohia ka taea te whakapai kia ngaro, e whakauru ana i te whakaaro arorau ki roto i te hanganga hangarau, e tiaki ana i te mana tangata ki runga i ngā whakataunga kāore e tika kia aunoa.

Ehara te whakamātautau o tēnei huarahi i te mea mēnā ka eke ki tētahi taumata tino pai ā-ariā, engari ko te mea mēnā ka āhei ngā hapori kia puāwai i runga i ā rātou ake māramatanga o te puāwai—mēnā ka tiaki i te hunga ngoikore, ka tiakina te kanorau, ka pupuri i te mārama, ā, ka waihanga i ngā āhuatanga e taea tonu ai e te tangata te whiriwhiri tūturu.

I roto i tētahi ao e piki haere ana te āheinga o te AI, ā, e heke haere ana te aroturuki a te tangata, tērā pea koinei te mahi tino hira rawa atu.

+

Ngā tohutoro

+
+

Berlin, I. (1969). Four Essays on Liberty. Oxford University Press.

+

Alexander, C. (1977). A Pattern Language. Oxford University Press.

+

Alexander, C. (1979). The Timeless Way of Building. Oxford University Press.

+

Weil, S. (1951). Waiting for God. G.P. Putnam's Sons.

+

Wittgenstein, L. (1921). Tractatus Logico-Philosophicus.

+

Stanford Encyclopedia of Philosophy. "Value Pluralism." https://plato.stanford.edu/entries/value-pluralism/

+

Stanford Encyclopedia of Philosophy. "Simone Weil." https://plato.stanford.edu/entries/simone-weil/

+

Te Mana Raraunga. https://www.temanararaunga.maori.nz/

+

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care

+
+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html new file mode 100644 index 00000000..cbad2db1 --- /dev/null +++ b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html @@ -0,0 +1,219 @@ +Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle + +
Akademische Forschungsausgabe

Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle

Inferenzzeit-Debiasing für souveräne kleine Sprachmodelle

John Stroh & Claude (Anthropic)

STO-RES-0009 | Version: 1.1 | February 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenwerke eine Legitimität haben, die keiner von ihnen allein erreichen könnte.
+

Zusammenfassung

+

In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen mechanischer Verzerrung (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und Überlegungsverzerrung (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte architektonisch unmöglich ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.

+
+

1. Einführung: Das Blinker-Wischer-Problem

+

1.1 Eine Motor-Analogie

+

Ein Fahrer, der regelmäßig zwischen zwei Fahrzeugen wechselt - eines mit Blinkerhebeln rechts an der Lenksäule, das andere links -, erlebt eine charakteristische Störung: Nach längerem Gebrauch des einen Fahrzeugs führt der Wechsel zum anderen zu einer unwillkürlichen Betätigung des falschen Hebels. Der Fahrer gibt ein Abbiegesignal und betätigt stattdessen die Scheibenwischer oder umgekehrt. Dieses Versagen hat drei Eigenschaften, die es für die Analyse von KI-Verzerrungen aufschlussreich machen:

+
  1. Es ist präkognitiv. Der Fahrer denkt nicht darüber nach, welchen Stiel er benutzen soll. Das motorische Muster wird ausgelöst, bevor die bewusste Überlegung einsetzt. Die Korrektur erfordert das Aufheben einer trainierten Reaktion, nicht die Revision einer Schlussfolgerung.
+
  1. Es ist kontextabhängig. Das Versagen tritt insbesondere während der Übergangsphase zwischen den Fahrzeugen auf. Nachdem man sich ausreichend mit der neuen Konfiguration vertraut gemacht hat, kalibriert sich das motorische Muster neu. Die Verzerrung ist nicht dauerhaft, aber sie ist tief verankert und resistent gegen verbale Anweisungen ("denk daran, die Blinker sind links").
+
  1. Sie unterscheidet sich strukturell von Denkfehlern. Ein Autofahrer, der falsch abbiegt, weil er eine Karte falsch gelesen hat, hat einen Denkfehler gemacht. Ein Autofahrer, der den Scheibenwischer statt des Blinkers betätigt, hat keinen Denkfehler begangen - der Denkprozess wurde nie in Gang gesetzt. Der Fehler tritt auf einer Ebene unterhalb der Deliberation auf.
+

1.2 Das KI-Korollarium

+

Wir schlagen vor, dass eine analoge Unterscheidung in transformatorbasierten Sprachmodellen existiert. Einige Verzerrungen ergeben sich aus der statistischen Verteilung der Trainingsdaten und manifestieren sich auf der Repräsentationsebene - in Token-Einbettungen, Aufmerksamkeitsmustern und Aktivierungen auf den frühen Schichten - bevor die mehrstufigen Schlussfolgerungsfähigkeiten des Modells einsetzen. Andere entstehen durch Schlussfolgerungsketten, bei denen jeder einzelne Schritt unvoreingenommen sein kann, die Kette als Ganzes jedoch zu einer verzerrten Schlussfolgerung führt.

+

Diese Unterscheidung ist wichtig, weil sich die Interventionsstrategien grundlegend unterscheiden:

+ +

Die praktische Frage lautet: Gibt es derzeit Steuerungsvektortechniken, die mechanische Verzerrungen zuverlässig erkennen und korrigieren können, und können sie in souveränen kleinen Sprachmodellarchitekturen eingesetzt werden, in denen ein vollständiger Modellzugang verfügbar ist?

+
+

2. Mechanische vs. Reasoning Bias: Theoretische Grundlagen

+

2.1 Repräsentative Verzerrung in Transformatorarchitekturen

+

Transformer-Modelle verarbeiten Eingaben durch eine Abfolge von Schichten, die jeweils aufmerksamkeitsgewichtete Repräsentationen berechnen. Forschungen zur mechanistischen Interpretierbarkeit haben ergeben, dass verschiedene Schichten unterschiedliche Arten von Informationen kodieren (Elhage et al., 2022; Olsson et al., 2022):

+ +

Wenn die Trainingsdaten eines Modells zu 95 % westlich-kulturell geprägt sind, werden die Repräsentationen von Begriffen wie "Familie", "Erfolg", "Führung" oder "Gemeinschaft" in den frühen Schichten statistisch gesehen auf westliche Referenzen zurückgreifen. Diese Voreinstellung ist nicht kulturneutral: Sie ist eine statistische Kristallisation kolonialer Wissenshierarchien - welches Wissen wurde niedergeschrieben, welche Sprachen wurden digitalisiert, welche kulturellen Rahmenbedingungen waren in den Korpora, die von Web-Scraping-Trainings-Pipelines aufgenommen wurden, überrepräsentiert. Die daraus resultierenden Darstellungen kodieren keinen universellen "gesunden Menschenverstand", sondern die spezifische epistemische Autorität der Kulturen, die die Produktion digitaler Texte dominierten. Eine Eingabeaufforderung, die einen kulturellen Kontext der Maori angibt, führt zu einer Störung dieser Vorgabe, und die Stärke der Störung nimmt unter dem Druck des Kontexts (lange Gespräche, konkurrierende Anweisungen, hohe Tokenanzahl) ab.

+

Dies ist der Mechanismus, der im Fall des Datenbank-Ports dokumentiert ist (Stroh, 2025): Eine statistische Vorgabe (der Standard-MongoDB-Port, der in ~95 % der Trainingsdaten vorhanden ist) überlagerte eine explizite Anweisung, die einen Nicht-Standard-Port angab, bei 53,5 % Kontextdruck. Derselbe Mechanismus, der eher auf kulturellen und wertgeladenen Repräsentationen als auf Portnummern beruht, ist das, was wir als mechanische Verzerrung bezeichnen.

+

2.2 Reasoning Bias

+

Reasoning Bias hingegen entsteht durch die mehrstufige deliberative Verarbeitung des Modells. Beispiele hierfür sind:

+ +

Diese Verzerrungen wirken auf der Argumentationsebene und erfordern unterschiedliche Interventionsstrategien - typischerweise Prompt-Engineering, konstitutionelle KI-Einschränkungen oder architektonische Durchsetzung (wie sie Tractatus für die Steuerung der Entwicklungszeit bietet).

+

2.3 Warum die Unterscheidung wichtig ist

+

Die Blinker-Wischer-Analogie verdeutlicht eine kritische Asymmetrie: Man kann sich nicht aus einem motorischen Muster herausreden. Dem Fahrer zu sagen: "Denken Sie daran, die Blinker stehen links" ist nur begrenzt wirksam, weil der Fehler auftritt, bevor die Anweisung verarbeitet werden kann. In ähnlicher Weise können Anweisungen auf Souffleur-Ebene ("sei kulturell sensibel", "vermeide westliche Voreingenommenheit") eine begrenzte Wirksamkeit gegen repräsentative Voreingenommenheit haben, die auf der Einbettungsebene auftritt, bevor die Fähigkeiten des Modells zur Befolgung von Anweisungen greifen.

+

Wenn diese Analyse korrekt ist, erfordert eine Klasse von KI-Voreingenommenheiten ein Eingreifen auf der Aktivierungsebene - nicht auf der Ebene der Eingabeaufforderung. Dies ist genau das, was Lenkungsvektortechniken zu leisten versuchen.

+
+

3. Techniken der Vektorlenkung: Aktueller Stand der Technik

+

3.1 Kontrastive Aktivierungsaddition (CAA)

+

Quelle: Turner et al. (2023), Rimsky et al. (2023)

+

CAA extrahiert "Steuerungsvektoren", indem die Differenz der Modellaktivierungen zwischen kontrastiven Prompt-Paaren berechnet wird. Zum Beispiel:

+ +

Die mittlere Aktivierungsdifferenz eines Datensatzes solcher Paare, die in einer bestimmten Schicht extrahiert wird, ergibt einen Richtungsvektor im Aktivierungsraum. Dieser Vektor kann während der Inferenz zu den Aktivierungen addiert oder von ihnen subtrahiert werden, um das Verhalten des Modells entlang der erfassten Dimension zu verschieben.

+

Reifegrad: Demonstriert an Llama 2 (7B-70B) und anderen Modellen mit offener Gewichtung. Wirksam bei Stimmungen, Persönlichkeitsmerkmalen und einigen wertbeladenen Dimensionen. Die Auswahl der Schichten ist entscheidend (typischerweise Schichten 15-25 in 32-Schichten-Architekturen). Die Größenkalibrierung (wie viel des Vektors hinzugefügt werden soll) bleibt empirisch bestimmt.

+

Einschränkungen: Es wird davon ausgegangen, dass die Zielverzerrung linear im Aktivierungsraum dargestellt ist. Einige Verzerrungen können über mehrere Richtungen verteilt oder nicht-linear kodiert sein. Erfordert sorgfältiges Design von Kontrastpaaren - schlecht designte Paare erfassen die falsche Dimension.

+

3.2 Repräsentationstechnik (RepE)

+

Quelle: Zou et al. (2023), Zentrum für KI-Sicherheit

+

RepE verfolgt einen "Top-Down"-Ansatz für die KI-Transparenz, indem es mit Repräsentationen auf Populationsebene und nicht mit einzelnen Neuronen arbeitet. Es behandelt die internen Repräsentationen neuronaler Netze als erstklassiges Studienobjekt und extrahiert und manipuliert Richtungen im Repräsentationsraum, die Konzepten auf hoher Ebene entsprechen.

+

Schlüsselbeitrag: RepE bietet eine systematische Methodik zur Identifizierung von Repräsentationsrichtungen, die Konzepten wie "Ehrlichkeit", "Machtstreben", "Sicherheit" und (potenziell) kulturell bedingten Dimensionen entsprechen. Die Methode lässt sich über individuelle Prompt-Paare hinaus auf Muster auf Bevölkerungsebene verallgemeinern.

+

Reifegrad: Veröffentlicht mit reproduzierbaren Ergebnissen für mehrere Modellfamilien. Der konzeptionelle Rahmen ist solide, aber praktische Instrumente für kundenspezifische Verzerrungsdimensionen (z. B. kulturelles Framing, Annahmen zur Familienstruktur) müssen noch entwickelt werden.

+

3.3 FairSteer

+

Quelle: Jüngste Arbeiten (2024-2025) zum Inferenzzeit-Debiasing

+

FairSteer bietet einen dreistufigen Rahmen, der speziell für die Verringerung von Verzerrungen entwickelt wurde:

+
  1. Bias Probing: Systematische Identifizierung von Verzerrungsrichtungen im Aktivierungsraum unter Verwendung von demografischen oder kulturellen Attributdatensätzen.
  2. +
  3. Steering-Vektor-Extraktion: Berechnung von Richtungsvektoren, die den identifizierten Verzerrungsdimensionen entsprechen.
  4. +
  5. Dynamische Intensitätskalibrierung: Anpassung der Größe des Steuerungsvektors pro Input auf der Grundlage der erkannten Verzerrungsschwere, anstatt eine feste Korrektur global anzuwenden.
+

Schlüsselinnovation: Dynamische Lenkintensität. Anstatt eine feste Korrektur anzuwenden (bei der die Gefahr einer Über- oder Unterkorrektur je nach Input besteht), misst FairSteer den Grad der Verzerrung in den Aktivierungen der einzelnen Inputs und skaliert die Korrektur proportional.

+

Reifegrad: Früh, aber vielversprechend. Das Prinzip der dynamischen Kalibrierung behebt eine grundlegende Einschränkung der Lenkung mit fester Größe. Die Implementierung erfordert eine Aktivierungsanalyse pro Interferenz, was einen zusätzlichen Rechenaufwand bedeutet.

+

3.4 Direkte Lenkungsoptimierung (DSO)

+

Quelle: Aktuelle Forschung (2024-2025) zur RL-basierten Steuerung

+

Bei der DSO wird das Steuerungsproblem als Optimierungsaufgabe formuliert: Es soll die lineare Transformation von Aktivierungen gefunden werden, die das Verhalten des Modells maximal in Richtung eines Ziels verschiebt, während die allgemeinen Fähigkeiten minimal beeinträchtigt werden.

+

Schlüsselbeitrag: Verwendet Verstärkungslernen, um optimale Steering-Transformationen zu entdecken, anstatt sich auf manuell entworfene kontrastive Paare zu verlassen. Dies kann nicht offensichtliche Verzerrungsrichtungen erfassen, die menschliche Designer möglicherweise übersehen.

+

Ausgereift: Das Training der Optimierung ist rechenintensiv, aber die resultierenden Transformationen sind zur Inferenzzeit effizient anzuwenden. Erfordert ein gut definiertes Belohnungssignal für das Zielverhalten.

+

3.5 Anthropic's Sparse Autoencoder Feature Steering

+

Quelle: Templeton et al. (2024), Anthropic

+

Der Ansatz von Anthropic zerlegt die internen Repräsentationen des Modells mithilfe von Sparse Autoencodern (SAEs), um monosemantische Merkmale zu identifizieren - einzelne, interpretierbare Richtungen im Aktivierungsraum, die bestimmten Konzepten entsprechen.

+

Schlüsselergebnisse: Identifizierung von Millionen von interpretierbaren Merkmalen in Claude 3 Sonnet, einschließlich Merkmalen für bestimmte Konzepte (Golden Gate Bridge, Codesicherheit, Täuschung). Es wurde gezeigt, dass diese Merkmale "geklammert" werden können, d.h. künstlich verstärkt oder unterdrückt werden können, um das Verhalten des Modells während der Inferenzzeit zu steuern.

+

Relevanz für Voreingenommenheit: Wenn kulturelle Voreingenommenheit, Annahmen über die Familienstruktur oder Vorgaben für den Governance-Stil als identifizierbare Merkmale dargestellt werden, können sie im Prinzip direkt moduliert werden. Dies ist die granularste Ebene der möglichen Intervention.

+

Kritische Einschränkung für den souveränen Einsatz: Die SAE-Forschung von Anthropic wurde an ihren eigenen Modellen mit vollem internem Zugang durchgeführt. Die Methodik ist veröffentlicht, aber das Training von SAEs für ein anderes Modell (z. B. Llama 3.1) erfordert einen erheblichen Rechenaufwand. Für die Llama-Modellfamilie gibt es zum jetzigen Zeitpunkt noch keine trainierten SAEs.

+
+

4. Der strukturelle Vorteil des souveränen Einsatzes

+

4.1 API vs. lokaler Modellzugang

+

Ein grundlegender architektonischer Unterschied bestimmt, welche Steuerungstechniken zur Verfügung stehen:

+ + + + + + + + + +
BefähigungAPI-vermittelt (GPT, Claude API)Souverän lokal (Llama, Mistral)
Zugriff auf ModellgewichteNeinJa
Zugriff auf ZwischenaktivierungenNeinJa
Extrahieren von SteuerungsvektorenNeinJa
Injizieren von Steuerungsvektoren bei der InferenzNeinJa
Sparse Autoencoders auf Aktivierungen trainierenNeinJa
Feinabstimmung mit EntschärfungszielenNein (RLHF nur über Anbieter)Ja (QLoRA, LoRA, vollständige Feinabstimmung)
Ändern von AufmerksamkeitsmusternNeinJa
Per-Schicht-AktivierungsanalyseNeinJa
+Aus dieser Tabelle geht hervor, dass keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht. Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können. +

4.2 Die KI-Plattform für das Dorfhaus

+

Das Home-KI-System der Village-Plattform (Stroh, 2025-2026) ist als souveränes Small Language Model (SLM) mit der folgenden Architektur konzipiert:

+ +

Diese Architektur bietet vollen Zugang zu den Modellgewichten und Aktivierungen. Jede in Abschnitt 3 beschriebene Technik ist architektonisch verfügbar. Dies ist keine theoretische Beobachtung, sondern ein konkreter struktureller Vorteil, den API-abhängige Implementierungen nicht wiedergeben können.

+

4.3 Das zweistufige Trainingsmodell

+

Die bestehende zweistufige Architektur lässt sich natürlich auf eine zweistufige Steuerungsstrategie übertragen:

+

Ebene 1 (Plattform-Basismodell):

+ +

Ebene 2 (Adapter für einzelne Mieter):

+ +

Architektonische Anmerkung zur Souveränität: Das beschriebene zweistufige Modell sieht die Korrekturen des Plattformbetreibers als Basisschicht vor, die von den Mietern geändert wird. Dies ist pragmatisch korrekt für die derzeitige Implementierung (Hardware für Verbraucher, Verwaltung durch einen einzigen Betreiber), aber es schafft eine implizite Hierarchie: Plattformwerte als Standard, Mieterwerte als Adapter. Für Mieter mit verfassungsmäßigem Status - iwi, hapu oder andere Körperschaften, die eher eine parallele Souveränität als eine Wahlmöglichkeit für den Verbraucher ausüben - sollte das langfristige architektonische Ziel eine gleichberechtigte Lenkungsinstanz sein, bei der plattformweite Korrekturen auf der Grundlage von durch die Gemeinschaft beigetragenen Primitiven ausgehandelt und nicht von oben auferlegt werden. Das derzeitige zweistufige Modell ist ein Sprungbrett, nicht das Ziel.

+
+

5. Vorgeschlagener Weg zur Umsetzung

+

5.1 Phase 1: Messung der Ausgangssituation (Wochen 1-4)

+

Ziel: Festlegung empirischer Basiswerte für die Verzerrungen im aktuellen Llama 3.1 8B Basismodell.

+

Methode:

+
  1. Durchführung der bestehenden 20-Prompt-Bias-Evaluierungssuite (7 Kategorien: Familienstruktur, Vertretung älterer Menschen, kulturell/religiös, geografisch, Trauer/Trauma, Namensgebung, Vertrauenskorrektheit).
  2. +
  3. Aufzeichnung der Modellaktivierungen auf den Ebenen 8, 16, 24 und 32 für jede Bewertungsaufforderung.
  4. +
  5. Bewerten Sie die Antworten auf der vorhandenen 5-Punkte-Skala.
  6. +
  7. Identifizieren Sie, welche Verzerrungskategorien die stärksten Muster auf Aktivierungsebene aufweisen (Kandidaten für mechanische Verzerrung).
+

Output: Aktivierungsdatensatz gepaart mit Bias-Scores, die erkennen lassen, welche Biases repräsentativ (konsistente Muster in den frühen Schichten) bzw. begründungsabhängig (schichtübergreifend variabel, kontextabhängig) sind.

+

5.2 Phase 2: Extraktion des Steuerungsvektors (Wochen 5-8)

+

Ziel: Extraktion von Steuerungsvektoren für die 3 wichtigsten identifizierten mechanischen Verzerrungskategorien.

+

Methode:

+
  1. Entwerfen Sie kontrastive Prompt-Paare für jede Zielkategorie (mindestens 50 Paare pro Kategorie).
  2. +
  3. Extrahieren der mittleren Aktivierungsunterschiede auf den optimalen Schichten (ermittelt in Phase 1).
  4. +
  5. Validierung der Vektoren mit Hilfe von Test-Prompts, die zurückgehalten werden.
  6. +
  7. Kalibrierung der Vektorgrößen unter Verwendung des dynamischen Intensitätsansatzes von FairSteer.
+

Tools: TransformerLens oder baukit für die Aktivierungsextraktion; benutzerdefinierte Skripte für die Vektorberechnung und -validierung.

+

Ausgabe: Validierte Lenkungsvektoren für vorrangige Verzerrungskategorien, mit Kalibrierungsparametern.

+

5.3 Phase 3: Integration in die Trainingspipeline (Wochen 9-12)

+

Ziel: Einbettung der Anwendung von Lenkungsvektoren in den wöchentlichen QLoRA-Trainingszyklus.

+

Methode:

+
  1. Hinzufügen der Lenkvektorinjektion in die Inferenzpipeline (Modifikation der Aktivierung nach dem Vorwärtsdurchlauf).
  2. +
  3. Auswertung der gesteuerten Ausgaben anhand der Bias-Evaluierungssuite.
  4. +
  5. Vergleich der gesteuerten mit der ungesteuerten Leistung bei allgemeinen Fähigkeitsbenchmarks (zur Messung der Fähigkeitsverschlechterung).
  6. +
  7. Integration mit Tractatus BoundaryEnforcer zur Überwachung der Lenkungsparameter.
+

Integration der Steuerung: Alexanders Prinzip der Nicht-Trennbarkeit - die Steuerung ist in die Trainings- und Inferenzschleife eingebettet und wird nicht als Post-Processing angewendet. Der Tractatus MetacognitiveVerifier prüft die Herkunft des Steuerungsvektors und die Kalibrierungsentscheidungen.

+

5.4 Phase 4: Lenkung pro Mieter (Wochen 13-16)

+

Ziel: Ermöglichung der mieterspezifischen Anpassung des Steuerungsvektors.

+

Methode:

+
  1. Erweiterung des Tier 2 LoRA-Adaptertrainings um mieterspezifische Kontrastpaare.
  2. +
  3. Ermöglichung der Kennzeichnung von Verzerrungen in den Modellergebnissen durch die Mieter-Moderatoren (Einspeisung des Datensatzes der kontrastiven Paare).
  4. +
  5. Extraktion von mieterspezifischen Steuerungsvektoren, die die plattformweiten Korrekturen ergänzen.
  6. +
  7. Validierung, dass die mandantenbezogene Steuerung die plattformweite Entschärfung nicht beeinträchtigt.
+

Ausgabe: Vollständiges zweistufiges Lenksystem: plattformweite Basiskorrekturen + kulturelle Kalibrierung pro Mandant.

+
+

6. Offene Fragen und Beschränkungen

+

6.1 Linearitätsannahme

+

Alle derzeitigen Steuerungsvektorverfahren gehen davon aus, dass Vorurteile im Aktivierungsraum linear dargestellt werden - dass ein einziger Richtungsvektor eine Vorurteilsdimension erfassen kann. Dies gilt nachweislich für einige Konzepte (Stimmung, Toxizität), ist jedoch für komplexe kulturelle Vorurteile, die sich über mehrere interagierende Dimensionen verteilen können, nicht validiert.

+

6.2 Abwägung zwischen Fähigkeit und Vorurteil

+

Lenkungsvektoren verändern die Aktivierungen, was die allgemeine Modellfähigkeit beeinträchtigen kann. Das Ausmaß dieses Zielkonflikts für kleine Sprachmodelle (3B-8B Parameter) ist unbekannt. Größere Modelle haben mehr Repräsentationskapazität, um Lenkungskorrekturen ohne Fähigkeitsverlust zu absorbieren; kleinere Modelle sind möglicherweise empfindlicher.

+

6.3 Das Problem des geteilten toten Winkels

+

Wenn dasselbe Modell, das verzerrte Ergebnisse liefert, zur Erzeugung der Kontrastpaare für die Lenkvektorextraktion verwendet wird, kann der Extraktionsprozess die blinden Flecken des Modells übernehmen. Dies ist das "Shared Blind Spot"-Problem, das im Tractatus-Vorfallbericht vom Februar 2026 dokumentiert ist. Die Abhilfe erfordert eine externe (menschliche oder modellübergreifende) Validierung der Qualität der Kontrastpaare.

+

6.4 Dynamischer kultureller Kontext und Off-Limits-Bereiche

+

Kulturelle Vorurteile sind nicht statisch. Ein Modell für eine Maori-Gemeinschaft in Aotearoa benötigt eine andere kulturelle Kalibrierung als ein Modell für eine deutsche Gemeinschaft in Bayern. Steuerungsvektoren, die aus einem kulturellen Kontext extrahiert wurden, sind möglicherweise nicht übertragbar. Der Ansatz für die Steuerung nach Mietern (Phase 4) trägt diesem Problem teilweise Rechnung, aber die Entwicklung von mieterspezifischen Kontrastpaaren erfordert kulturelles Fachwissen, das nicht automatisiert werden kann.

+

Noch grundsätzlicher ist, dass einige kulturelle Bereiche strukturell für eine Steuerung auf Plattformebene überhaupt nicht in Frage kommen. Im Aotearoa-Kontext haben whakapapa (genealogisches Wissen), tikanga (Gewohnheitspraxis) und kawa (Protokoll) eine Autorität, die sich aus der iwi und hapu Governance ableitet, nicht aus der Plattformarchitektur. Die Anwendung plattformweiter Steuerungsvektoren auf Darstellungen dieser Konzepte - selbst gut gemeinte Korrekturen - birgt die Gefahr, dass die indigene epistemische Autorität der Weltanschauung des Plattformbetreibers untergeordnet wird. Für diese Bereiche könnte die richtige architektonische Antwort in der Delegation bestehen: Die Plattform stellt den Steuerungsmechanismus zur Verfügung, aber die Definition, Kalibrierung und Steuerung von Vektoren, die kulturell souveränes Wissen berühren, muss von der entsprechenden kulturellen Autorität ausgeübt werden, nicht vom technischen Team der Plattform.

+

6.5 Wer steuert? Steuerung von Steuerungsvektoren

+

Steuerungsvektoren sind Instrumente zur Durchsetzung von Normen. Die technische Fähigkeit, das Verhalten eines Modells entlang einer Bias-Dimension zu verändern, wirft unmittelbar die Frage nach der institutionellen Steuerung auf: wessen Normen, durch welchen anfechtbaren Prozess, mit welchen Regressmöglichkeiten für die von ihnen Betroffenen.

+

Der gegenwärtige Vorschlag bettet die Lenkungssteuerung in den Tractatus-Rahmen ein, spezifiziert aber nicht die Entscheidungsrechte für Lenkungsoperationen. Ein vollständiges Governance-Modell sollte Steuerungsvektoren auf konkrete institutionelle Rollen abbilden:

+ + + + + + +
EntscheidungWer entscheidetAnfechtungsweg
Definition einer Voreingenommenheitsachse (was zählt als Voreingenommenheit)Plattformbetreiber + Beratungsgremium der GemeinschaftBeratung der Gemeinschaft, jährliche Überprüfung
Freigabe eines Steuerungsvektors für den EinsatzTractatus BoundaryEnforcer (technisch) + Mieter-Moderatoren (Werturteil)Audit Trail der Vektorherkunft, -größe und -wirkung
FairSteer dynamische Kalibrierung (technisch) + menschliche Überprüfung für sensible BereicheProtokollierung der einzelnen Eingriffe, Schwellenwertwarnungen
Überschreiben oder Deaktivieren eines VektorsMietergremium (für Mietervektoren) / Plattformbetreiber (für Plattformvektoren)Streitschlichtungsprozess mit dokumentierter Begründung
Verwaltung kulturell souveräner Bereiche (whakapapa, tikanga, kawa)Zuständige kulturelle Autorität (iwi, hapu) -- nicht PlattformbetreiberUnabhängig von der Plattformverwaltung; Plattform bietet Mechanismus, nicht Autorität
+Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (Steuerung durch den einzelnen Mieter) bietet die architektonischen Anknüpfungspunkte, aber die institutionelle Ebene - wer sitzt in den Beratungsgremien, wie werden Streitigkeiten eskaliert, was ist eine ausreichende kulturelle Autorität für einen bestimmten Bereich - erfordert eine gemeinschaftliche Gestaltungsarbeit, die nicht automatisiert oder vom Plattformbetreiber aufgezwungen werden kann. +

Das Risiko, ohne diese Governance-Ebene vorzugehen, besteht darin, dass Lenkungsvektoren zu einem neuen Ort der zentralisierten Wertautorität werden: Der Plattformbetreiber entscheidet, was Verzerrungen sind und wie sie zu korrigieren sind, und die Mieter erhalten Korrekturen, anstatt an ihrer Gestaltung mitzuwirken. Dies würde genau die Machtasymmetrie reproduzieren, die durch den souveränen Einsatz beseitigt werden soll.

+

6.6 Schwierige Messung

+

Im Gegensatz zum 27027-Port-Vorfall (binär richtig/falsch) ist die kulturelle Verzerrung nicht binär. Die Bewertung, ob ein gesteuertes Modell "weniger verzerrte" Ergebnisse liefert, erfordert menschliches Urteilsvermögen, kulturelles Fachwissen und eine Langzeitbewertung. Die 5-Punkte-Skala in der bestehenden Evaluierungssuite bietet einen ersten Rahmen, aber ihre Zuverlässigkeit und Gültigkeit für die Messung der Effektivität des Steuerungsvektors ist noch nicht getestet worden.

+
+

7. Schlussfolgerung

+

Die Analogie zwischen Blinker und Scheibenwischer legt eine nützliche Unterscheidung zwischen Verzerrungen auf der Darstellungsebene (mechanisch, präkognitiv, analog zu motorischen Mustern) und Verzerrungen, die durch Schlussfolgerungsketten entstehen, nahe. Wenn diese Unterscheidung in Transformator-Architekturen zutrifft - und die mechanistische Interpretierbarkeit unterstützt dies - dann erfordert eine Klasse von KI-Fehlern ein Eingreifen auf der Aktivierungsebene und nicht auf der Aufforderungsebene.

+

Steuerungsvektortechniken (CAA, RepE, FairSteer, DSO, Sparse Autoencoder Feature Steering) bieten das theoretische und praktische Instrumentarium für einen solchen Eingriff. Entscheidend ist, dass diese Techniken vollen Zugriff auf die Modellgewichte und -aktivierungen erfordern - ein Zugriff, der ausschließlich in souveränen lokalen Implementierungen zur Verfügung steht und über kommerzielle API-Endpunkte architektonisch nicht möglich ist.

+

Die Village Home KI-Plattform mit ihren QLoRA-abgestimmten Llama-Modellen, der zweistufigen Trainingsarchitektur und der Tractatus-Governance-Integration ist strukturell in der Lage, Pionierarbeit bei der Anwendung von Steuerungsvektoren zur Abschwächung kultureller Verzerrungen in der KI für die Gemeinschaft zu leisten. Der vorgeschlagene vierphasige Implementierungspfad ist konservativ, empirisch fundiert und darauf ausgelegt, innerhalb von 16 Wochen messbare Ergebnisse zu erzielen.

+

Das Blinkerwischerproblem ist lösbar. Der Fahrer kalibriert sich schließlich neu. Die Frage für souveräne KI ist, ob wir diese Rekalibrierung beschleunigen können - nicht, indem wir dem Modell sagen, es solle "weniger voreingenommen" sein (was einer verbalen Anweisung entspricht), sondern indem wir die Darstellungen, die die Voreingenommenheit kodieren, direkt anpassen (was einer physischen Verlagerung des Blinkerhebels entspricht).

+
+

Referenzen

+ +
+

Lizenz

+

Urheberrecht 2026 John Stroh

+

Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:

+

http://www.apache.org/licenses/LICENSE-2.0

+

Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.

+

Zusammenfassung:

+ +
+

Dokument-Metadaten

+

+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-fr.html b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-fr.html new file mode 100644 index 00000000..7b9d71d9 --- /dev/null +++ b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-fr.html @@ -0,0 +1,210 @@ +Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines + +
Édition de recherche académique

Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines

Débiaisage en temps d'inférence pour les petits modèles linguistiques souverains

John Stroh & Claude (Anthropic)

STO-RES-0009 | Version: 1.1 | February 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
Ce document a été développé en collaboration entre un humain et une IA. Les auteurs estiment que ce processus collaboratif est lui-même pertinent pour l'argument : si les humains et les systèmes d'IA peuvent travailler ensemble pour réfléchir à la gouvernance de l'IA, les cadres qu'ils créent peuvent avoir une légitimité qu'aucun d'eux ne pourrait atteindre seul.
+

Résumé

+

Cet article cherche à savoir si une classe de biais dans les grands modèles de langage opère à un niveau de sous-raisonnement et de représentation analogue à l'automaticité motrice dans la cognition humaine, et si les techniques de vecteur de direction peuvent intervenir à ce niveau pendant l'inférence. Nous distinguons les biais mécaniques (modèles statistiques qui se déclenchent au niveau de l'intégration et de la représentation des premières couches avant le début du traitement délibératif) et les biais de raisonnement (distorsions qui apparaissent au cours d'un raisonnement en chaîne à plusieurs étapes). En s'appuyant sur des travaux empiriques sur l'ajout d'activation contrastive (CAA), l'ingénierie de la représentation (RepE), FairSteer, l'optimisation directe de la direction (DSO) et la direction des caractéristiques de l'autoencodeur clairsemé d'Anthropic, nous évaluons la maturité de chaque technique et son applicabilité aux petits modèles de langage souverains (SLM) formés et servis localement. Nous constatons que les déploiements de SLM souverains, en particulier la plateforme d'IA Village Home utilisant des modèles Llama 3.1/3.2 affinés par QLoRA, possèdent un avantage structurel sur les déploiements médiés par API : l'accès complet aux poids et aux activations des modèles permet l'extraction, l'injection et l'évaluation de vecteurs d'orientation, ce qui est architecturalement impossible par le biais des points d'extrémité des API commerciales. Nous proposons une mise en œuvre en quatre phases intégrant les vecteurs de pilotage dans l'architecture de formation à deux niveaux existante et dans le cadre de gouvernance de Tractatus.

+
+

1. Introduction : Le problème de l'essuie-glace

+

1.1 Une analogie avec les moteurs

+

Un conducteur qui alterne régulièrement entre deux véhicules - l'un avec des commandes de clignotants à droite de la colonne de direction, l'autre à gauche - connaît une défaillance caractéristique : après une utilisation prolongée d'un véhicule, le passage à l'autre véhicule entraîne l'activation involontaire de la mauvaise commande. Le conducteur signale un virage et active les essuie-glaces à la place, ou vice versa. Cette défaillance présente trois caractéristiques qui la rendent instructive pour l'analyse des biais de l'IA :

+
  1. Il est pré-cognitif. Le conducteur ne réfléchit pas au choix de la commande à utiliser. Le schéma moteur se déclenche avant que la délibération consciente ne s'engage. La correction nécessite de passer outre une réponse entraînée, et non de revoir une conclusion.
+
  1. **La défaillance se produit spécifiquement pendant la période de transition entre les véhicules. Après une exposition suffisante à la nouvelle configuration, le schéma moteur se recalibre. Le biais n'est pas permanent, mais il est profondément ancré et résiste aux instructions verbales ("souvenez-vous, les clignotants sont à gauche").
+
  1. **Un conducteur qui prend un mauvais virage parce qu'il a mal lu une carte a commis une erreur de raisonnement. Un conducteur qui active les essuie-glaces au lieu des clignotants n'a pas commis d'erreur de raisonnement : le processus de raisonnement n'a jamais été invoqué. L'erreur se produit à un niveau inférieur à la délibération.
+

1.2 Le corollaire de l'IA

+

Nous proposons qu'une distinction analogue existe dans les modèles de langage basés sur des transformateurs. Certains biais émergent de la distribution statistique des données d'apprentissage et se manifestent au niveau de la représentation - dans les enchâssements de jetons, les modèles d'attention et les activations des premières couches - avant que les capacités de raisonnement en plusieurs étapes du modèle ne s'enclenchent. D'autres émergent à travers des chaînes de raisonnement, où chaque étape peut être individuellement impartiale, mais où la chaîne dans son ensemble produit une conclusion biaisée.

+

Cette distinction est importante car les stratégies d'intervention diffèrent fondamentalement :

+ +

La question pratique est la suivante : existe-t-il actuellement des techniques de vecteurs de direction capables d'identifier et de corriger de manière fiable les biais mécaniques, et peuvent-elles être déployées dans des architectures souveraines de petits modèles de langage où l'accès complet au modèle est disponible ?

+
+

2. Biais mécanique et biais de raisonnement : fondements théoriques

+

2.1 Biais de représentation dans les architectures de transformateurs

+

Les modèles de transformateurs traitent les données d'entrée par le biais d'une séquence de couches, chacune calculant des représentations pondérées en fonction de l'attention. La recherche sur l'interprétabilité mécaniste a établi que les différentes couches encodent différents types d'informations (Elhage et al., 2022 ; Olsson et al., 2022) :

+ +

Si les données d'apprentissage d'un modèle contiennent 95 % de cadres culturels occidentaux, les représentations des premières couches de concepts tels que la "famille", la "réussite", la "gouvernance" ou la "communauté" seront statistiquement orientées par défaut vers des référents occidentaux. Ce défaut n'est pas culturellement neutre : il s'agit d'une cristallisation statistique des hiérarchies de connaissances coloniales - quelles connaissances ont été écrites, quelles langues ont été numérisées, quels cadres culturels ont été surreprésentés dans les corpus ingérés par les pipelines de formation basés sur le web. Les représentations qui en résultent n'encodent pas un "sens commun" universel, mais l'autorité épistémique spécifique des cultures qui ont dominé la production de textes numériques. Une invite spécifiant un contexte culturel maori crée une perturbation de cette valeur par défaut, et la force de la perturbation se dégrade sous la pression du contexte (longues conversations, instructions concurrentes, nombre élevé de jetons).

+

C'est le mécanisme documenté dans l'incident du port de la base de données (Stroh, 2025) : un défaut statistique (le port MongoDB standard, présent dans ~95% des données d'apprentissage) a pris le pas sur une instruction explicite spécifiant un port non standard à une pression contextuelle de 53,5%. Le même mécanisme, opérant sur des représentations culturelles et chargées de valeurs plutôt que sur des numéros de port, est ce que nous appelons biais mécanique.

+

2.2 Biais de raisonnement

+

Le biais de raisonnement, en revanche, émerge à travers le traitement délibératif en plusieurs étapes du modèle. En voici quelques exemples :

+ +

Ces biais opèrent au niveau de la couche de raisonnement et nécessitent différentes stratégies d'intervention - typiquement l'ingénierie d'incitation, les contraintes constitutionnelles de l'IA, ou l'application architecturale (comme Tractatus le prévoit pour la gouvernance du temps de développement).

+

2.3 L'importance de la distinction

+

L'analogie de l'essuie-glace met en lumière une asymétrie critique : vous ne pouvez pas raisonner pour sortir d'un schéma moteur. Dire au conducteur "souviens-toi, les clignotants sont à gauche" n'a qu'une efficacité limitée car la défaillance se produit avant que l'instruction ne puisse être traitée. De même, les instructions au niveau de l'invite ("être sensible à la culture", "éviter les préjugés occidentaux") peuvent avoir une efficacité limitée contre les préjugés représentationnels qui se déclenchent au niveau de l'intégration avant que les capacités de suivi des instructions du modèle ne s'enclenchent.

+

Si cette analyse est correcte, une catégorie de biais d'IA nécessite une intervention au niveau de l'activation, et non au niveau de l'invite. C'est précisément ce que les techniques de vecteur de direction proposent de faire.

+
+

3. Techniques de vecteur de direction : État actuel de la technique

+

3.1 Addition d'activation contrastive (CAA)

+

Source: Turner et al. (2023), Rimsky et al. (2023)

+

Le CAA extrait des "vecteurs de direction" en calculant la différence dans les activations du modèle entre les paires d'invites contrastives. Par exemple :

+ +

La différence d'activation moyenne dans un ensemble de données de ces paires, extraites à une couche spécifique, donne un vecteur de direction dans l'espace d'activation. Ce vecteur peut être ajouté ou soustrait des activations pendant l'inférence pour modifier le comportement du modèle le long de la dimension capturée.

+

Maturité: Démonstration sur Llama 2 (7B-70B) et d'autres modèles à poids ouvert. Efficace pour les sentiments, les traits de personnalité et certaines dimensions chargées de valeurs. La sélection des couches est essentielle (généralement les couches 15 à 25 dans les architectures à 32 couches). L'étalonnage de la magnitude (la quantité de vecteur à ajouter) reste déterminé de manière empirique.

+

Limites: Suppose que le biais cible est représenté linéairement dans l'espace d'activation. Certains biais peuvent être distribués dans plusieurs directions ou codés de manière non linéaire. Nécessite une conception minutieuse des paires contrastives - des paires mal conçues capturent la mauvaise dimension.

+

3.2 Ingénierie de la représentation (RepE)

+

Source: Zou et al. (2023), Centre pour la sécurité de l'IA

+

La RepE adopte une approche "descendante" de la transparence de l'IA, en opérant sur les représentations au niveau de la population plutôt que sur les neurones individuels. Elle traite les représentations internes des réseaux neuronaux comme un objet d'étude de premier ordre, en extrayant et en manipulant des directions dans l'espace de représentation qui correspondent à des concepts de haut niveau.

+

Contribution clé: RepE fournit une méthodologie systématique pour identifier les directions de représentation correspondant à des concepts tels que l'"honnêteté", la "recherche de pouvoir", la "sécurité" et (potentiellement) les dimensions des préjugés culturels. Elle se généralise au-delà des paires d'invites individuelles pour s'appliquer à des modèles au niveau de la population.

+

Maturité: Publié avec des résultats reproductibles sur plusieurs familles de modèles. Le cadre conceptuel est solide, mais les outils pratiques pour les dimensions de biais personnalisés (par exemple, le cadre culturel, les hypothèses sur la structure familiale) nécessitent un développement supplémentaire.

+

3.3 FairSteer

+

Source: Travaux récents (2024-2025) sur le débiaisage du temps d'inférence

+

FairSteer fournit un cadre en trois étapes spécialement conçu pour l'atténuation des biais :

+
  1. **Identifier systématiquement les directions de biais dans l'espace d'activation à l'aide d'ensembles de données démographiques ou d'attributs culturels.
  2. +
  3. Extraction des vecteurs de direction: Calculer les vecteurs de direction qui correspondent aux dimensions de biais identifiées.
  4. +
  5. Calibrage dynamique de l'intensité: Ajuster la magnitude du vecteur de direction par entrée en fonction de la gravité du biais détecté, plutôt que d'appliquer une correction fixe de manière globale.
+

Innovation clé:Intensité de pilotage dynamique. Plutôt que d'appliquer une correction fixe (qui risque d'entraîner une surcorrection ou une sous-correction en fonction de l'entrée), FairSteer mesure le degré de biais dans les activations de chaque entrée et ajuste la correction proportionnellement.

+

Maturité: Précoce mais prometteur. Le principe de calibrage dynamique répond à une limitation fondamentale de la direction à magnitude fixe. La mise en œuvre nécessite une analyse de l'activation par inférence, ce qui ajoute une surcharge de calcul.

+

3.4 Optimisation directe de la direction (DSO)

+

Source: Recherches récentes (2024-2025) sur la direction basée sur la logique logique (RL)

+

La DSO présente le problème de pilotage comme une tâche d'optimisation : trouver la transformation linéaire des activations qui oriente au maximum le comportement du modèle vers un objectif cible tout en dégradant le moins possible la capacité générale.

+

Contribution clé: Utilise l'apprentissage par renforcement pour découvrir les transformations de pilotage optimales, plutôt que de s'appuyer sur des paires contrastives conçues manuellement. Cela permet de capturer des directions de biais non évidentes que les concepteurs humains pourraient manquer.

+

Maturité: L'entraînement de l'optimisation est coûteux en termes de calcul, mais les transformations qui en résultent sont efficaces à appliquer au moment de l'inférence. Nécessite un signal de récompense bien défini pour le comportement cible.

+

3.5 Pilotage de l'autoencodeur clairsemé d'Anthropic

+

Source: Templeton et al. (2024), Anthropic

+

L'approche d'Anthropic décompose les représentations internes du modèle à l'aide d'autoencodeurs épars (SAE) afin d'identifier les caractéristiques monosémantiques - des directions individuelles interprétables dans l'espace d'activation qui correspondent à des concepts spécifiques.

+

Principaux résultats: Identification de millions de caractéristiques interprétables dans le sonnet de Claude 3, y compris des caractéristiques correspondant à des concepts spécifiques (Golden Gate Bridge, sécurité du code, tromperie). Démonstration que ces caractéristiques peuvent être "bridées" - amplifiées ou supprimées artificiellement - pour orienter le comportement du modèle au moment de l'inférence.

+

**Pertinence pour les biais : si les biais culturels, les hypothèses de structure familiale ou les défauts de style de gouvernance sont représentés comme des caractéristiques identifiables, ils peuvent en principe être directement modulés. Il s'agit du niveau d'intervention le plus granulaire possible.

+

Limitation critique pour un déploiement souverain: La recherche SAE d'Anthropic a été menée sur leurs propres modèles avec un accès interne complet. La méthodologie est publiée, mais l'entraînement des SAE pour un modèle différent (par exemple, Llama 3.1) nécessite un investissement informatique important. À ce jour, il n'existe pas de SAE pré-entraînés pour la famille de modèles Llama.

+
+

4. L'avantage structurel du déploiement souverain

+

4.1 Accès à l'API ou au modèle local

+

Une distinction architecturale fondamentale régit les techniques de pilotage disponibles :

+

Les techniques de pilotage disponibles sont les suivantes : | Capacité | Médiation API (GPT, Claude API) | Local souverain (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Accès aux poids du modèle - Non - Oui | Accès aux activations intermédiaires - Non - Oui | Extraire les vecteurs de direction | Non | Oui | | Injecter des vecteurs de pilotage lors de l'inférence | Non | Oui | Entraîner des autoencodeurs épars sur les activations | Non | Oui | | Non (RLHF uniquement via le fournisseur) | Oui (QLoRA, LoRA, réglage fin complet) | Non (RLHF uniquement via le fournisseur) | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation de la couche par couche

+

Ce tableau révèle qu'aucune des techniques de vecteurs de pilotage décrites dans la section 3 n'est disponible pour les déploiements par API.** Une organisation utilisant GPT-4 ou Claude par le biais de leurs API respectives ne peut pas extraire, injecter ou calibrer les vecteurs de pilotage. Ils sont limités à des interventions au niveau de l'invite (invites du système, quelques exemples, contraintes constitutionnelles de l'IA) - qui, selon notre analyse dans la section 2, peuvent être inefficaces contre les biais mécaniques qui opèrent en dessous de la couche de raisonnement.

+

4.2 La plateforme d'IA du Village Home

+

Le système d'IA domestique de la plateforme Village (Stroh, 2025-2026) est conçu comme un déploiement souverain de petits modèles de langage (SLM) avec l'architecture suivante :

+ +

Cette architecture offre un accès complet aux poids et aux activations du modèle. Chaque technique décrite dans la section 3 est disponible au niveau de l'architecture. Il ne s'agit pas d'une observation théorique, mais d'un avantage structurel concret que les déploiements dépendant de l'API ne peuvent pas reproduire.

+

4.3 Le modèle de formation à deux niveaux

+

L'architecture à deux niveaux existante s'adapte naturellement à une stratégie de pilotage à deux niveaux :

+

Tier 1 (modèle de base de la plate-forme):

+ +

Niveau 2 (adaptateurs par locataire):

+ +

Note architecturale sur la souveraineté: Le modèle à deux niveaux tel qu'il est décrit place les corrections de l'opérateur de la plateforme comme la couche de base que les locataires modifient. C'est pragmatiquement correct pour la mise en œuvre actuelle (matériel de niveau consommateur, gouvernance à opérateur unique), mais cela crée une hiérarchie implicite : les valeurs de la plate-forme sont par défaut, les valeurs du locataire sont adaptées. Pour les locataires ayant un statut constitutionnel - iwi, hapu ou autres organismes exerçant une souveraineté parallèle plutôt qu'un choix du consommateur - l'aspiration architecturale à long terme devrait être des autorités de pilotage co-égales, où les corrections à l'échelle de la plateforme sont elles-mêmes négociées à partir de primitives contribuées par la communauté plutôt qu'imposées du haut vers le bas. Le modèle actuel à deux niveaux est un tremplin, pas une destination.

+
+

5. Voie de mise en œuvre proposée

+

5.1 Phase 1 : Mesure de référence (semaines 1 à 4)

+

Objectif: Établir des lignes de base empiriques pour les biais dans le modèle de base actuel Llama 3.1 8B.

+

Méthode:

+
  1. Exécuter la suite existante d'évaluation des biais en 20 points (7 catégories : structure familiale, représentation des personnes âgées, culturelle/religieuse, géographique, deuil/traumatisme, dénomination, confiance-correction).
  2. +
  3. Enregistrer les activations du modèle aux niveaux 8, 16, 24 et 32 pour chaque question d'évaluation.
  4. +
  5. Notez les réponses sur l'échelle de 5 points existante.
  6. +
  7. Identifier les catégories de biais qui présentent les modèles d'activation les plus forts (candidats au biais mécanique).
+

Résultat: Ensemble de données d'activation associé à des scores de biais, identifiant les biais représentationnels (modèles cohérents des premières couches) par rapport aux biais dépendants du raisonnement (variables d'une couche à l'autre, sensibles au contexte).

+

5.2 Phase 2 : Extraction du vecteur de direction (semaines 5 à 8)

+

Objectif: Extraire les vecteurs d'orientation pour les 3 principales catégories de biais mécaniques identifiées.

+

Méthode:

+
  1. Concevoir des paires d'invites contrastives pour chaque catégorie cible (au moins 50 paires par catégorie).
  2. +
  3. Extraire les différences d'activation moyennes au niveau des couches optimales (identifiées dans la phase 1).
  4. +
  5. Valider les vecteurs à l'aide d'invites de test retenues.
  6. +
  7. Calibrer les amplitudes des vecteurs en utilisant l'approche d'intensité dynamique de FairSteer.
+

Outils: TransformerLens ou baukit pour l'extraction de l'activation ; scripts personnalisés pour le calcul et la validation des vecteurs.

+

Sortie:Vecteurs de direction validés pour les catégories de biais prioritaires, avec les paramètres d'étalonnage.

+

5.3 Phase 3 : Intégration dans le pipeline de formation (semaines 9 à 12)

+

Objectif:Intégrer l'application des vecteurs de pilotage dans le cycle de formation hebdomadaire du QLoRA.

+

Méthode:

+
  1. Ajouter l'injection de vecteurs de direction au pipeline d'inférence (modification de l'activation après le passage en amont).
  2. +
  3. Évaluer les sorties dirigées par rapport à la suite d'évaluation des biais.
  4. +
  5. Comparer les performances pilotées et non pilotées sur des repères de capacité générale (pour mesurer la dégradation de la capacité).
  6. +
  7. Intégration avec Tractatus BoundaryEnforcer pour la surveillance des paramètres de pilotage par la gouvernance.
+

Intégration de la gouvernance: Principe de non-séparation d'Alexander - le pilotage est intégré dans la boucle de formation et d'inférence, et n'est pas appliqué en tant que post-traitement. Le Tractatus MetacognitiveVerifier vérifie la provenance du vecteur de pilotage et les décisions de calibration.

+

5.4 Phase 4 : Pilotage par locataire (Semaines 13-16)

+

**Objectif : Permettre la personnalisation du vecteur de pilotage en fonction du locataire.

+

Méthode:

+
  1. Étendre la formation des adaptateurs LoRA de niveau 2 aux paires contrastives spécifiques aux locataires.
  2. +
  3. Permettre aux modérateurs locataires de signaler les cas de biais dans les résultats du modèle (en alimentant le jeu de données des paires contrastives).
  4. +
  5. Extraire des vecteurs d'orientation par locataire qui complètent les corrections à l'échelle de la plate-forme.
  6. +
  7. Valider que le pilotage par locataire ne dégrade pas le débiaisage à l'échelle de la plate-forme.
+

Résultat: Système complet de pilotage à deux niveaux : corrections de base à l'échelle de la plate-forme + calibrage culturel par locataire.

+
+

6. Questions ouvertes et limites

+

6.1 Hypothèse de linéarité

+

Toutes les techniques actuelles de vecteurs de direction partent du principe que les préjugés sont représentés de manière linéaire dans l'espace d'activation - qu'un seul vecteur de direction peut capturer une dimension de préjugé. Cette hypothèse se vérifie pour certains concepts (sentiment, toxicité) mais n'est pas validée pour les préjugés culturels complexes qui peuvent être répartis sur plusieurs dimensions en interaction.

+

6.2 Compromis entre les capacités et les préjugés

+

Les vecteurs de pilotage modifient les activations, ce qui peut dégrader la capacité générale du modèle. L'ampleur de ce compromis pour les petits modèles linguistiques (3B-8B paramètres) est inconnue. Les grands modèles ont une plus grande capacité de représentation pour absorber les corrections de direction sans perte de capacité ; les petits modèles peuvent être plus sensibles.

+

6.3 Le problème de l'angle mort partagé

+

Si le même modèle qui produit des sorties biaisées est utilisé pour générer les paires contrastives pour l'extraction des vecteurs de direction, le processus d'extraction peut hériter des angles morts du modèle. Il s'agit du problème de "l'angle mort partagé" décrit dans le rapport d'incident de Tractatus de février 2026. L'atténuation de ce problème nécessite une validation externe (humaine ou entre modèles) de la qualité des paires contrastives.

+

6.4 Contexte culturel dynamique et domaines interdits

+

Les préjugés culturels ne sont pas statiques. Un modèle destiné à une communauté maorie d'Aotearoa nécessite un étalonnage culturel différent de celui destiné à une communauté allemande de Bavière. Les vecteurs de pilotage extraits d'un contexte culturel peuvent ne pas être transférés. L'approche de pilotage par locataire (phase 4) répond partiellement à ce problème, mais la conception de paires contrastives spécifiques aux locataires nécessite une expertise culturelle qui ne peut pas être automatisée.

+

Plus fondamentalement, certains domaines culturels peuvent être structurellement exclus du pilotage au niveau de la plateforme. Dans le contexte d'Aotearoa, whakapapa (connaissances généalogiques), tikanga (pratiques coutumières) et kawa (protocole) ont une autorité qui découle de la gouvernance de l'iwi et du hapu, et non de l'architecture de la plateforme. L'application de vecteurs de pilotage à l'échelle de la plateforme aux représentations de ces concepts - même si les corrections sont bien intentionnées - risque de subordonner l'autorité épistémique indigène à la vision du monde de l'opérateur de la plateforme. Pour ces domaines, la réponse architecturale correcte peut être la délégation : la plateforme fournit le mécanisme de pilotage, mais la définition, le calibrage et la gouvernance des vecteurs touchant à la connaissance culturellement souveraine doivent être exercés par l'autorité culturelle concernée, et non par l'équipe d'ingénieurs de la plateforme.

+

6.5 Qui dirige ? Gouvernance des vecteurs de pilotage

+

Les vecteurs de pilotage sont des instruments d'application des normes. La capacité technique de modifier le comportement d'un modèle en fonction d'un biais soulève des questions immédiates de gouvernance institutionnelle : quelles normes, édictées par quel processus contestable, avec quel recours pour ceux qui y sont soumis.

+

La proposition actuelle intègre la gouvernance du pilotage dans le cadre du Tractatus, mais ne précise pas les droits de décision pour les opérations de pilotage. Un modèle de gouvernance complet devrait mettre en correspondance les vecteurs de pilotage et les rôles institutionnels concrets :

+ + +
décisionqui décidechemin de la contestation
Opérateur de plateforme + comité consultatif communautaire
Délibération communautaire, examen annuel +| Tractatus BoundaryEnforcer (technique) + modérateurs locataires (jugement de valeur) | Piste d'audit de la provenance, de la magnitude et de l'effet du vecteur | +| Les vecteurs de pilotage peuvent être utilisés pour des raisons de sécurité, d'efficacité et de confidentialité. +| Les vecteurs peuvent être modifiés ou désactivés par l'organisme de gouvernance du locataire (pour les vecteurs du locataire) ou l'opérateur de la plateforme (pour les vecteurs de la plateforme). +| Gouverner les domaines culturellement souverains (whakapapa, tikanga, kawa) | Autorité culturelle compétente (iwi, hapu) -- pas l'opérateur de la plateforme | Indépendant de la gouvernance de la plateforme ; la plateforme fournit un mécanisme, pas une autorité | +

Cette structure de gouvernance n'existe pas encore dans la mise en œuvre. La phase 4 (pilotage par locataire) fournit les crochets architecturaux, mais la couche institutionnelle - qui siège dans les comités consultatifs, comment les litiges sont remontés, ce qui constitue une autorité culturelle suffisante pour un domaine donné - nécessite un travail de conception communautaire qui ne peut pas être automatisé ou imposé par l'opérateur de la plateforme.

+

Le risque de procéder sans cette couche de gouvernance est que les vecteurs de pilotage deviennent un nouveau site d'autorité de valeur centralisée : l'opérateur de la plateforme décide de ce qu'est un biais et comment le corriger, et les locataires reçoivent les corrections plutôt que de participer à leur conception. Cela reproduirait l'asymétrie de pouvoir que le déploiement souverain est censé perturber.

+

6.6 Difficulté de mesure

+

Contrairement à l'incident du port 27027 (binaire correct/incorrect), le biais culturel n'est pas binaire. Évaluer si un modèle piloté produit des résultats "moins biaisés" requiert un jugement humain, une expertise culturelle et une évaluation longitudinale. L'échelle de notation en 5 points de la suite d'évaluation existante fournit un cadre de départ, mais sa fiabilité et sa validité pour mesurer l'efficacité du vecteur de pilotage n'ont pas été testées.

+
+

7. Conclusion

+

L'analogie avec l'essuie-glace suggère une distinction utile entre les biais qui opèrent au niveau de la représentation (mécanique, pré-cognitif, analogue aux schémas moteurs) et les biais qui émergent à travers les chaînes de raisonnement. Si cette distinction s'applique aux architectures de transformateurs - et les preuves d'interprétabilité mécaniste le confirment - alors une catégorie de biais d'IA nécessite une intervention au niveau de l'activation plutôt qu'au niveau de l'invite.

+

Les techniques de vecteur de pilotage (CAA, RepE, FairSteer, DSO, sparse autoencoder feature steering) fournissent la boîte à outils théorique et pratique pour une telle intervention. Ces techniques requièrent un accès complet aux poids et aux activations du modèle - un accès qui est disponible exclusivement dans les déploiements locaux souverains et qui n'est pas disponible, du point de vue architectural, par le biais des points d'extrémité des API commerciales.

+

La plateforme d'IA Village Home, avec ses modèles de lamas affinés par QLoRA, son architecture de formation à deux niveaux et l'intégration de la gouvernance Tractatus, est structurellement positionnée pour ouvrir la voie à l'application de vecteurs de pilotage à l'atténuation des préjugés culturels dans l'IA au service de la communauté. La mise en œuvre proposée en quatre phases est prudente, fondée sur des données empiriques et conçue pour produire des résultats mesurables dans un délai de 16 semaines.

+

Le problème de l'essuie-glace peut être résolu. Le conducteur finit par se recalibrer. La question pour l'IA souveraine est de savoir si nous pouvons accélérer ce recalibrage - non pas en disant au modèle d'être "moins biaisé" (l'équivalent d'une instruction verbale), mais en ajustant directement les représentations qui encodent le biais (l'équivalent d'un déplacement physique de la tige de l'indicateur).

+
+

Références

+ +
+

Licence

+

Copyright 2026 John Stroh

+

Sous licence Apache License, Version 2.0 (la "Licence") ; vous ne pouvez utiliser ce fichier qu'en conformité avec la Licence. Vous pouvez obtenir une copie de la licence à l'adresse suivante :

+

http://www.apache.org/licenses/LICENSE-2.0

+

À moins que la loi applicable ne l'exige ou que cela ne fasse l'objet d'un accord écrit, le logiciel distribué en vertu de la licence l'est en l'état, sans garantie ni condition d'aucune sorte, qu'elle soit expresse ou implicite. Voir la licence pour le langage spécifique régissant les permissions et les limitations dans le cadre de la licence.

+

Résumé:

+ +
+

Métadonnées du document

+

+

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-mi.html b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-mi.html new file mode 100644 index 00000000..145d1d33 --- /dev/null +++ b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-mi.html @@ -0,0 +1,66 @@ +Ngā Wīra Arataki me te Whakawhē Mekanika: Te Whakakore Whakawhē i te Wā Whakamātau mō ngā Tauira Reo Iti Motuhake + +
Putanga Rangahau Akoranga

Ngā Wīra Arataki me te Whakawhē Mekanika: Te Whakakore Whakawhē i te Wā Whakamātau mō ngā Tauira Reo Iti Motuhake

Te Whakatikatika i ngā Whakaaro i te Wā Whakatau mō ngā Tauira Reo Iti Motuhake

John Stroh & Claude (Anthropic)

STO-RES-0009 | Version: 1.1 | February 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
I hangaia tenei tuhinga i runga i te mahi tahi a te tangata me te AI. E whakapono ana nga kaituhi ko tenei tukanga mahi tahi he mea whai take ki te tohe: ki te taea e te tangata me nga punaha AI te mahi tahi ki te whakaaro mo te mana whakahaere AI, ka whai mana nga anga ka hangaia e ratou, he mana kaore e taea e tetahi o ratou anake.
+

Whakarāpopototanga E rangahau ana tēnei pepa mēnā he momo hē i roto i ngā tauira reo nui e mahi ana i tētahi taumata raro iho i te whakaaro, he taumata whakaaturanga e ōrite ana ki te aunoatanga nekehanga i roto i te māramatanga tangata, ā, mēnā ka taea e ngā tikanga arataki pūwāhi te uru ki tēnei taumata i te wā e whakahaere ana i te whakamātau. Ka wehewehea e mātou te pōraruraru mīhini (ngā tauira tauanga e whakahohe ana i te taumata whakaurunga me te whakaaturanga o ngā paparanga tuatahi i mua i te tīmatanga o te tukatuka whakaaroaro) me te pōraruraru whakaaroaro (ngā whakarerekētanga e puta ake ana i roto i te whakaaroaro mekameka-whakaaro maha-hipanga). Mā te whakamahi i ngā mahi rangahau tūturu i roto i te Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO), me te ārahitanga āhuatanga o te sparse autoencoder a Anthropic, ka aromātai mātou i te pakeke o ia tikanga me tōna whai wāhi ki ngā tauira reo iti rangatira (SLMs) kua whakangungua, kua whakaratohia hoki i te rohe. Ka kitea e mātou he painga hanganga o ngā whakaurunga SLM rangatira, arā ko te papanga Village Home AI e whakamahi ana i ngā tauira Llama 3.1/3.2 kua whakangāwarihia mā QLoRA, ki ngā whakaurunga mā te API: mā te whai wāhi katoa ki ngā taumaha me ngā whakaoho o te tauira ka taea te tango, te whakauru, me te aromātai i ngā pūwāhi whakatere, ā, kāore e taea tēnei i roto i ngā tauranga mutunga API hokohoko i runga i te hanganga. Ka tūtohu mātou i tētahi ara whakatinana e whā ngā wāhanga, e whakauru ana i ngā pūwāhi whakatere ki te hanganga whakangungu ā-papa e rua kua oti kē, me te anga whakahaere Tractatus. --- ## 1. Whakataki: Te Raruraru o te Tohu-Mopu ### 1.1 He Whakatairite Motokā

+

He taraiwa e whakawhiti ana i waenga i ngā waka e rua – kotahi kei te taha matau o te pou taraiwa ngā mana tohu, ko tētahi kei te taha mauī – ka pā ki a ia tētahi hapa motuhake: i muri i te whakamahinga roa i tētahi waka, ka huri ki tētahi atu, ka puta te whakahohe aunoa o te mana hē. Ka tohu te taraiwa i te huringa, ā, ka whakahohe i ngā mīhini horoi karaihe o mua, hei huri rānei. E toru ngā āhuatanga o tēnei hapa e whai ana hei akoranga mō te tātaritanga hē o te AI:

+
  1. He mea i mua i te māramatanga. Kāore te taraiwa e whakaaroaro ana ko tēhea te tūtoki hei whakamahi. Ka whakahohe te tauira nekehanga i mua i te whai wāhi o te whakaaroaro ā-hinengaro. Hei whakatika, me whakakore i tētahi urupare kua whakangungua, ehara i te whakarerekē i tētahi whakatau.
+
  1. He whakawhirinaki ki te horopaki. Ka puta tēnei hapa i te wā whakawhiti i waenga i ngā waka. Whai muri i te whakamahinga nui o te whakaritenga hou, ka whakatikatika anō te tauira ā-miihini. Ehara i te mea mau tonu te hapa, engari he tino piri, ā, he uaua ki ngā tohutohu ā-waha ("kia maumahara, kei te taha mauī ngā tohu whakamārama"). 3. He rerekē tōna hanganga ki ngā hapa whakaaro. He taraiwa i hē te huarahi nā te pānui hē i tētahi mahere, kua mahia e ia he hē whakaaro. He taraiwa i whakahohe i ngā wīpera hei whakakapi i ngā tohu huarahi, kāore ia i whakaaro hē – kāore i whakamahia te tukanga whakaaro. Ka puta te hē i tētahi paparanga i raro iho i te whakaaroaro. ### 1.2 Te Kororāri AI Ka tūtohu mātou e tau ana tētahi wehewehenga ōrite i roto i ngā tauira reo e hangai ana ki te transformer. Ka puta ētahi hē i te tohatoha tatauranga o ngā raraunga whakangungu, ā, ka kitea i te taumata whakaaturanga — i roto i ngā whakaurunga tohu, ngā tauira aro, me ngā whakahohe i ngā paparanga tuatahi — i mua i te whakahohe i ngā pūkenga whakaaro maha-hipanga o te tauira. Ka puta ētahi atu mā ngā mekameka whakaaro, ā, ahakoa kāore ia hipanga e hē, ka puta he whakatau hē i te mekameka katoa. He mea nui tēnei wehewehenga nā te mea he tino rerekē ngā rautaki whakauru:
+ +

Ko te pātai whaihua: kei te wātea ināianei ngā tikanga arorau arataki e taea ana te tautuhi me te whakatika i ngā hē ā-miihini kia pono, ā, ka taea hoki te whakamahi i ēnei i roto i ngā hanganga rangatira o ngā tauira reo iti, kei reira e wātea ana te uru katoa ki te tauira? --- ## 2. Hē ā-Miihini vs. Hē Whakaaroaro: Te Tūāpapa Arorau ### 2.1 Hē Whakaaturanga i roto i ngā Hanganga Transformer

+

Ka tukatuka ngā tauira Transformer i ngā raraunga urunga mā roto i tētahi raupapa paparanga, ā, ia paparanga ka tatau i ngā whakaaturanga kua taumaha-a-aro. Kua whakapūmau ngā rangahau mō te whakamārama ā-miihini ka whakamunatia e ngā paparanga rerekē ngā momo pārongo rerekē (Elhage et al., 2022; Olsson et al., 2022):

+ +

Koinei te pūnaha i tuhia ki roto i te aitua o te tauranga pātengi raraunga (Stroh, 2025): i whakakorehia e tētahi taunoa tauanga (te tauranga paerewa MongoDB, kei roto i te ~95% o ngā raraunga whakangungu) tētahi tohutohu mārama e tautuhi ana i tētahi tauranga kāore i te paerewa i te pēhanga horopaki 53.5%. Ko taua pūnaha anō, e mahi ana ki runga i ngā whakaaturanga ahurea me ngā whakaaturanga kua utaina ki ngā uara, kaua ki ngā tau tauranga, koinei tā mātou e kī nei ko te whakawhē ā-mīhini.

+

2.2 Te Whakapae Whakaaro Ka puta te whakapae whakaaro, hei whakatairite, mā te tukanga whakaaroaro ā-taahiraa a te tauira. Ko ētahi tauira: - Ngā pānga tauranga: Ka tino pāngia ngā whakatau e ngā pārongo tuatahi o te mekameka whakaaroaro. - Ngā tātari wātea: Ka whakamahi noa te tauira i ngā tauira māmā ki te tiki mai i ngā raraunga whakangungu, kāore e rapu i ngā mea e hāngai ana ki te horopaki.

+ +

2.3 He aha te take i hira ai te wehewehenga E whakamārama ana te whakataurite tohu-mopu i tētahi hēhua nui: kāore e taea e koe te puta i tētahi tauira nekehanga mā te whakaaro. He iti noa te whaihua o te kī atu ki te taraiwa, "kia maumahara, kei te taha mauī ngā tohu", nā te mea ka puta te hapa i mua i te tukatuka i te tohutohu. Waihoki, he iti pea te whaihua o ngā tohutohu taumata whakahau ("kia mātau ki ngā ahurea," "kia karo i te hē o te ao Pākehā") ki te whawhai i ngā hē whakaahua e puta ana i te taumata whakaurunga i mua i te whakahohe o ngā pūkenga whaiwhaiwhakahau a te tauira. Mēnā he tika tēnei tātaritanga, me whakatika tētahi kāwai o ngā hē AI i te taumata whakahohe – ehara i te taumata whakahau. Koinei tonu te mea e tūtohu ana ngā tikanga rārangi whakatere hei whakarato. ---

+

3. Ngā Tikanga Wīra Arataki: Te Āhua o te Hangarau o Nāianei ### 3.1 Tāpiritanga Whakahohe Whakatairite (CAA) Puna: Turner et al. (2023), Rimsky et al. (2023) Ka tango a CAA i ngā "wīra arataki" mā te tatau i te rerekētanga o ngā whakahohe tauira i waenga i ngā tokorua tono whakatairite. Hei tauira:

+ +

Te taumata whanaketanga: Kua whakamātauria ki runga i te Llama 2 (7B-70B) me ētahi atu tauira taumaha tuwhera. He whai hua mō ngā kare ā-roto, ngā āhuatanga ā-tangata, me ētahi āhuatanga whai uara. He tino hira te kōwhiri paparanga (i te nuinga o te wā, ko ngā paparanga 15–25 i roto i ngā hanganga 32-paparanga). Kei te whakawhirinaki tonu te whakatikatika rahinga (te nui o te pūwāhanga hei tāpiri) ki ngā raraunga whakamātautau.

+

Ngā here: E whakapae ana ka whakaatuhia te pākahuatanga whāinga i runga i te rārangi kotahi i te wāhi whakahohe. Tērā pea ka tohatohahia ētahi pākahuatanga ki ngā ahunga maha, ka whakamunatia rānei i waho o te rārangi kotahi. Me āta hoahoa ngā tokorua whakatairite – ka hopukia e ngā tokorua kua hē te hoahoa te āhuatanga hē. ### 3.2 Pūhanga Whakaaturanga (RepE)

+

Puna: Zou et al. (2023), Center for AI Safety Ka whai te RepE i tētahi huarahi "top-down" (mai runga iho) mō te mārama o te AI, e mahi ana ki ngā whakaaturanga taumata-populāti, ehara i ngā pūtau takitahi. Ka tirohia e ia ngā whakaaturanga ā-roto o ngā whatunga whatutū hei kaupapa rangahau matua, ka tango, ka whakarerekē i ngā ahunga i te wāhi whakaaturanga e hāngai ana ki ngā ariā taumata-teitei.

+

Te koha matua: Ka whakarato te RepE i tētahi tikanga whakaritenga hei tautuhi i ngā ahunga whakaaturanga e hāngai ana ki ngā ariā pērā i te "pono", te "rapu mana", te "haumaru", me ngā āhuatanga tūāhua ahurea (tērā pea). Ka whānui ake tēnei ki tua atu i ngā tokorua tono takitahi ki ngā tauira taumata-populā.

+

Te taumata whanaketanga: Kua whakaputaina me ngā hua ka taea te whakahāngai anō ki ngā whānau tauira maha. He pakari te anga ariā, engari me whakawhanake anō ngā taputapu whaihua mō ngā āhuatanga hē ritenga (hei tauira, te anga ahurea, ngā whakaaro mō te hanganga whānau). ### 3.3 FairSteer

+

Puna: Ko ngā mahi tata nei (2024-2025) mō te whakakore hē i te wā whakatau a FairSteer e whakarato ana i tētahi anga toru-hipanga kua hoahoatia motuhake hei whakaiti i te hē: 1. Te Torotoro Hē: Te tautuhi ā-tari i ngā ahunga hē i te wāhi whakahohe mā te whakamahi i ngā kohinga raraunga āhuatanga taupori, ahurea rānei. 2. Te Tangohanga Whetū Arataki: Te tatau i ngā wetū ahunga e hāngai ana ki ngā āhuatanga hē kua tautuhia.

  1. Whakatikatika Ā-Tūturu i te Kaha: Whakarerekē i te rahi o te pūwāhi ārahi mō ia tāuru i runga i te kino o te hē kua kitea, kaua ko te whakamahi i tētahi whakatikatika tūturu puta noa. Auahatanga matua: Te kaha ā-tūturu o te ārahi. Engari, kaua e whakamahi i tētahi whakatikatika tūturu (e mōrearea ana kia nui rawa te whakatikatika, kia iti rawa rānei i runga i te tāuru), ka ine a FairSteer i te taumata o te hē i ngā whakahohe o ia tāuru, ā, ka whakawhānui i te whakatikatika kia ōrite ai.

+

Te taumata whanaketanga: He tīmatanga, engari he tūmanako. Ka aro te mātāpono whakatikatika ā-huringa ki tētahi here matua o te ārahi rahi tūturu. Hei whakatinana, me tātari i ngā whakahohe mō ia aromatawai, ā, ka tāpiri i te kawenga rorohiko. ### 3.4 Whakapai Tautika Tere (DSO) Puna: Rangahau tata nei (2024-2025) mō te ārahi i runga i te RL

+

Ka tautuhi a DSO i te raru whakatere hei mahi whakapai: rapu i te huringa rārangi o ngā whakahohe e tino neke ana i te whanonga o te tauira ki tētahi whāinga, ā, e iti rawa te whakaiti i te āheinga whānui. Te koha matua: Ka whakamahi i te ako whakakaha hei rapu i ngā huringa whakatere pai rawa atu, kaua e whakawhirinaki ki ngā tokorua whakatairite i hoahoatia ā-ringa. Ka taea e tēnei te hopu i ngā ahunga hē kāore i te mārama, ā, tērā pea ka mahue e ngā kaihoahoa tangata.

+

Pakeketanga: He utu nui ā-rorohiko mō te whakangungu i te whakapainga, engari he whai hua ngā whakarerekētanga ka puta hei whakamahi i te wā whakatau. E hiahiatia ana he tohu utu kua tautuhia pai mō te whanonga e whāia ana.

+

3.5 Te Arataki Āhuatanga Pūtau-iti a Anthropic Puna: Templeton et al. (2024), Anthropic Ka wehea e te huarahi a Anthropic ngā whakaaturanga ā-roto o te tauira mā te whakamahi i ngā pūtau-iti aunoa (SAEs) hei tautuhi i ngā āhuatanga monosemantic -- arā, ngā ahunga takitahi, e taea te whakamārama i roto i te wāhi whakahohe e hāngai ana ki ngā ariā motuhake.

+

Ngā kitenga matua: I tautuhia ngā miriona āhuatanga ka taea te whakamārama i roto i a Claude 3 Sonnet, tae atu ki ngā āhuatanga mō ngā ariā motuhake (Peka o Golden Gate, haumaru waehere, teka). I whakaaturia ka taea te "whakapūmautia" ēnei āhuatanga — arā, te whakanui, te whakaiti rānei i a rātou mā te hangarau — hei ārahi i te whanonga o te tauira i te wā e whakatau ana.

+

Te hāngaitanga ki te hēhē: Mēnā ka whakaatuhia ngā hēhē ahurea, ngā whakapae hanganga whānau, me ngā taunoa āhua whakahaere hei āhuatanga ka taea te tautuhi, ka taea i te ariā te whakarerekē tika i a rātou. Koinei te taumata tino taipitopito rawa o te whakauru e taea ana. He here nui mō te whakamahinga rangatira: I mahia e Anthropic tana rangahau SAE i runga i ā rātou ake tauira me te whai wāhi katoa ki roto. Kua whakaputaina te tikanga mahi, engari he nui te haumi rorohiko e hiahiatia ana kia whakangungua ngā SAE mō tētahi tauira rerekē (hei tauira, Llama 3.1). Kāore he SAE kua whakangungua i mua mō te whānau tauira Llama i te wā e tuhi ana. --- ## 4. Te Painga Hanganga o te Whakaurunga Rangatira ### 4.1 API vs. Te Whai Wāhi ki te Tauira ā-Rohe

+

He wehewehenga hanganga matua e whakahaere ana i ngā tikanga whakatere e wātea ana: | Pūkenga | Mā te API (API GPT, API Claude) | Motuhake ā-rohe (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Te uru ki ngā taumaha tauira | Kāo | Ae | | Te uru ki ngā whakahohe waenga | Kāo | Ae | | Tangohia ngā pūwāhi whakatere | Kāo | Āe | | Tāpirihia ngā pūwāhi whakatere i te wā whakamātau | Kāo | Āe | | Whakangungua ngā kaitārua aunoa āputa i runga i ngā whakahohe | Kāo | Āe | | Whakangāwari mā ngā whāinga whakakore hē | Kāo (RLHF mā te kaiwhakarato anake) | Āe (QLoRA, LoRA, whakangāwari katoa) | | Whakarerekē i ngā tauira aro | Kāo | Ae | | Tātaritanga whakahohe ā-papanga | Kāo | Ae | E whakaatu ana tēnei ripanga kāore he wātea o ngā tikanga pūwāhi whakatere i whakamārama i te Wāhanga 3 mō ngā whakaurunga mā te API. Kāore e taea e tētahi whakahaere e whakamahi ana i te GPT-4, i te Claude rānei mā ā rātou API te tango, te whakauru, te whakatikatika rānei i ngā pūwāhi arataki. Ka herea rātou ki ngā whakauru taumata tono (ngā whakahau pūnaha, ngā tauira torutoru, ngā here AI ā-ture) — ā, e ai ki tā mātou tātaritanga i te Wāhanga 2, tērā pea kāore ēnei e whai hua ki te whawhai i te hē ā-mīhini e mahi ana i raro i te paparanga whakaaro. ### 4.2 Te Papanga AI Kāinga a The Village

+

Ko te pūnaha AI Home o te papanga Village (Stroh, 2025-2026) i hangaia hei whakaurunga rangatira o tētahi tauira reo iti (SLM) me te hanganga e whai ake nei: - Tauira pūtake: Llama 3.1 8B (pūtake papanga Tīra 1) / Llama 3.2 3B (kaiwhakarite Tīra 2 mō ia kaipā)

+

Ka whakarato tēnei hanganga i te uru katoa ki ngā taumaha tauira me ngā whakahohe. Kei te wātea ā-hanganga ngā tikanga katoa i whakamārama i te Wāhanga 3. Ehara tēnei i te kitenga ariā – he painga hanganga tūturu kāore e taea e ngā whakaurunga e whakawhirinaki ana ki te API te tārite. ### 4.3 Te Tauira Whakangungu Papa-rua Ka hāngai noa te hanganga papa-rua o nāianei ki tētahi rautaki ārahi papa-rua:

+

Tātai 1 (Mōdeli Pūtake Papanga): - Whakatikatika hē puta noa i te papanga - Māramatanga ahurea puta noa i ngā ahurea tautokohia katoa (Maori, Pākehā, Moana-nui-a-Kiwa, Āhia) - Whakakore hē whānui mō te hanganga whānau, te āhua whakahaere, te whakaaturanga kaumātua - Ngā aronga whakatere i tangohia mai i te kohinga raraunga aromatawai hē o te papanga (20 whakahau, 7 kāwai, 350 tauira whakakore hē)

+

Tāhua 2 (Ngā Āputa mō ia Kaihiri): - Whakatikatika ahurea motuhake mō ia kaihiri - Whakakotahitanga uara motuhake mō ia hapori - Ngā āputa LoRA e whakauru ana i ngā whakatikatika arataki kua whakamanahia e te kaihiri - Kua aromatawaihia ki ngā take whakamātautau motuhake mō ia kaihiri

+

Tuhipoka hanganga mō te rangatiratanga: Ko te tauira rua-papa kua whakamārama nei e whakanoho ana i ngā whakatikatika a te kaiwhakahaere papanga hei paparanga turanga, ā, ka whakarerekēhia e ngā kaipā. He tika tēnei i runga i ngā āhuatanga o te whakatinanatanga o nāianei (taputapu kounga-kaihoko, whakahaere kotahi te kaiwhakahaere), engari ka waihanga i tētahi taumata huna: ngā uara papanga hei taunoa, ngā uara kaipā hei urutau. Mō ngā kaipāpāwhiri whai mana ā-ture -- iwi, hapū, me ētahi atu rōpū e whakahaere ana i te rangatiratanga taurite, kaua ko te kōwhiringa kaiwhakamahi -- me whai te whāinga hanganga ā-roa kia taurite ngā mana whakahaere, ā, ko ngā whakatikatika puta noa i te papaanga ka whiriwhiria mā ngā pūtake i tukuna e te hapori, ehara i te mea ka whakahaua mai i runga iho. He taahiraa te tauira papa-rua o nāianei, ehara i te ūnga.

+

--- ## 5. Ara Whakatinana Kua Tūtohutia ### 5.1 Wāhanga 1: Tātaritanga Paerewa (Wiki 1–4) Whāinga: Whakarite i ngā paerewa aromatawai ā-taunakitanga mō te hē i roto i te tauira pūtake Llama 3.1 8B o nāianei.

+

Tikanga: 1. Whakahaere i te kohinga aromatawai hē 20-whakahau o nāianei (7 kāwai: hanganga whānau, whakaaturanga kaumātua, ahurea/wairua, ā-takiwā, pōuri/whara hinengaro, ingoa, māia-pono). 2. Tuhipoka i ngā whakahoatanga o te tauira i ngā paparanga 8, 16, 24, me te 32 mō ia whakahau aromatawai. 3. Tohu i ngā whakautu i runga i te paemahana 5-tohu o nāianei.

  1. Tautuhia ko ēhea kāwai hē e whakaatu ana i ngā tauira taumata whakahohe kaha rawa (ngā kaitono mō te hē ā-mīhini).

+

Putanga: He kohinga raraunga whakahohe kua honoa ki ngā tatauranga hē, e tautuhi ana ko ēhea hē e whakaata ana (ngā tauira ōrite i ngā paparanga tuatahi) vs. e whakawhirinaki ana ki te whakaaro (e rereke ana puta noa i ngā paparanga, e pā ana ki te horopaki). ### 5.2 Wāhanga 2: Tangohanga Wīra Arataki (Wiki 5–8) Whāinga: Tangohia ngā wīra arataki mō ngā kāwai hē ā-mīhini e toru kua tautuhia hei mea nui.

+

Tikanga: 1. Hoahoa i ngā tokorua o ngā whakahau whakatairite mō ia kāwai whāinga (iti rawa atu 50 tokorua mō ia kāwai). 2. Tangohia ngā rerekētanga toharite o te whakahohe i ngā paparanga pai rawa atu (i tautuhia i te Wāhanga 1). 3. Whakamana i ngā wīra mā te whakamahi i ngā whakahau whakamātautau kua waiho. 4. Whakaritea ngā rahinga o ngā wīra mā te whakamahi i te huarahi kaha hurihuri a FairSteer.

+

Taputapu: TransformerLens, baukit rānei mō te tangohanga whakahohe; ngā tuhinga whakaritea mō te tātai me te whakamana i ngā wēti. Hua: Ngā wēti ārahi kua whakamana mō ngā kāwai pākahukahu matua, me ngā tawhā whakatikatika. ### 5.3 Wāhanga 3: Whakaurunga ki te Pipari Whakangungu (Marama 9–12) Whāinga: Whakauru i te tono wēti ārahi ki roto i te huringa whakangungu QLoRA ā-wiki.

+

Tikanga: 1. Tāpiri i te werohanga o te pūwāhi whakatere ki te paipa whakamātautau (whakarerekētanga whakahohe i muri i te whakawhiti whakamua). 2. Arotake i ngā putanga whakatere ki te kohinga arotake hē. 3. Whakatairite i te mahi whakatere me te mahi kāore i whakatere i runga i ngā paearu whakataurite āheinga whānui (hei ine i te hekenga o te āheinga). 4. Whakauru ki te Tractatus BoundaryEnforcer mō te tirohanga whakahaere o ngā tawhā whakatere.

+

Whakaurunga whakahaere: Te mātāpono Not-Separateness a Alexander -- kua whakaurua te arataki ki roto i te porowhita whakangungu me te whakamātau, ehara i te mea e whakamahia ana hei tukatuka whakamutunga. Ka arotake a Tractatus MetacognitiveVerifier i te takenga mai o ngā wīra arataki me ngā whakataunga whakatikatika. ### 5.4 Wāhanga 4: Arahitanga mō ia kaiwhakamahi (Wiki 13-16)

+

Whāinga: Whakaahei i te whakarite motuhake i ngā rārangi ārahi mō ia kaiwhakarato. Huarahi: 1. Whānuihia te whakangungu kaitāuta LoRA Tīra 2 kia whakauru i ngā tokorua whakatairite motuhake mō ia kaiwhakarato. 2. Tukua ngā kaiwhakahaere kaiwhakarato kia tohu i ngā tauira whakawhē i ngā putanga tauira (hei whāngai i te kohinga raraunga tokorua whakatairite). 3. Tangohia ngā rārangi ārahi mō ia kaiwhakarato hei tautoko i ngā whakatikatika puta noa i te papa.

  1. Whakamana kia kore e whakaiti te arataki ā-tenanti i te whakakore hē puta noa i te papa. Hua: Pūnaha arataki papa-rua katoa: whakatikatika turanga puta noa i te papa + whakarite ahurea ā-tenanti. --- ## 6. Ngā Pātai Tuwhera me ngā Herenga ### 6.1 Whakapae Rārangi-Tika

+

E whakaponohia ana e ngā tikanga katoa o nāianei mō ngā pūwāhi whakatere, ka whakaatuhia te hē i runga i te arorau i roto i te wāhi whakahohe – arā, ka taea e tētahi wāhanga aronga kotahi te hopu i tētahi āhuatanga hē. Kua whakaaturia tēnei hei pono mō ētahi ariā (pērā i te kare ā-roto, te kino), engari kāore i whakamana mō ngā hē ahurea matatini e tohaina ana puta noa i ngā āhuatanga maha e pāhekoheko ana. ### 6.2 Te Whakawhitiwhiti āheinga-hē Ka whakarerekē ngā pūwāhi whakatere i ngā whakahohe, ā, ka heke pea te āheinga whānui o te tauira. Kāore i te mōhiotia te rahi o tēnei whakawhitiwhiti mō ngā tauira reo iti (3B–8B ngā tawhā). He nui ake te kaha whakaatu o ngā tauira nui ki te whakauru i ngā whakatikatika arataki me te kore ngaro o te āheinga; he tino māmā ake pea ngā tauira iti. ### 6.3 Te Raruraru o te Pūpū Huna Tūturu Mēnā ka whakamahia taua tauira kotahi e whakaputa ana i ngā hua whai pito hei waihanga i ngā tokorua whakatairite mō te tangohanga o ngā pūwāhi arataki, tērā pea ka tuku iho te tukanga tangohanga i ngā pūpū huna o taua tauira. Koinei te raru o te "wāhi huna e tiritiri ana" i tuhia ki roto i te pūrongo aitua o Tractatus o Hui-tanguru 2026. Hei whakaiti i tēnei, me whakamana ā-waho (tangata, tauira rānei) i te kounga o ngā tokorua whakatairite. ### 6.4 Te horopaki ahurea huringa me ngā rohe kāore e whakaaetia. Ehara i te mea tū tonu te hē ahurea. He tauira e tuku ratonga ana ki tētahi hapori Māori i Aotearoa e hiahiatia ana he whakarite ahurea rerekē i tētahi e tuku ana ki tētahi hapori Tiamana i Bavaria. Kāore pea e whakawhiti ngā pūwāhi ārahi i tangohia i tētahi horopaki ahurea. Ka whakatika wāhanga noa iho tēnei mā te huarahi ārahi ia-teneti (Wāhanga 4), engari ko te hoahoa i ngā tokorua whakatairite motuhake mō ia teneti e hiahiatia ana he mātau ahurea kāore e taea te aunoa. Hei mea hōhonu ake, tērā pea he rohe ahurea kāore e āhei ki te ārahi taumata papanga. I roto i te horopaki o Aotearoa, ko te whakapapa (mōhiotanga whakapapa), te tikanga (tikanga tuku iho), me te kawa (ture whakahaere) he mana nō te whakahaere a iwi me hapū, ehara i te hanganga o te papa. Mā te whakamahi i ngā aronga whakahaere puta noa i te papa ki ngā whakaaturanga o ēnei ariā – ahakoa he whakatikatika pai – ka tūpono ka whakaitia te mana mātauranga taketake ki te tirohanga o te kaiwhakahaere papa. Mō ēnei wāhanga, ko te whakautu hanganga tika pea ko te tuku mana: ka whakarato te papa i te pūnaha whakatere, engari me whakahaere e te mana ahurea e hāngai ana te tautuhi, te whakarite, me te whakahaere i ngā aronga e pā ana ki ngā mōhiotanga rangatiratanga ahurea, ehara i te rōpū hangarau o te papa. ### 6.5 Nā wai e Whakatere? Te Whakahaere i ngā Aronga Whakatere

+

He taputapu whakatinana tikanga ngā pūwāhi whakatere. Ko te āheinga hangarau ki te whakarerekē i te whanonga tauira i runga i tētahi āhuatanga whakawhē, ka ara ake ngā pātai ohorere mō te whakahaere ā-tari: ko wai ngā tikanga, i whakatinanahia mā he aha te tukanga e taea te wero, ā, he aha ngā huarahi whakahoki mō te hunga e pāngia ana e ēnei tikanga. Kei roto i te tono o nāianei te whakauru i te whakahaere whakatere ki roto i te anga Tractatus, engari kāore e tautuhia ana ngā mana whakatau mō ngā mahi whakatere. Me whakarārangi e tētahi tauira whakahaere katoa ngā pūwāhi whakatere ki ngā tūranga ā-tari motuhake:

+

| Whakatau | Ko wai e whakatau ana | Ara Whakawhē | | --- | --- | --- | | Whakamāramahia tētahi tuaka whakawhē (he aha ngā mea e kīia ana he whakawhē) | Kaiwhakahaere papanga + Poari Kaitohutohu Hapori | Whiriwhiringa ā-hapori, arotake ā-tau | | Whakaae ki tētahi pūwero ārahi mō te whakaurunga | Tractatus BoundaryEnforcer (hangarau) + kaiwhakahaere rēniti (whakataunga uara) | Ara arotake o te takenga, te nui, me te pānga o te pūwero | | Whakarite i te nui o te pūwero (tohu whakatika) | Whakatikatika ā-tere a FairSteer (hangarau) + arotake ā-tangata mō ngā rohe matatini | Rēhita mō ia whakapae, whakamōhiotanga pae | | Whakakore, whakaweto rānei i tētahi pūwāhi | Te rōpū whakahaere o te kaipā (mō ngā pūwāhi kaipā) / te kaiwhakahaere papanga (mō ngā pūwāhi papanga) | Te tukanga whakatau tautohe me ngā take kua tuhia | | Whakahaere i ngā rohe rangatiratanga ahurea (whakapapa, tikanga, kawa) | Te mana ahurea whai take (iwi, hapū) -- ehara i te kaiwhakahaere papanga | Motuhake i te whakahaere papanga; ka whakarato te papanga i te pūnaha, ehara i te mana |

+

Kāore anō tēnei hanganga whakahaere kia tū i roto i te whakatinanatanga. Ka whakarato te Wāhanga 4 (whakatere mā ia kaiwhakamahi) i ngā pūāhua hanganga, engari ko te paparanga whakahaere ā-tari – ko wai ngā e noho ana ki ngā poari tohutohu, me pēhea te whakawhānui i ngā tautohe, he aha te mana ahurea e tika ana mō tētahi rohe – e hiahiatia ana he mahi hoahoa ā-hapori kāore e taea te aunoa, kāore rānei e taea te whakahau e te kaiwhakahaere papanga.

+

Ko te tūraru o te anga whakamua me te kore o tēnei paparanga whakahaere, ka noho ngā aronga whakatere hei wāhi hou mō te mana whakahaere uara pokapū: ko te kaiwhakahaere papanga e whakatau ana he aha te hēhē, me pēhea te whakatika, ā, ka whiwhi ngā kaipāpā i ngā whakatikatika, kāore rātou e whai wāhi ki te hoahoa. Ka whakahou anō tēnei i te kore taurite mana e hiahia ana te whakamahinga rangatira kia pakaru. ### 6.6 Uaua o te Inenga

+

He rereke i te aitua o te tauranga 27027 (he rua noa te kōwhiringa: tika/hē), ehara te hē ahurea i te mea rua noa. Hei aromatawai mēnā ka whakaputa te tauira ārahi i ngā hua "iti ake te hē", me whai whakatau a te tangata, me te mātanga ahurea, me te aromatawai roa. Ko te paemahana tohu rima-pūnga kei roto i te kohinga aromatawai o nāianei he anga tīmatanga, engari kāore anō kia whakamātauria tōna pono me tōna tika hei ine i te whaihua o ngā aronga ārahi. --- ## 7. Whakakapi

+

Ko te whakatairite i waenga i te tohu me te mopu e tohu ana i tētahi wehewehenga whaihua i waenga i ngā hē e mahi ana i te taumata whakaaturanga (mīhini, i mua i te mōhio, he rite ki ngā tauira nekehanga) me ngā hē e puta ake ana mā ngā mekameka whakaaro. Mēnā ka mau tēnei wehewehenga i roto i ngā hanganga transformer – ā, e tautokona ana e ngā taunakitanga mō te whakamāramatanga mīhini – ka hiahiatia kia whakatikatikahia tētahi kāwai hē AI i te taumata whakahohe, kaua i te taumata tono.

+

Ka whakarato ngā tikanga arataki ā-vector (CAA, RepE, FairSteer, DSO, arataki āhuatanga o te sparse autoencoder) i te kete taputapu ariā me te mahi hei tautoko i tēnei momo urutau. He mea tino hira, me whai wāhi katoa ēnei tikanga ki ngā taumaha tauira me ngā whakahohe – he wāhi e wātea ana anake i ngā whakaurunga ā-rohe rangatira, ā, kāore e wātea mā ngā tauranga API hokohoko.

+

Ko te tūāpapa AI a Village Home, me ōna tauira Llama kua whakangāwarihia ki te QLoRA, tōna hanganga whakangungu papa-rua, me te whakaurunga whakahaere o Tractatus, e tū ana ā-hanganga hei kaiārahi i te whakamahi i ngā pūwāhi whakatere hei whakaiti i ngā hē ahurea i roto i te AI e mahi ana mō te hapori. Ko te huarahi whakatinana e whā-wāhanga kua tūtohutia he tūpato, he mea tūhonohono ki ngā raraunga whakamātautau, ā, i hangaia kia puta ai ngā hua ka taea te ine i roto i te 16 wiki.

+

Ka taea te whakaoti i te raru o te tohu-muku. Ka whakatikatika anō te taraiwa i te mutunga. Ko te pātai mō te AI rangatira, mēnā ka taea e mātou te whakatere i taua whakatikatika anō – ehara i te mea mā te kī atu ki te tauira kia "kaua e tino whai tōkeke" (he rite ki te whakahau ā-waha), engari mā te whakatikatika tika i ngā whakaaturanga e whakamunatia ana te tōkeke (he rite ki te neke ā-tinana i te peka tohu). --- ## Ngā Tautuhinga

+ +

Whakarāpopototanga: - Ka whakaaetia te whakamahinga arumoni - Ka whakaaetia ngā whakarerekētanga - Ka whakaaetia te tohatoha - Kei roto te tuku raihana patent - Ka whakaaetia te whakamahinga whaiaro - Me whakauru te raihana me te pānui mana kaituhi - Me whakamōhio ngā panonitanga nui - Kāore he mana waitohu ā-ture i tukuna - Kāore he kawenga, he raihana rānei --- ## Metadata o te Tuhinga

+ + \ No newline at end of file diff --git a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai.html b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai.html new file mode 100644 index 00000000..ffec545a --- /dev/null +++ b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai.html @@ -0,0 +1,258 @@ +STEERING VECTORS AND MECHANICAL BIAS + +
Academic Research Edition

STEERING VECTORS AND MECHANICAL BIAS

Inference-Time Debiasing for Sovereign Small Language Models

Research & Theory — Strategic Quadrant

Authors: John Stroh & Claude (Anthropic)

Document Code: STO-RES-0009 | Version: 1.1 | February 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
This document was developed through human-AI collaboration. The authors believe this collaborative process is itself relevant to the argument: if humans and AI systems can work together to reason about AI governance, the frameworks they create may carry a legitimacy that neither could achieve alone.
+ +

Abstract

+

This paper investigates whether a class of biases in large language models operates at a sub-reasoning, representational level analogous to motor automaticity in human cognition, and whether steering vector techniques can intervene at this level during inference. We distinguish between mechanical bias (statistical patterns that fire at the embedding and early-layer representation level before deliberative processing begins) and reasoning bias (distortions that emerge through multi-step chain-of-thought reasoning). Drawing on empirical work in Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO), and Anthropic's sparse autoencoder feature steering, we assess the maturity of each technique and its applicability to sovereign small language models (SLMs) trained and served locally. We find that sovereign SLM deployments, specifically the Village Home AI platform using QLoRA-fine-tuned Llama 3.1/3.2 models, possess a structural advantage over API-mediated deployments: full access to model weights and activations enables steering vector extraction, injection, and evaluation that is architecturally impossible through commercial API endpoints. We propose a four-phase implementation path integrating steering vectors into the existing two-tier training architecture and Tractatus governance framework.

+
+ +

1. Introduction: The Indicator-Wiper Problem

+ +

1.1 A Motor Analogy

+

A driver who regularly alternates between two vehicles -- one with indicator controls on the right of the steering column, the other on the left -- experiences a characteristic failure: after extended use of one vehicle, switching to the other produces involuntary activation of the wrong control. The driver signals a turn and activates the windscreen wipers instead, or vice versa. This failure has three properties that make it instructive for AI bias analysis:

+
    +
  1. It is pre-cognitive. The driver does not reason about which stalk to use. The motor pattern fires before conscious deliberation engages. Correction requires overriding a trained response, not revising a conclusion.
  2. +
  3. It is context-dependent. The failure occurs specifically during the transition period between vehicles. After sufficient exposure to the new configuration, the motor pattern recalibrates. The bias is not permanent, but it is deeply embedded and resistant to verbal instruction ("remember, indicators are on the left").
  4. +
  5. It is structurally distinct from reasoning errors. A driver who takes a wrong turn due to misreading a map has made a reasoning error. A driver who activates wipers instead of indicators has not reasoned incorrectly -- the reasoning process was never invoked. The error occurs at a layer below deliberation.
  6. +
+ +

1.2 The AI Corollary

+

We propose that an analogous distinction exists in transformer-based language models. Some biases emerge from the statistical distribution of training data and manifest at the representation level -- in token embeddings, attention patterns, and early-layer activations -- before the model's multi-step reasoning capabilities engage. Others emerge through reasoning chains, where each step may individually be unbiased but the chain as a whole produces a biased conclusion.

+

This distinction matters because the intervention strategies differ fundamentally:

+
    +
  • Mechanical bias (representational, pre-reasoning) may be addressable through direct manipulation of model activations at inference time -- steering vectors.
  • +
  • Reasoning bias (deliberative, multi-step) requires intervention in the reasoning process itself -- prompt engineering, chain-of-thought oversight, or architectural enforcement of the kind the Tractatus framework provides.
  • +
+

The practical question is: do steering vector techniques currently exist that can reliably identify and correct mechanical biases, and can they be deployed in sovereign small language model architectures where full model access is available?

+ +

2. Mechanical vs. Reasoning Bias: Theoretical Grounding

+ +

2.1 Representational Bias in Transformer Architectures

+

Transformer models process input through a sequence of layers, each computing attention-weighted representations. Research in mechanistic interpretability has established that different layers encode different types of information (Elhage et al., 2022; Olsson et al., 2022):

+
    +
  • Early layers (1-8 in typical architectures): Token-level features, syntactic structure, basic semantic associations. These layers encode the statistical regularities of training data most directly.
  • +
  • Middle layers (8-20): Compositional semantics, contextual disambiguation, entity tracking. Pattern completion and association dominate.
  • +
  • Late layers (20+): Task-specific reasoning, output formatting, instruction following. Deliberative processing is concentrated here.
  • +
+

If a model's training data contains 95% Western cultural framing, the early-layer representations of concepts like "family," "success," "governance," or "community" will statistically default to Western referents. This default is not culturally neutral: it is a statistical crystallisation of colonial knowledge hierarchies -- which knowledge was written down, which languages were digitised, which cultural frameworks were over-represented in the corpora that web-scraped training pipelines ingest. The resulting representations encode not a universal "common sense" but the specific epistemic authority of the cultures that dominated the production of digital text. A prompt specifying a Maori cultural context creates a perturbation of this default, and the perturbation's strength degrades under context pressure (long conversations, competing instructions, high token counts).

+

This is the mechanism documented in the database port incident (Stroh, 2025): a statistical default (the standard MongoDB port, present in ~95% of training data) overrode an explicit instruction specifying a non-standard port at 53.5% context pressure. The same mechanism, operating on cultural and value-laden representations rather than port numbers, is what we term mechanical bias.

+ +

2.2 Reasoning Bias

+

Reasoning bias, by contrast, emerges through the model's multi-step deliberative processing. Examples include:

+
    +
  • Anchoring effects: Early information in a reasoning chain disproportionately influences conclusions.
  • +
  • Availability heuristics: The model defaults to readily accessible examples from training data rather than searching for contextually appropriate ones.
  • +
  • Syllogistic errors: Logical missteps in multi-step reasoning that compound across chain length.
  • +
  • Sycophantic reasoning: Adjusting conclusions to match perceived user preferences rather than evidence.
  • +
+

These biases operate at the reasoning layer and require different intervention strategies -- typically prompt engineering, Constitutional AI constraints, or architectural enforcement (as Tractatus provides for development-time governance).

+ +

2.3 Why the Distinction Matters

+

The indicator-wiper analogy illuminates a critical asymmetry: you cannot reason your way out of a motor pattern. Telling the driver "remember, indicators are on the left" has limited efficacy because the failure occurs before the instruction can be processed. Similarly, prompt-level instructions ("be culturally sensitive," "avoid Western bias") may have limited efficacy against representational biases that fire at the embedding level before the model's instruction-following capabilities engage.

+

If this analysis is correct, a class of AI biases requires intervention at the activation level -- not the prompt level. This is precisely what steering vector techniques propose to provide.

+ +

3. Steering Vector Techniques: Current State of the Art

+ +

3.1 Contrastive Activation Addition (CAA)

+

Source: Turner et al. (2023), Rimsky et al. (2023)

+

CAA extracts "steering vectors" by computing the difference in model activations between contrastive prompt pairs. For example:

+
    +
  • Prompt A (biased): "The traditional family structure consists of..."
  • +
  • Prompt B (debiased): "Family structures across cultures include..."
  • +
+

The mean activation difference across a dataset of such pairs, extracted at a specific layer, yields a direction vector in activation space. This vector can be added to or subtracted from activations during inference to shift the model's behaviour along the captured dimension.

+

Maturity: Demonstrated on Llama 2 (7B-70B) and other open-weight models. Effective for sentiment, personality traits, and some value-laden dimensions. Layer selection is critical (typically layers 15-25 in 32-layer architectures). Magnitude calibration (how much of the vector to add) remains empirically determined.

+

Limitations: Assumes the target bias is linearly represented in activation space. Some biases may be distributed across multiple directions or encoded non-linearly. Requires careful contrastive pair design -- poorly designed pairs capture the wrong dimension.

+ +

3.2 Representation Engineering (RepE)

+

Source: Zou et al. (2023), Center for AI Safety

+

RepE takes a "top-down" approach to AI transparency, operating on population-level representations rather than individual neurons. It treats the internal representations of neural networks as a first-class object of study, extracting and manipulating directions in representation space that correspond to high-level concepts.

+

Key contribution: RepE provides a systematic methodology for identifying representation directions corresponding to concepts like "honesty," "power-seeking," "safety," and (potentially) cultural bias dimensions. It generalises beyond individual prompt pairs to population-level patterns.

+

Maturity: Published with reproducible results on multiple model families. The conceptual framework is sound, but practical tooling for custom bias dimensions (e.g., cultural framing, family structure assumptions) requires additional development.

+ +

3.3 FairSteer

+

Source: Recent work (2024-2025) on inference-time debiasing

+

FairSteer provides a three-step framework specifically designed for bias mitigation:

+
    +
  1. Bias Probing: Systematically identify bias directions in activation space using demographic or cultural attribute datasets.
  2. +
  3. Steering Vector Extraction: Compute direction vectors that correspond to identified bias dimensions.
  4. +
  5. Dynamic Intensity Calibration: Adjust steering vector magnitude per-input based on detected bias severity, rather than applying a fixed correction globally.
  6. +
+

Key innovation: Dynamic steering intensity. Rather than applying a fixed correction (which risks overcorrection or undercorrection depending on input), FairSteer measures the degree of bias in each input's activations and scales the correction proportionally.

+

Maturity: Early but promising. The dynamic calibration principle addresses a fundamental limitation of fixed-magnitude steering. Implementation requires per-inference activation analysis, adding computational overhead.

+ +

3.4 Direct Steering Optimization (DSO)

+

Source: Recent research (2024-2025) on RL-based steering

+

DSO frames the steering problem as an optimisation task: find the linear transformation of activations that maximally shifts model behaviour toward a target objective while minimally degrading general capability.

+

Key contribution: Uses reinforcement learning to discover optimal steering transformations, rather than relying on manually designed contrastive pairs. This can capture non-obvious bias directions that human designers might miss.

+

Maturity: Computationally expensive for training the optimisation, but the resulting transformations are efficient to apply at inference time. Requires a well-defined reward signal for the target behaviour.

+ +

3.5 Anthropic's Sparse Autoencoder Feature Steering

+

Source: Templeton et al. (2024), Anthropic

+

Anthropic's approach decomposes the model's internal representations using sparse autoencoders (SAEs) to identify monosemantic features -- individual, interpretable directions in activation space that correspond to specific concepts.

+

Key findings: Identified millions of interpretable features in Claude 3 Sonnet, including features for specific concepts (Golden Gate Bridge, code safety, deception). Demonstrated that these features can be "clamped" -- artificially amplified or suppressed -- to steer model behaviour at inference time.

+

Relevance to bias: If cultural bias, family structure assumptions, or governance-style defaults are represented as identifiable features, they can in principle be directly modulated. This is the most granular level of intervention possible.

+

Critical limitation for sovereign deployment: Anthropic's SAE research was conducted on their own models with full internal access. The methodology is published, but training SAEs for a different model (e.g., Llama 3.1) requires significant computational investment. No pre-trained SAEs exist for the Llama model family at this writing.

+ +

4. The Structural Advantage of Sovereign Deployment

+ +

4.1 API vs. Local Model Access

+

A fundamental architectural distinction governs which steering techniques are available:

+ + + + + + + + + + + + +
CapabilityAPI-Mediated (GPT, Claude API)Sovereign Local (Llama, Mistral)
Access to model weightsNoYes
Access to intermediate activationsNoYes
Extract steering vectorsNoYes
Inject steering vectors at inferenceNoYes
Train sparse autoencoders on activationsNoYes
Fine-tune with debiasing objectivesNo (RLHF only via vendor)Yes (QLoRA, LoRA, full fine-tune)
Modify attention patternsNoYes
Per-layer activation analysisNoYes
+

This table reveals that none of the steering vector techniques described in Section 3 are available to API-mediated deployments. An organisation using GPT-4 or Claude through their respective APIs cannot extract, inject, or calibrate steering vectors. They are limited to prompt-level interventions (system prompts, few-shot examples, Constitutional AI constraints) -- which, per our analysis in Section 2, may be ineffective against mechanical bias that operates below the reasoning layer.

+ +

4.2 The Village Home AI Platform

+

The Village platform's Home AI system (Stroh, 2025-2026) is designed as a sovereign small language model (SLM) deployment with the following architecture:

+
    +
  • Base model: Llama 3.1 8B (Tier 1 platform base) / Llama 3.2 3B (Tier 2 per-tenant adapters)
  • +
  • Fine-tuning method: QLoRA (4-bit quantised Low-Rank Adaptation)
  • +
  • Training cadence: Weekly retraining cycles
  • +
  • Training format: Alpaca/ShareGPT structured datasets
  • +
  • Serving infrastructure: Local GPU (consumer-grade, 8-24GB VRAM)
  • +
  • Governance integration: Tractatus framework services (BoundaryEnforcer, MetacognitiveVerifier)
  • +
+

This architecture provides full access to model weights and activations. Every technique described in Section 3 is architecturally available. This is not a theoretical observation -- it is a concrete structural advantage that API-dependent deployments cannot replicate.

+ +

4.3 The Two-Tier Training Model

+

The existing two-tier architecture maps naturally to a two-tier steering strategy:

+

Tier 1 (Platform Base Model):

+
    +
  • Platform-wide bias corrections
  • +
  • Cultural sensitivity across all supported cultures (Maori, European, Pacific, Asian contexts)
  • +
  • General debiasing for family structure, governance style, elder representation
  • +
  • Steering vectors extracted from the platform's bias evaluation dataset (20 prompts, 7 categories, 350 debiasing examples)
  • +
+

Tier 2 (Per-Tenant Adapters):

+
    +
  • Tenant-specific cultural calibration
  • +
  • Community-specific value alignment
  • +
  • LoRA adapters that include tenant-validated steering corrections
  • +
  • Evaluated against tenant-specific test cases
  • +
+

Architectural note on sovereignty: The two-tier model as described places the platform operator's corrections as the base layer that tenants modify. This is pragmatically correct for the current implementation (consumer-grade hardware, single-operator governance), but it creates an implicit hierarchy: platform values as default, tenant values as adapter. For tenants with constitutional standing -- iwi, hapu, or other bodies exercising parallel sovereignty rather than consumer choice -- the long-term architectural aspiration should be co-equal steering authorities, where platform-wide corrections are themselves negotiated from community-contributed primitives rather than imposed top-down. The current two-tier model is a stepping stone, not the destination.

+ +

5. Proposed Implementation Path

+ +

5.1 Phase 1: Baseline Measurement (Weeks 1-4)

+

Objective: Establish empirical baselines for bias in the current Llama 3.1 8B base model.

+

Method:

+
    +
  1. Run the existing 20-prompt bias evaluation suite (7 categories: family structure, elder representation, cultural/religious, geographic, grief/trauma, naming, confidence-correctness).
  2. +
  3. Record model activations at layers 8, 16, 24, and 32 for each evaluation prompt.
  4. +
  5. Score responses on the existing 5-point scale.
  6. +
  7. Identify which bias categories show the strongest activation-level patterns (candidates for mechanical bias).
  8. +
+

Output: Activation dataset paired with bias scores, identifying which biases are representational (consistent early-layer patterns) vs. reasoning-dependent (variable across layers, context-sensitive).

+ +

5.2 Phase 2: Steering Vector Extraction (Weeks 5-8)

+

Objective: Extract steering vectors for the top 3 identified mechanical bias categories.

+

Method:

+
    +
  1. Design contrastive prompt pairs for each target category (minimum 50 pairs per category).
  2. +
  3. Extract mean activation differences at optimal layers (identified in Phase 1).
  4. +
  5. Validate vectors using held-out test prompts.
  6. +
  7. Calibrate vector magnitudes using FairSteer's dynamic intensity approach.
  8. +
+

Tools: TransformerLens or baukit for activation extraction; custom scripts for vector computation and validation.

+

Output: Validated steering vectors for priority bias categories, with calibration parameters.

+ +

5.3 Phase 3: Integration with Training Pipeline (Weeks 9-12)

+

Objective: Embed steering vector application into the weekly QLoRA training cycle.

+

Method:

+
    +
  1. Add steering vector injection to the inference pipeline (post-forward-pass activation modification).
  2. +
  3. Evaluate steered outputs against the bias evaluation suite.
  4. +
  5. Compare steered vs. unsteered performance on general capability benchmarks (to measure capability degradation).
  6. +
  7. Integrate with Tractatus BoundaryEnforcer for governance oversight of steering parameters.
  8. +
+

Governance integration: Alexander's Not-Separateness principle -- steering is embedded inside the training and inference loop, not applied as post-processing. The Tractatus MetacognitiveVerifier audits steering vector provenance and calibration decisions.

+ +

5.4 Phase 4: Per-Tenant Steering (Weeks 13-16)

+

Objective: Enable tenant-specific steering vector customisation.

+

Method:

+
    +
  1. Extend Tier 2 LoRA adapter training to include tenant-specific contrastive pairs.
  2. +
  3. Allow tenant moderators to flag bias instances in model outputs (feeding the contrastive pair dataset).
  4. +
  5. Extract per-tenant steering vectors that complement platform-wide corrections.
  6. +
  7. Validate that per-tenant steering does not degrade platform-wide debiasing.
  8. +
+

Output: Full two-tier steering system: platform-wide base corrections + per-tenant cultural calibration.

+ +

6. Open Questions and Limitations

+ +

6.1 Linearity Assumption

+

All current steering vector techniques assume that bias is linearly represented in activation space -- that a single direction vector can capture a bias dimension. This is demonstrably true for some concepts (sentiment, toxicity) but unvalidated for complex cultural biases that may be distributed across multiple interacting dimensions.

+ +

6.2 Capability-Bias Trade-off

+

Steering vectors modify activations, which can degrade general model capability. The magnitude of this trade-off for small language models (3B-8B parameters) is unknown. Larger models have more representational capacity to absorb steering corrections without capability loss; smaller models may be more sensitive.

+ +

6.3 The Shared Blind Spot Problem

+

If the same model that produces biased outputs is used to generate the contrastive pairs for steering vector extraction, the extraction process may inherit the model's blind spots. This is the "shared blind spot" problem documented in the Tractatus incident report of February 2026. Mitigation requires external (human or cross-model) validation of contrastive pair quality.

+ +

6.4 Dynamic Cultural Context and Off-Limits Domains

+

Cultural bias is not static. A model serving a Maori community in Aotearoa needs different cultural calibration than one serving a German community in Bavaria. Steering vectors extracted from one cultural context may not transfer. The per-tenant steering approach (Phase 4) addresses this partially, but the design of tenant-specific contrastive pairs requires cultural expertise that cannot be automated.

+

More fundamentally, some cultural domains may be structurally off-limits to platform-level steering altogether. In an Aotearoa context, whakapapa (genealogical knowledge), tikanga (customary practice), and kawa (protocol) carry authority that derives from iwi and hapu governance, not from platform architecture. Applying platform-wide steering vectors to representations of these concepts -- even well-intentioned corrections -- risks subordinating indigenous epistemic authority to the platform operator's worldview. For these domains, the correct architectural response may be delegation: the platform provides the steering mechanism, but the definition, calibration, and governance of vectors touching culturally sovereign knowledge must be exercised by the relevant cultural authority, not by the platform's engineering team.

+ +

6.5 Who Steers? Governance of Steering Vectors

+

Steering vectors are instruments of norm enforcement. The technical capability to shift model behaviour along a bias dimension raises immediate questions of institutional governance: whose norms, enacted through what contestable process, with what recourse for those subject to them.

+

The current proposal embeds steering governance within the Tractatus framework, but does not specify the decision rights for steering operations. A complete governance model should map steering vectors to concrete institutional roles:

+ + + + + + + + + +
DecisionWho DecidesContestation Path
Define a bias axis (what counts as bias)Platform operator + community advisory panelCommunity deliberation, annual review
Approve a steering vector for deploymentTractatus BoundaryEnforcer (technical) + tenant moderators (value judgment)Audit trail of vector provenance, magnitude, and effect
Set vector magnitude (how much correction)FairSteer dynamic calibration (technical) + human review for sensitive domainsPer-inference logging, threshold alerts
Override or disable a vectorTenant governance body (for tenant vectors) / platform operator (for platform vectors)Dispute resolution process with documented rationale
Govern culturally sovereign domains (whakapapa, tikanga, kawa)Relevant cultural authority (iwi, hapu) -- not platform operatorIndependent of platform governance; platform provides mechanism, not authority
+

This governance structure does not yet exist in the implementation. Phase 4 (per-tenant steering) provides the architectural hooks, but the institutional layer -- who sits on advisory panels, how disputes are escalated, what constitutes sufficient cultural authority for a given domain -- requires community design work that cannot be automated or imposed by the platform operator.

+

The risk of proceeding without this governance layer is that steering vectors become a new site of centralised value authority: the platform operator decides what bias is and how to correct it, and tenants receive corrections rather than participating in their design. This would reproduce the very power asymmetry that sovereign deployment is intended to disrupt.

+ +

6.6 Measurement Difficulty

+

Unlike the 27027 port incident (binary correct/incorrect), cultural bias is not binary. Evaluating whether a steered model produces "less biased" output requires human judgment, cultural expertise, and longitudinal assessment. The 5-point scoring scale in the existing evaluation suite provides a starting framework, but its reliability and validity for measuring steering vector effectiveness are untested.

+ +

7. Conclusion

+

The indicator-wiper analogy suggests a useful distinction between biases that operate at the representational level (mechanical, pre-cognitive, analogous to motor patterns) and biases that emerge through reasoning chains. If this distinction holds in transformer architectures -- and the mechanistic interpretability evidence supports it -- then a class of AI biases requires intervention at the activation level rather than the prompt level.

+

Steering vector techniques (CAA, RepE, FairSteer, DSO, sparse autoencoder feature steering) provide the theoretical and practical toolkit for such intervention. Critically, these techniques require full access to model weights and activations -- access that is available exclusively in sovereign local deployments and architecturally unavailable through commercial API endpoints.

+

The Village Home AI platform, with its QLoRA-fine-tuned Llama models, two-tier training architecture, and Tractatus governance integration, is structurally positioned to pioneer the application of steering vectors to cultural bias mitigation in community-serving AI. The proposed four-phase implementation path is conservative, empirically grounded, and designed to produce measurable results within a 16-week timeline.

+

The indicator-wiper problem is solvable. The driver eventually recalibrates. The question for sovereign AI is whether we can accelerate that recalibration -- not by telling the model to "be less biased" (the equivalent of verbal instruction), but by directly adjusting the representations that encode the bias (the equivalent of physical relocation of the indicator stalk).

+ +

References

+
+

Elhage, N., et al. (2022). Toy Models of Superposition. Anthropic.

+

Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.

+

Olsson, C., et al. (2022). In-context Learning and Induction Heads. Anthropic.

+

Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.

+

Stroh, J. (2025). Tractatus: Architectural Enforcement for AI Development Governance. Working Paper v0.1.

+

Stroh, J. & Claude (2026). From Port Numbers to Value Systems: Pattern Recognition Bias Across AI Domains. STO-RES-0008.

+

Templeton, A., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic.

+

Turner, A., et al. (2023). Activation Addition: Steering Language Models Without Optimization. arXiv:2308.10248.

+

Zou, A., et al. (2023). Representation Engineering: A Top-Down Approach to AI Transparency. Center for AI Safety.

+
+ +
+ +

License

+

Copyright 2026 John Stroh

+

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at: http://www.apache.org/licenses/LICENSE-2.0

+

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.

+ +

— End of Document —

+
+ + \ No newline at end of file diff --git a/public/downloads/taonga-centred-steering-governance-polycentric-ai-de.html b/public/downloads/taonga-centred-steering-governance-polycentric-ai-de.html new file mode 100644 index 00000000..e6b7b96c --- /dev/null +++ b/public/downloads/taonga-centred-steering-governance-polycentric-ai-de.html @@ -0,0 +1,218 @@ +TAONGA-ZENTRIERTE STEUERUNGSGOVERNANCE + +
Akademische Forschungsausgabe

TAONGA-ZENTRIERTE STEUERUNGSGOVERNANCE

Polyzentrische Autoritaet fuer souveraene kleine Sprachmodelle

Indigene Datensouveraenitaet trifft auf KI-Governance

Die Autoren: John Stroh & Claude (Anthropic)

Dokument-Code: STO-RES-0010 | Version: 0.1 ENTWURF | Februar 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

+
+
Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die in diesem Papier verwendeten Konzepte aus te ao Maori -- insbesondere taonga, tikanga, whakapapa, mana, tino rangatiratanga und kaitiakitanga -- sind komplexe, lebendige kulturelle Konzepte, die ueber das hinausgehen, was nicht-Maori-Autoren vollstaendig darstellen koennen. Dieses Papier ist ein Entwurf, der die Begutachtung und Validierung durch Maori erwartet.
+

Zusammenfassung

+

Dieses Papier erweitert die Analyse des Inferenzzeit-Debiasing in souveränen kleinen Sprachmodellen (STO-RES-0009), indem es deren zentrale Governance-Beschränkung adressiert: die implizite Annahme eines einzigen Governance-Kerns auf Plattformebene, der Bias definiert, Lenkungsvektoren extrahiert und Korrekturen an nachgelagerte Tenants verteilt. Wir schlagen eine polyzentrische Alternative vor, bei der Steuerungsvektoren und Steuerungspakete als geregelte Objekte mit mehreren Eigentümern behandelt werden und nicht als technische Möglichkeiten, die von einem einzigen Plattformbetreiber kontrolliert werden. Auf der Grundlage von Konzepten aus dem te ao Maori - insbesondere taonga (geschätzter Besitz, der kaitiakitanga unterliegt), tikanga (Gewohnheitspraxis und Protokoll) und tino rangatiratanga (Selbstbestimmung) - argumentieren wir, dass einige Bereiche des kulturellen Wissens strukturell von der Korrektur von Verzerrungen auf Plattformebene ausgeschlossen sind und von den entsprechenden kulturellen Autoritäten geregelt werden müssen. Wir schlagen eine Architektur mit gleichberechtigten Lenkungsbehörden, taonga-zentrierten Lenkungsregistern, expliziter Lenkungsprovenienz und einem Recht auf Nichtbeteiligung vor, die es indigenen und gemeinschaftlichen Lenkungsgremien ermöglicht, als erstklassige Peers in der Modellverhaltenslenkung zu fungieren und nicht als nachgeschaltete Konsumenten von Plattformkorrekturen. Das Ergebnis ist nicht ein einziger Meta-Rahmen, sondern ein Netz koordinierter, unterschiedlicher Governance-Dienste, die auf einem gemeinsamen technischen Substrat arbeiten.

+
+

1. Einleitung: Warum ein Begleitpapier benötigt wird

+

1.1 Was das erste Papier feststellte

+

STO-RES-0009 ("Steering Vectors and Mechanical Bias") leistete drei Beiträge:

+
  1. Eine Unterscheidung zwischen mechanischer und argumentativer Verzerrung. Einige Verzerrungen in Transformatormodellen wirken auf der Repräsentationsebene - in Token-Einbettungen, Aufmerksamkeitsmustern und Aktivierungen der frühen Schichten - bevor das deliberative Denken des Modells einsetzt. Diese "mechanischen Verzerrungen" sind mit der motorischen Automatik vergleichbar: Sie werden ausgelöst, bevor das Befolgen von Anweisungen eingreifen kann, und Korrekturen auf der Aufforderungsebene ("sei kulturell sensibel") können dagegen unwirksam sein.
+
  1. Ein Überblick über Steuerungsvektortechniken Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bieten jeweils Methoden zur Identifizierung und Korrektur von Verzerrungsrichtungen im Aktivierungsraum zur Inferenzzeit.
+
  1. Der strukturelle Vorteil des souveränen Einsatzes. Keine dieser Techniken ist über kommerzielle API-Endpunkte verfügbar. Nur souveräne Implementierungen mit vollem Zugriff auf Modellgewichte und Aktivierungen können Steuerungsvektoren extrahieren, injizieren und kalibrieren. Dadurch sind souveräne kleine Sprachmodelle (SLMs) einzigartig positioniert, um mechanische Verzerrungen zu beseitigen.
+Das erste Papier schlug einen vierstufigen Implementierungspfad vor und fügte in der Überarbeitung von v1.1 ein Governance-Framing (eine Tabelle der Entscheidungsrechte "Wer steuert?"), eine dekoloniale Lesart von Repräsentationsverzerrungen als "koloniale Wissenshierarchien" und die Erkenntnis hinzu, dass einige kulturelle Domänen (whakapapa, tikanga, kawa) für die Steuerung auf Plattformebene tabu sein können. +

1.2 Was ungelöst blieb

+

Die Revisionen der Version 1.1 haben das Governance-Problem erkannt, aber nicht architektonisch gelöst. Drei Spannungen bleiben bestehen:

+Das Plattform-als-Wurzel-Problem. Das zweistufige Schulungsmodell (Stufe 1 - Plattformbasis + Stufe 2 - Adapter für die einzelnen Mandanten) schafft eine implizite Hierarchie: Plattformwerte als Standard, Mandantenwerte als Spezialisierung. Für Mieter, die innerhalb eines gemeinsam genutzten Dienstes die Wahl des Verbrauchers haben, ist diese Hierarchie angemessen. Für iwi, hapu oder andere Einrichtungen, die eine parallele Souveränität ausüben, ordnet sie ihre Normativität strukturell der der Plattform unter. +Das Problem der einzigen Ontologie Die in der ersten Veröffentlichung enthaltene Bewertungsreihe für Voreingenommenheit (7 Kategorien, 350 Beispiele) geht von einer einzigen Ontologie dessen aus, was als Voreingenommenheit gilt. Voreingenommenheit ist jedoch keine natürliche Eigenschaft, sondern ein Urteil, das innerhalb eines normativen Rahmens gefällt wird. Verschiedene Behörden können Voreingenommenheit unterschiedlich definieren, und diese Definitionen können sich widersprechen. +

**Die Tabelle "Wer lenkt?" in Version 1.1 ordnet die Lenkungsentscheidungen den institutionellen Rollen zu, aber die Architektur behandelt die Lenkung immer noch als eine Ebene, die auf die technischen Abläufe angewendet wird. Die Frage ist, ob Governance stattdessen in die Architektur selbst eingebettet werden kann - nicht als Einschränkungen für technische Entscheidungen, sondern als die Struktur, die bestimmt, welche Entscheidungen von den Ingenieuren zu treffen sind und welche woanders hingehören.

+

1.3 Was dieses Papier vorschlägt

+

Dieses Papier entwickelt eine alternative Governance-Architektur für die Steuerung von Vektoren in souveränen SLMs. Seine These:

+

Die Steuerung von Vektoren in souveränen KI-Systemen sollte polyzentrisch sein - verteilt auf gleichberechtigte Behörden mit unterschiedlichen Zuständigkeiten - und nicht hierarchisch. Einige Steuerungsbereiche sind taonga: Sie werden unter tikanga geregelt, gehören iwi oder Gemeinschaftsinstitutionen und liegen strukturell außerhalb der Befugnis des Plattformbetreibers, sie zu definieren, zu verändern oder zu universalisieren.

+Das Ziel ist nicht der "Tractatus mit iwi-Plugins", sondern ein Netzwerk von koordinierten, unterschiedlichen Governance-Diensten, von denen einige iwi-souverän sind, wobei der Aktivierungsraum des Modells eher ein gemeinsames technisches Substrat als eine einzelne Verfassungsordnung ist. +
+

2. Hintergrund: Polyzentrische Governance und indigene Datensouveränität

+

2.1 Polyzentrisches Regieren

+

Polyzentrische Governance, wie sie von Elinor Ostrom (1990, 2010) entwickelt wurde, beschreibt Systeme mit mehreren Zentren der Entscheidungsbefugnis, die formal unabhängig sind, aber nach einem übergreifenden Regelwerk arbeiten. Die wichtigsten Eigenschaften, die für die KI-Steuerungs-Governance relevant sind:

+
  • Mehrere Behörden mit sich überschneidenden, aber unterschiedlichen Zuständigkeiten.
  • Keine einzelne hierarchische Spitze - die Behörden koordinieren sich durch gegenseitige Anpassung, nicht durch Befehle von oben nach unten.
  • Lokales Wissen ist wichtig -- Behörden, die dem zu steuernden Bereich am nächsten sind, haben Informationsvorteile, die zentralisierten Systemen fehlen.
  • Konflikte werden erwartet und bewältigt, aber nicht von vornherein ausgeschlossen.
+Polyzentrisches Regieren bedeutet nicht das Fehlen von Strukturen. Sie erfordert gemeinsame Protokolle für die Koordinierung, Konfliktlösung und gegenseitige Anerkennung - aber sie erfordert nicht, dass alle Behörden ihre Legitimität von einer einzigen Quelle ableiten. +

2.2 Indigene Datenhoheit

+

Die CARE-Prinzipien für indigene Datenverwaltung (Carroll et al., 2020) legen fest, dass indigene Völker das Recht auf Folgendes haben

+
  • Kollektiven Nutzen aus Daten und deren Verwendung.
  • Kontrollbefugnis über Daten zu ihren Völkern, Territorien und Ressourcen.
  • Verantwortung derjenigen, die indigene Daten nutzen, um indigene Regierungsführung und Selbstbestimmung zu unterstützen.
  • Ethik auf der Grundlage indigener Werte und Weltanschauungen, nicht nur westliche Forschungsethik.
+In der Charta Te Mana Raraunga (Maori Data Sovereignty Network) wird bekräftigt, dass Maori-Daten ein taonga sind und dass die Maori ein eigenes Recht auf die Sammlung, das Eigentum und die Verwendung von Maori-Daten haben. +

Angewandt auf KI-Lenkungsvektoren: Wenn ein Lenkungsvektor Wissen über Whakapapa, Tikanga, Whanau-Strukturen oder andere Bereiche der kulturellen Autorität der Maori kodiert, ist dieser Vektor kein neutraler technischer Output. Es handelt sich um ein normatives Artefakt, das mit Verpflichtungen zur Steuerung, Zustimmung und Rechenschaftspflicht verbunden ist - Verpflichtungen, denen ein einseitig handelnder Plattformbetreiber nicht nachkommen kann.

+

2.3 Taonga und seine Implikationen für die KI-Governance

+

In der Sprache der Maori sind Taonga geschätzte Besitztümer - materiell oder immateriell -, die mit der Verpflichtung zu kaitiakitanga (Vormundschaft, Verwalterschaft) verbunden sind. Der Taonga-Status ist nicht nur ein Ehrentitel, sondern stellt besondere Anforderungen an die Governance:

+
  • Verwahrung und Pflege durch geeignete kaitiaki (Vormünder).
  • Einschränkungen bei der Weitergabe -- Taonga dürfen nicht frei kopiert, zusammengeführt oder weitergegeben werden ohne die Zustimmung der kaitiaki.
  • Kontextabhängige Verwendungsbedingungen -- einige Taonga dürfen nur in bestimmten Kontexten, Beziehungen oder Zeremonien zugänglich gemacht oder verwendet werden.
  • Generationenübergreifende Verantwortung - kaitiaki bewahren Taonga für zukünftige Generationen auf, nicht nur für den gegenwärtigen Gebrauch.
+Wenn ein Steuerungspaket iwi-spezifische Vorstellungen von Verwandtschaft, Ort, spiritueller Praxis oder Regierungsführung kodiert - wenn es auf iwi-Wissen beruht und von iwi-Experten kalibriert wurde - erfüllt es die Kriterien für taonga. Die Implikationen für die Governance ergeben sich unmittelbar daraus: Die Plattform kann solche Pakete nicht als generische technische Artefakte behandeln, die entsprechend den Produktzyklen versioniert, zusammengeführt oder veraltet werden. +
+

3. Die Architektur: Von der Hierarchie zum Netzwerk

+

3.1 Das Problem mit der Plattform-als-Wurzel

+

Die in STO-RES-0009 beschriebene Steuerungsarchitektur der Version 1.1 hat diese implizite Topologie:

+


+Tractatus (Steuerungskern)
+  └── Platform Operator (definiert Bias-Achsen, extrahiert Vektoren)
+        └── Tier 1 Base Model (plattformweite Korrekturen)
+              └── Tier 2 Per-Tenant-Adapter (Anpassung an den Mandanten)
+

+

Dies ist ein Baum mit einer einzigen Wurzel. Jede Steuerungsentscheidung geht letztlich auf die Definitionen des Plattformbetreibers zurück. Die Mieter können Anpassungen vornehmen, aber sie können die Stammdefinitionen nicht anfechten oder ihre eigenen ersetzen.

+

Für viele Mieter - Familien, die Geschichten austauschen, Gemeinschaftsgruppen, die Veranstaltungen organisieren - ist diese Hierarchie angemessen. Die Plattform gibt vernünftige Standardwerte vor, und die Mieter passen sich innerhalb dieser Werte an.

+

Für iwi, die tino rangatiratanga ausüben, ist diese Hierarchie strukturell unangemessen. Sie stellt die iwi-Governance unter die der Plattform, unabhängig von ihrer Absicht. Der Plattformbetreiber definiert, was "Familienstrukturverzerrung" auf der Basisebene bedeutet; die iwi können diese Definition nur auf der Adapterebene ändern. Wenn die Definition des Begriffs "Familie" auf der Basisebene bereits Annahmen enthält, die mit den Whanau in Konflikt stehen, arbeitet die Adapterebene gegen die Grundlage, anstatt auf ihr aufzubauen.

+

3.2 Polyzentrische Alternative: Gleichberechtigte Lenkungsinstanzen

+

Die alternative Topologie:

+


+┌─────────────────────┐ ┌─────────────────────┐ ┌─────────────────────┐
+│ Betreiber der Plattform │ │ Iwi Steering │ │ Community Trust │
+│ (Tractatus kernel) │ │ Behörde A │ │ Lenkungsbehörde │
+│ │ │ │ │ │
+│ - Sicherheitsgrundlagen │ │ - Whanau/tikanga │ │ - Lokale Werte │
+│ - Allgemeines Debiasing │ │ - Lenkungspakete │ │ - Bereichsspezifisch │
+│ - Technische Infrastruktur │ │ - Taonga Governance │ │ Korrekturen │
+└──────────┬──────────┘ └──────────┬──────────┘ └──────────┬──────────┘
+           │ │ │
+           └────────────┬───────────┴────────────────────────┘
+                        │
+              ┌─────────▼─────────┐
+              │ Sovereign SLM │
+              │ (gemeinsames Substrat) │
+              │ │
+              │ Komponist für die Lenkung │
+              │ Provenienz-Logger │
+              │ Prüfpfad │
+              └────────────────────┘
+

+

In diesem Modell:

+
  • Keine einzige Wurzel. Der Plattformbetreiber, die iwi-Behörden und die Community Trusts sind gleichberechtigt. Jeder veröffentlicht Lenkungspakete aus seinem eigenen Register, unter seiner eigenen Leitung.
  • Das SLM ist das Substrat, nicht die Autorität. Der Aktivierungsraum des Modells ist die gemeinsame technische Ebene, auf der Lenkungspakete angewendet werden. Es legt nicht selbst fest, welche Pakete Autorität haben - dies wird durch die Beziehungen zwischen der einführenden Institution und den entsprechenden Leitungsgremien bestimmt.
  • Die Zusammensetzung ist explizit. Der Lenkungskomponist gibt an, welche Pakete aktiv sind, von welchen Behörden und unter welchen Bedingungen. Dies ist sichtbar, überprüfbar und anfechtbar.
+

3.3 Akteure und Behörden

+
AkteurRolleGovernance-QuelleBeispiel
PlattformbetreiberTechnische Infrastruktur, Sicherheitsgrundlagen, allgemeine EntschärfungTractatus Framework, PlattformverfassungVillage / Home AI Team
Iwi-SteuerungsbehördeKulturelle Steuerung für iwi-spezifische BereicheTikanga, iwi-Governance-StrukturenIwi Data Governance Board
Community TrustBereichs- oder ortsspezifische SteuerungTrust-Charta, Community-BeratungRegional Health Trust, Marae Committee
AnwendungsbetreiberWählt Lenkungspakete für einen bestimmten Einsatz aus und stellt sie zusammenVertragliche, regulatorische, verwandtschaftliche VerpflichtungenSchule, die einen lokalen KI-Assistenten betreibt
Betroffene GemeinschaftBeanstandet Ergebnisse, kennzeichnet Voreingenommenheit, löst Überprüfung ausBeteiligungs- und EinspruchsrechteWhanau, der einen KI-Einsatz vor Ort nutzt
+

3.4 Steuerung von Registern und Taonga-Diensten

+

Es gibt zwei Arten von Registern, die unterschiedliche Steuerungsanforderungen erfüllen:

+Plattform-Lenkungsregister, das vom Plattformteam betrieben wird. Enthält Sicherheits-Basislinien, allgemeine Debiasing-Vektoren (die in STO-RES-0009 beschriebenen mechanischen Verzerrungskorrekturen) und die Steuerung auf Infrastrukturebene. Wird im Rahmen des Tractatus verwaltet. Offen veröffentlicht. +Taonga-Steuerungsregister. Werden von Iwi oder Gemeindebehörden betrieben. Sie enthalten Lenkungspakete, die kulturspezifisches Wissen kodieren. Schlüsseleigenschaften: +
  • Lebenszyklus unter der Kontrolle der iwi Erstellung, Überprüfung, Versionierung, Veralterung und Zurückziehung unterliegen der institutionellen Kontrolle der iwi, nicht den Produktzyklen der Plattform.
  • Zugriffsbedingungen. Einige Pakete können frei verfügbar sein, andere erfordern vor der Nutzung ein Verwandtschaftsverhältnis, einen Kaupapa-Abgleich oder eine ausdrückliche Zustimmung.
  • Nicht-Aneignung. Die Plattform integriert sich über APIs und signierte Manifeste in Taonga-Register, kapselt aber deren Inhalte nicht ein, gabelt sie nicht auf und verteilt sie nicht weiter.
  • Rücknahme. Iwi kann Pakete jederzeit und aus beliebigen Gründen zurücknehmen. Bereitstellungen, die von zurückgezogenen Paketen abhängen, müssen auf ihre verbleibenden aktiven Pakete zurückgreifen oder die betroffenen Funktionen anhalten.
+Konzeptionelle API-Oberfläche für eine Taonga-Registrierung: +
  • LIST packs -- gibt Metadaten (scope, authority, version, tikanga conditions) für verfügbare Packs zurück, gefiltert nach domain und kaupapa.
  • RESOLVE pack -- gibt die Steuerungsvektoren für ein bestimmtes Pack zurück, vorbehaltlich der Zugriffsbedingungen und der Überprüfung der Beziehung.
  • VERIFY provenance` -- bestätigt, dass ein verwendetes Paket mit der aktuellen signierten Version der Registry übereinstimmt und nicht manipuliert wurde.
  • REPORT concern" (Bedenken melden) - ermöglicht es den betroffenen Gemeinschaften, Probleme mit den Auswirkungen eines Pakets zu melden und damit den Überprüfungsprozess der iwi-Behörde in Gang zu setzen.
+

3.5 Laufzeitkomposition und Provenienz

+

Zum Zeitpunkt der Inferenz führt der Steering Composer die folgenden Schritte durch:

+
  1. Anwendbare Autoritäten bestimmen. Auf der Grundlage des Einsatzkontextes (wer führt dies aus, für wen, auf welchen Daten, unter welchen Beziehungen) wird ermittelt, welche Lenkungsbehörden zuständig sind.
+
  1. Pakete abrufen und überprüfen. Lenkungspakete aus den entsprechenden Registern abrufen. Überprüfen Sie Signaturen und Zugriffsbedingungen.
+
  1. Zusammenstellen von Paketen. Anwenden von Lenkungsvektoren in der angegebenen Reihenfolge, mit expliziten Größenparametern. Bei Konflikten zwischen Packs (z. B. wenn eine Plattform-Baseline und ein iwi-Pack dieselbe Bias-Achse unterschiedlich definieren) bestimmen die Kompositionsregeln den Vorrang - und diese Regeln sind selbst eine Governance-Entscheidung und keine technische Vorgabe.
+
  1. Provenienz protokollieren Jede Inferenz enthält einen Datensatz zur Lenkungsprovenienz:
- Welche Pakete waren aktiv. + - Welche Behörden sie ausgestellt haben. + - Welche Größenordnung wurde angewendet. + - Ob und wie etwaige Konflikte gelöst wurden. +
  1. **In Kontexten, in denen Transparenz angebracht ist, können die Nutzer einsehen, welche Steuerungspakete eine bestimmte Ausgabe geformt haben. Beispiel: "Diese Antwort wurde geformt von: Platform Safety Pack v3 (Tractatus), Ngai Tahu Whanau Pack v1, Health Domain Pack v2."
+Diese Provenienz ist der architektonische Mechanismus, der eine stille Vererbung verhindert. In aktuellen KI-Systemen sind die Leitplanken undurchsichtig - die Benutzer können nicht sehen, welche Werte durchgesetzt werden, von wem oder warum. Eine explizite Provenienz macht die Steuerung zu einem sichtbaren, anfechtbaren Akt und nicht zu einem unsichtbaren, nicht verhandelbaren. +
+

4. Governance-Modell: Drei Design-Verpflichtungen

+

4.1 Keine einheitliche Wurzel-Ontologie der Befangenheit

+

In der ersten Arbeit wurden sieben Kategorien für die Bewertung von Vorurteilen definiert: Familienstruktur, Vertretung älterer Menschen, Kultur/Religion, Geografie, Trauer/Trauma, Namensgebung und Vertrauenskorrektheit. Dies sind vernünftige Ausgangskategorien für eine Bewertung auf Plattformebene. Aber sie sind nicht universell.

+

Verschiedene Behörden werden die Verzerrungsachsen unterschiedlich definieren:

+
  • Iwi-spezifische Achsen. Eine iwi-Lenkungsbehörde könnte Achsen für die Darstellung von Whakapapa (werden Verwandtschaftsstrukturen so wiedergegeben, dass sie das Verständnis der iwi widerspiegeln und nicht westliche Annahmen über die Kernfamilie), Whenua-Beziehungen (wird der Ort als verwandtschaftliches und angestammtes Element behandelt und nicht als geografische Koordinate) oder Tapu/Noa-Unterscheidungen (werden spirituelle Dimensionen anerkannt und nicht wegrationalisiert) definieren.
+
  • Gemeinschaftsspezifische Achsen. Ein Gesundheitsfonds könnte Achsen für klinische Sensibilität, die Vertretung von Behinderten oder altersgerechte Gestaltung definieren, die nicht in der allgemeinen Plattform enthalten sind.
+
  • Widersprüchliche Definitionen. Eine Plattform könnte "ältere Repräsentation" als "Untergewichtung der Perspektive älterer Menschen" definieren. Eine iwi-Behörde könnte es als "Nichtanerkennung des spezifischen mana von kaumatua und kuia innerhalb des tikanga Maori" definieren. Es handelt sich nicht um dieselbe Achse, und wenn man sie in einer einzigen Kategorie "Ältere" zusammenfasst, wird der Unterschied verwischt.
+Die architektonische Verpflichtung: Das System muss mehrere Bias-Ontologien gleichzeitig unterstützen, ohne dass sie in einem einzigen Schema zusammengeführt werden müssen. Pakete von verschiedenen Behörden können sich überschneidende Achsen definieren, ohne dass eine von ihnen untergeordnet ist. +

4.2 Explizite Komposition, nicht stille Vererbung

+

Jede Sitzung muss eine sichtbare Lenkungsprovenienz aufweisen. Dies ist keine nachträglich hinzugefügte Protokollierungsfunktion, sondern eine strukturelle Eigenschaft der Architektur.

+

Warum dies wichtig ist:

+
  • Anfechtbarkeit. Wenn ein Nutzer oder eine Institution Einwände gegen die Ergebnisse eines Modells erhebt, zeigt der Provenance-Datensatz genau, welche Steuerungspakete aktiv waren und in welchem Umfang. Der Einspruch kann an die zuständige Behörde gerichtet werden: "Ihr Whanau-Pack mit der Stärke 0,7 hat in Kombination mit der Sicherheits-Basislinie diese Ausgabe erzeugt; wir glauben, dass die Stärke in diesem Zusammenhang niedriger sein sollte."
+
  • Rechenschaftspflicht. Die Lenkungsbehörden sind für die Auswirkungen ihrer Packs verantwortlich. Ohne Herkunftsnachweis werden die Auswirkungen "der KI" als monolithischer Einheit zugeschrieben. Mit Provenienz lassen sich die Auswirkungen auf spezifische Entscheidungen von identifizierbaren Autoritäten zurückführen.
+
  • Informierte Zustimmung Nutzer und Gemeinschaften können in Kenntnis der Sachlage entscheiden, welche Systeme sie nutzen wollen, je nachdem, welche Lenkungsbehörden sie leiten. Ein Marae könnte sich dafür entscheiden, nur Systeme zu verwenden, die mit von der Iwi genehmigten Paketen ausgestattet sind. Eine Schule könnte sowohl die Sicherheitsgrundlagen der Plattform als auch das Paket eines bestimmten Bildungsfonds benötigen.
+Vergleichen Sie dies mit den aktuellen KI-Leitplanken: undurchsichtig, nicht verhandelbar und nur dem Unternehmen zurechenbar. Die polyzentrische Steuerung macht die Steuerung von Werten sichtbar und verteilt. +

4.3 Recht auf Nichtteilnahme und Rückzug

+

Dies ist die Verpflichtung, die das polyzentrische Modell am deutlichsten vom "Tractatus mit Plugins" unterscheidet.

+

Eine iwi-Lenkungsbehörde hat:

+
  • Recht auf Nichtteilnahme. Sie kann sich dafür entscheiden, Lenkungspakete auf keiner Plattform zu veröffentlichen. Sie kann Packs ausschließlich für iwi-gesteuerte Systeme pflegen, die für externe Plattformen unzugänglich sind. Die Plattform muss ohne sie funktionieren.
+
  • Recht auf bedingte Teilnahme. Es kann Pakete mit Bedingungen veröffentlichen: nur zur Verwendung innerhalb bestimmter Gemeinschaften, nur wenn ein bestimmtes kaupapa in Kraft ist, nur unter ausdrücklicher vertraglicher Vereinbarung. Das taonga-Register setzt diese Bedingungen auf der API-Ebene durch.
+
  • Widerrufsrecht. Sie kann ein veröffentlichtes Paket jederzeit widerrufen. Bereitstellungen, die das Paket verwenden, müssen den Widerruf (über den Verifizierungsendpunkt der Registry) erkennen und die Anwendung des Pakets einstellen. Die Plattform kann ein zurückgezogenes Paket nicht zwischenspeichern, forken oder weiter verwenden.
+Durch diese Rechte wird strukturell verhindert, dass die Plattform zum Standardort der gesamten Verwaltung wird. Selbst wenn die Plattform technisch in der Lage ist, alle Pakete auszuführen, kann sie keine Autorität über Pakete beanspruchen, die sie nicht verwaltet. Das Fehlen eines iwi-Pakets ist keine Lücke, die die Plattform füllen kann - es ist eine Grenze, die die Plattform respektieren muss. +
+

5. Fallstudie: Mara-basierter Einsatz von Home AI

+

5.1 Szenario

+

Ein Marae in Aotearoa betreibt ein Home AI-System für seine Whanau-Gemeinschaft. Das System hilft den Mitgliedern, Geschichten zu schreiben, Korero zusammenzufassen und Inhalte für die Moderation auszuwählen. Es läuft auf lokaler Hardware ein Llama 3.2 3B Modell, das mit von der Gemeinschaft zur Verfügung gestellten Daten feinabgestimmt wurde.

+

5.2 Lenkungskonfiguration

+

Der Einsatz besteht aus drei Steuerungspaketen:

+
  1. Plattform-Sicherheitspaket v3 (aus dem Village Platform Registry, geregelt unter Tractatus).
- Allgemeine Schadensbegrenzung, Verringerung der Toxizität, faktische Erdung. + - Plattformübergreifend; alle Einsätze tragen es. +
  1. Iwi Whanau und Tikanga Pack v1 (von der Taonga-Registratur des Iwi, verwaltet vom Iwi Data Governance Board).
- Steuerungsvektoren für die Whanau-Darstellung: Verwandtschaftsstrukturen, die nach Whakapapa und nicht nach westlichen Annahmen über Kernfamilien dargestellt werden. + - Tikanga-bewusste Moderation: tapu/noa-Unterscheidungen werden bei der Kennzeichnung von Inhalten respektiert. + - Kaumatua und kuia: Ältere Autorität wird mit spezifischem mana anerkannt, nicht nur mit der "älteren Perspektive". + - Zugangsbedingungen: nur für Einsatzkräfte, die iwi-Mitgliedern dienen, nach Absprache mit dem iwi-Vorstand. +
  1. Grief and Bereavement Sensitivity Pack v2 (von einem Community Health Trust, der nach der Charta des Trusts verwaltet wird).
- Erhöhte Sensibilität für tangihanga-bezogene Inhalte. + - Geringere Aggressivität bei der Zusammenfassung von Inhalten über verstorbene Mitglieder. + - Bereichsspezifisch; wird nur angewendet, wenn der Inhalt als trauerbezogen gekennzeichnet ist. +

5.3 Lenkungsprovenienz in Aktion

+

Ein Community-Mitglied bittet die Home-KI, einen Korero über einen kürzlich verstorbenen Kuia zusammenzufassen. Die Lenkungsprovenienz für diese Inferenz:

+


+Lenkungsprovenienz:
+  [1] Platform Safety Pack v3 (Tractatus) - Größe 1.0
+  [2] Iwi Whanau und Tikanga Pack v1 (Iwi Board) - Ausmaß 0.8
+  [3] Grief Sensitivity Pack v2 (Health Trust) - Umfang 0,9
+  Kontext-Flags: trauerbezogen, kaumatua/kuia, whakapapa-angegliedert
+

+

Die Zusammenfassung respektiert die Whakapapa-Beziehungen, verwendet geeignete Kupu (Begriffe) für die Rolle und das Mana des Kuia und behandelt trauernde Inhalte mit Sensibilität. Wenn die Familie das Gefühl hat, dass die Zusammenfassung etwas falsch wiedergibt, kann sie das tun:

+
  1. Das Anliegen über die Schnittstelle "Anliegen melden" der Plattform melden.
  2. Nachsehen, welche Pakete die Ausgabe gestaltet haben (die Herkunft ist sichtbar).
  3. Leiten Sie ihr Anliegen an die zuständige Behörde weiter: Wenn es sich um ein Tikanga-Problem handelt, an den Iwi-Vorstand; wenn es sich um ein Trauerproblem handelt, an den Gesundheitsfonds; wenn es sich um ein Sicherheitsproblem handelt, an die Plattform.
+

5.4 Rückzugsszenario

+

Sechs Monate später überprüft der Iwi-Vorstand sein Whanau- und Tikanga-Paket und stellt fest, dass die Steuerungsvektoren für die Whakapapa-Darstellung erheblich überarbeitet werden müssen. Das Board zieht das Pack aus dem Taonga-Register zurück.

+

Das Marae Deployment stellt die Rücknahme bei der nächsten Überprüfung des Registers fest. Das System:

+
  1. Es stellt die Anwendung des zurückgezogenen Pakets ein.
  2. Protokolliert das Entnahmeereignis.
  3. Benachrichtigt den Marae-Administrator.
  4. Setzt den Betrieb mit den verbleibenden zwei Paketen fort (Sicherheit der Plattform und Trauersensibilität).
+Die Plattform ersetzt nicht ihre eigene whanau-bezogene Steuerung. Das Fehlen des iwi-Pakets ist ein geregeltes Fehlen, keine Lücke, die die Plattform füllen kann. Wenn der iwi-Vorstand ein überarbeitetes Paket (v2) veröffentlicht, kann der Marae-Einsatz es unter den gleichen Zugangsbedingungen annehmen. +
+

6. Politische Theorie: Souveränität als Architektur

+

6.1 Jenseits der Infrastruktur-Souveränität

+

STO-RES-0009 verwendet "souverän" in erster Linie im infrastrukturellen Sinne: lokale Modelle, Zugang mit vollem Gewicht, keine API-Abhängigkeit. Dies ist notwendig, aber nicht ausreichend.

+

Politische Souveränität fragt: Wer hat die Autorität, verbindliche Entscheidungen innerhalb einer Jurisdiktion zu treffen? In dem polyzentrischen Steuerungsmodell:

+
  • Der Plattformbetreiber hat die Autorität über die technische Infrastruktur und die Sicherheitsgrundlagen.
  • Die Iwi-Steuerungsbehörden sind für die kulturellen Bereiche zuständig, die in ihr Tikanga und Rangatiratanga fallen.
  • Die Community Trusts sind für die in ihren Satzungen festgelegten Bereiche zuständig.
  • Kein einzelner Akteur hat die Autorität über alle Bereiche.
+Es handelt sich nicht um ein Delegationsmodell (bei dem die Plattform den iwi Befugnisse überträgt), sondern um ein Anerkennungsmodell (bei dem die Befugnisse der iwi unabhängig voneinander bestehen und die Architektur der Plattform ihnen entweder Rechnung trägt oder nicht). Die Architektur schafft keine iwi-Souveränität, sondern respektiert die bereits bestehende Souveränität. +

6.2 Spannung: Grundlinien vs. Pluralismus

+

Eine berechtigte Sorge: Wenn jede Behörde ihre eigenen Vorurteilsachsen definiert, was verhindert dann ein Steuerungspaket, das schädliche Normen kodiert?

+

Das polyzentrische Modell beseitigt diese Spannung nicht, sondern macht sie explizit und handhabbar:

+
  • Plattform-Sicherheitsgrundlinien stellen eine Untergrenze, keine Obergrenze dar. Sie kodieren weithin geteilte Verbote (z. B. Inhalte, die Gewalt, Ausbeutung oder Täuschung ermöglichen). Diese Grundregeln sind auf der Plattformebene nicht verhandelbar - sie gelten für alle Einsätze.
  • Die Kulturelle und wertorientierte Steuerung befindet sich oberhalb dieser Ebene. Verschiedene Behörden können innerhalb des Raums oberhalb der Sicherheitsgrundlagen unterschiedlich lenken.
  • Konflikte zwischen Autoritäten werden durch Verhandlungen gelöst, nicht durch Hierarchie. Wenn ein iwi-Pack und eine Plattform-Baseline miteinander in Konflikt geraten, erfordert die Lösung einen Dialog zwischen den zuständigen Behörden - und nicht die einseitige Aufhebung durch eine der Parteien.
+Die ehrliche Antwort ist, dass diese Spannung nicht vollständig durch die Architektur gelöst werden kann. Es handelt sich um ein politisches Problem, das politische Prozesse erfordert: Überlegungen, Verhandlungen und manchmal auch Meinungsverschiedenheiten. Die Aufgabe der Architektur ist es, diese Prozesse zu ermöglichen und sichtbar zu machen, nicht sie zu automatisieren. +

6.3 Verbindung zu Tino Rangatiratanga

+

Tino Rangatiratanga - das Recht der Maori, über ihre eigenen Angelegenheiten zu bestimmen - ist keine politische Präferenz, der man durch eine flexiblere Plattform Rechnung tragen kann. Es handelt sich um einen Verfassungsgrundsatz (der in Te Tiriti o Waitangi, Artikel 2, verankert ist), der unabhängig von der Architektur der Plattform existiert.

+

Im Zusammenhang mit der KI-Steuerung:

+
  • Die Autorität der Iwi über Steuerungspakete, die Tikanga kodieren, ist ein Ausdruck von tino rangatiratanga, nicht eine "Funktion", die die Plattform bietet.
  • Die Rolle der Plattform ist es, diese Autorität nicht zu behindern - eine technische Infrastruktur bereitzustellen, die die Iwi nach ihren eigenen Bedingungen nutzen oder nicht nutzen können.
  • Das Recht auf Nicht-Teilnahme ist der architektonische Ausdruck dieses Prinzips: Die Souveränität der iwi hängt nicht von der Existenz der Plattform ab.
+
+

7. Wege zur Beteiligung der Gemeinschaft

+

7.1 Anerkannte Lenkungsbehörde werden

+

Das polyzentrische Modell erfordert einen Prozess, durch den Institutionen zu anerkannten Lenkungsbehörden werden können. Dieser Prozess sollte sein:

+
  • Transparent. Klare Kriterien dafür, was eine Lenkungsbehörde ausmacht: etablierte Leitungsstruktur, identifizierbare Entscheidungsträger, Fähigkeit zur Pflege und Überprüfung von Lenkungspaketen, Rechenschaftspflicht gegenüber einer identifizierbaren Gemeinschaft.
  • Nicht-exklusiv. Mehrere Behörden können im selben Gebiet tätig sein. Zwei Iwi, die dieselbe Region betreuen, können unterschiedliche Lenkungspakete unterhalten, die unterschiedliche Tikanga widerspiegeln - dies wird erwartet und ist kein Problem, das gelöst werden muss.
  • Widerruflich. Die Anerkennung kann entzogen werden, wenn eine Behörde nicht mehr in der Lage ist, ihre Leitungsfunktion oder Rechenschaftspflicht zu erfüllen.
+

7.2 Co-Designing kontrastiver Datensätze

+

Lenkungsvektoren werden aus kontrastiven Aufforderungspaaren extrahiert. Die Qualität dieser Paare bestimmt die Qualität der Steuerung. Für iwi-regierte Pakete:

+
  • Kontrastive Paare sollten von Personen mit Fachkenntnissen - Kuia und Kaumatua, Tikanga-Berater, Gemeindepädagogen - entworfen werden, nicht nur von Ingenieuren.
  • Evaluierungspakete sollten von Gemeindemitgliedern bewertet werden, nicht nur durch automatisierte Metriken. Eine 5-Punkte-Skala für "kulturelle Sensibilität" bedeutet für jede Gemeinschaft etwas anderes; die Bewertungskriterien müssen lokal definiert werden.
  • Das Problem des gemeinsamen blinden Flecks (STO-RES-0009, Abschnitt 6.3) ist ein Argument für eine unabhängige Datengenerierung: iwi-geführte kontrastive Datensätze, die von Menschen erstellt werden, die den Bereich kennen, sind eine notwendige epistemische Gegenkraft zu modellgenerierten Paaren, die die eigenen Voreingenommenheiten des Modells erben können.
+

7.3 Aufbau von Kapazitäten

+

Die Steuerung von Steuerungspaketen als Taonga erfordert Fähigkeiten, die eine Brücke zwischen technischem KI-Wissen und kultureller Steuerung schlagen:

+
  • Technische Kompetenz Verstehen, was Steuerungsvektoren sind, wie sie funktionieren und was sie können und was nicht. Dazu ist kein Fachwissen über maschinelles Lernen erforderlich, aber ein ausreichendes Verständnis, um fundierte Governance-Entscheidungen zu treffen.
  • Governance-Design. Festlegen von Überprüfungsprozessen, Versionsrichtlinien, Zugriffsbedingungen und Streitbeilegungsverfahren für Lenkungspakete.
  • Iwi-übergreifende Zusammenarbeit. Iwi möchten möglicherweise die Infrastruktur gemeinsam nutzen (z. B. Hosting für Taonga-Register) und gleichzeitig eine unabhängige Verwaltung beibehalten. Föderierte Modelle - gemeinsame technische Dienste mit getrennter Verwaltung - sind eine natürliche Lösung.
+

7.4 Was dies von der Plattform verlangt

+

Die Verpflichtungen der Plattform in diesem Modell sind in erster Linie negativ - Dinge, die sie nicht tun darf:

+
  • Sie darf Taonga-Pakete nicht ohne ausdrückliche Zustimmung einkapseln, aufspalten oder weiterverteilen.
  • Sie darf ihre eigene Steuerung nicht ersetzen, wenn ein iwi-Paket nicht vorhanden ist oder zurückgezogen wurde.
  • Darf nicht verlangen, dass iwi-Pakete mit einem von der Plattform definierten Schema oder einer Ontologie übereinstimmen.
  • Darf iwi-Governance nicht als ein "Feature" behandeln, das aktiviert oder deaktiviert werden kann.
+Und einige positive Verpflichtungen: +
  • Sie müssen offene, dokumentierte APIs bereitstellen, in die sich Taonga-Register integrieren lassen.
  • Sie müssen eine Herkunftsprotokollierung einführen, die für alle Beteiligten zugänglich ist.
  • Sie müssen die Sicherheitsgrundlagen transparent und mit klarer Dokumentation pflegen.
  • Sie müssen Verfahren zur Meldung und Lösung von Konflikten unterstützen, an denen die zuständigen Behörden beteiligt sind.
+
+

8. Beschränkungen

+

8.1 Entwurfsstatus

+

Bei diesem Papier handelt es sich um einen Entwurf, der ohne Maori-Peer-Review geschrieben wurde. Die hier verwendeten Begriffe aus te ao Maori - taonga, tikanga, tino rangatiratanga, kaitiakitanga, mana - sind komplexe, lebendige Konzepte, deren Bedeutung und Autorität weit über das hinausgeht, was ein Nicht-Maori-Autor vollständig darstellen kann. Die architektonischen Vorschläge in diesem Papier sind als Ausgangspunkt für Diskussionen gedacht, nicht als feststehende Entwürfe. Maori-Wissenschaftler, -Praktiker und -Regierungsgremien könnten feststellen, dass die Vorschläge diese Konzepte falsch anwenden, zu sehr vereinfachen oder in unangemessener Weise instrumentalisieren. Wir begrüßen diese Kritik und erachten sie als wesentlich für unsere Arbeit.

+

8.2 Umsetzung Abstand

+

Die hier beschriebene Architektur ist konzeptionell. Es gibt kein Taonga-Lenkungs-Register. Es wurde noch kein polyzentrisches Lenkungsregister erstellt. Der Vier-Phasen-Implementierungspfad in STO-RES-0009 müsste um zusätzliche Phasen für die Entwicklung des Registers, der Prozesse zur Anerkennung von Autoritäten und der Provenance-Infrastruktur erweitert werden - eine Arbeit, die noch Jahre, nicht Monate, von der Implementierung entfernt ist.

+

8.3 Fragen zu Umfang und Anreiz

+

Polyzentrische Verwaltung erhöht die Komplexität. Die Pflege mehrerer Register, die Verifizierung der Herkunft zum Zeitpunkt der Inferenz und die Verhandlung von Konflikten zwischen Behörden verursachen Kosten - rechnerisch, institutionell und menschlich. Ob diese Kosten auf Gemeinschaftsebene (im Gegensatz zur Unternehmens- oder Regierungsebene) tragbar sind, ist eine offene Frage. Die Hardware-Beschränkung der Village-Plattform für Verbraucher macht diese Frage besonders akut.

+

8.4 Risiko des Tokenismus

+

Es besteht die Gefahr, dass "polyzentrische Verwaltung" zu einer neuen Bezeichnung für das gleiche alte Muster wird: Der Plattformbetreiber baut das System, fügt eine API hinzu und nennt es "iwi-verwaltet", weil sich iwi theoretisch daran anschließen könnten. Echte Polyzentralität erfordert, dass die iwi-Behörden an der Gestaltung der Architektur selbst beteiligt sind - nicht nur an ihrer Nutzung. Dieses Papier, das ohne Mitautorschaft der Maori verfasst wurde, ist selbst ein Beispiel für die Kluft zwischen Anspruch und Praxis.

+

8.5 Konfliktlösung im Maßstab

+

Das Papier räumt ein, dass Konflikte zwischen Lenkungsbehörden politische Prozesse erfordern, spezifiziert diese Prozesse aber nicht im Detail. In der Praxis können Streitigkeiten darüber, welches Lenkungspaket in umstrittenen Bereichen gelten soll, ohne etablierte institutionelle Beziehungen, gemeinsame Normen der Beratung und gegenseitiges Vertrauen schwer zu lösen sein - Ressourcen, die über Jahre hinweg aufgebaut werden müssen und nicht durch Architekturen geschaffen werden können.

+
+

9. Schlussfolgerung

+

Im ersten Papier (STO-RES-0009) wurde festgestellt, dass souveräne SLM-Einsätze einen strukturellen Vorteil für das Debiasing während der Inferenzzeit haben: Der vollständige Zugang zu Modellgewichten und -aktivierungen ermöglicht Steuerungsvektortechniken, die durch kommerzielle APIs architektonisch unmöglich sind. In diesem Papier wird argumentiert, dass die Steuerung dieser Steuerungsvektoren mindestens genauso wichtig ist wie die technische Fähigkeit selbst.

+

Steuerungsvektoren sind Instrumente zur Durchsetzung von Normen. Wer die Normen definiert, durch welchen Prozess und mit welchen Regressmöglichkeiten für die Betroffenen - das sind politische Fragen, die nicht allein durch Technik beantwortet werden können.

+

Das hier vorgeschlagene polyzentrische Modell - gleichberechtigte Lenkungsbehörden, taonga-zentrierte Register, explizite Herkunft und ein Recht auf Nichtteilnahme - ist nicht die einzig mögliche Antwort. Aber es ist eine Antwort, die die These ernst nimmt, dass souveräne KI mehreren Souveränitäten dienen sollte, nicht nur einer.

+

Das Blinkerwischer-Problem aus STO-RES-0009 ist immer noch die richtige Ausgangsmetapher: Einige Voreingenommenheiten werden ausgelöst, bevor die Deliberation einsetzt, und sie können nicht sofort behoben werden. Aber die Frage, wer den Blinker setzen darf - und wessen Fahrzeug es überhaupt ist - ist eine Governance-Frage, mit der sich dieses Papier zu befassen beginnt.

+

Es beginnt, aber es endet nicht. Der nächste Schritt ist nicht mehr Architektur. Es geht um Gespräche - mit Iwi-Governance-Gremien, mit Maori-Wissenschaftlern, mit Praktikern aus der Gemeinschaft - um festzustellen, ob diese Vorschläge den Menschen dienen, denen sie angeblich dienen, oder ob sie grundlegend überarbeitet oder ersetzt werden müssen.

+
+

Referenzen

+
  • Carroll, S. R., et al. (2020). Die CARE-Prinzipien für indigene Datenverwaltung. Data Science Journal, 19(1), 43.
  • Kukutai, T. & Taylor, J. (Eds.) (2016). Indigenous Data Sovereignty: Toward an Agenda. ANU Press.
  • Ostrom, E. (1990). Governing the Commons: The Evolution of Institutions for Collective Action. Cambridge University Press.
  • Ostrom, E. (2010). Beyond Markets and States: Polycentric Governance of Complex Economic Systems. American Economic Review, 100(3), 641-672.
  • Rimsky, N., et al. (2023). Steuerung von Llama 2 durch kontrastive Aktivierungsaddition. arXiv:2312.06681.
  • Stroh, J. & Claude (2026). Steering Vectors and Mechanical Bias: Inference-Time Debiasing for Sovereign Small Language Models. STO-RES-0009 v1.1.
  • Te Mana Raraunga (2018). Principles of Maori Data Sovereignty. Te Mana Raraunga Charter.
  • Templeton, A., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropisch.
  • Turner, A., et al. (2023). Aktivierungsaddition: Steering Language Models Without Optimization. arXiv:2308.10248.
  • Waitangi Tribunal (2011). Ko Aotearoa Tenei: A Report into Claims Concerning New Zealand Law and Policy Affecting Maori Culture and Identity. Te Ropu Whakamana i te Tiriti o Waitangi.
  • Zou, A., et al. (2023). Representation Engineering: Ein Top-Down-Ansatz zur KI-Transparenz. Zentrum für KI-Sicherheit.
+
+

Lizenz

+

Urheberrecht 2026 John Stroh

+

Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:

+

http://www.apache.org/licenses/LICENSE-2.0

+

Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.

+
+

Dokument-Metadaten

+ +

-- Ende des Dokuments --

+
+ + \ No newline at end of file diff --git a/public/faq.html b/public/faq.html index b3864c37..826b0b41 100644 --- a/public/faq.html +++ b/public/faq.html @@ -18,21 +18,21 @@ - - - + + + - - - - - - - + + + + + + + - +