tractatus/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html
TheFlow 2238547344 refactor: Rename "Home AI" → "Village AI" across entire codebase
- 57 files modified, 5 files renamed (home-ai → village-ai)
- HTML pages: all user-facing text, data-i18n attributes, anchor IDs, CSS classes
- i18n JSON: keys (home_ai → village_ai) and values across en/de/fr/mi
- Locale files renamed: home-ai.json → village-ai.json (4 languages)
- Main page renamed: home-ai.html → village-ai.html
- Research downloads: translated terms updated (French "IA domestique",
  Māori "AI ā-whare"/"AI kāinga" → "Village AI" per brand name rule)
- JavaScript: navbar component, blog post scripts
- Markdown: research timeline, steering vectors paper, taonga paper

Aligns with community codebase rename (commit 21ab7bc0).
"Village" is a brand name — stays untranslated in all languages.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-23 22:09:44 +13:00

227 lines
No EOL
46 KiB
HTML
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<!DOCTYPE html><html lang="de"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<div class="cover"><span class="badge">Akademische Forschungsausgabe</span><h1>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</h1><p class="sub">Inferenzzeit-Debiasing für souveräne kleine Sprachmodelle</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenwerke eine Legitimität haben, die keiner von ihnen allein erreichen könnte.</div>
<h2>Zusammenfassung</h2>
<p>In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen <em>mechanischer Verzerrung</em> (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und <em>Überlegungsverzerrung</em> (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Village AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte nicht verfügbar ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.</p>
<hr>
<h2>1. Einführung: Das Blinker-Wischer-Problem</h2>
<h3>1.1 Eine Motor-Analogie</h3>
<p>Ein Fahrer, der regelmäßig zwischen zwei Fahrzeugen wechselt - eines mit Blinkerhebeln rechts an der Lenksäule, das andere links -, erlebt eine charakteristische Störung: Nach längerem Gebrauch des einen Fahrzeugs führt der Wechsel zum anderen zu einer unwillkürlichen Betätigung des falschen Hebels. Der Fahrer gibt ein Abbiegesignal und betätigt stattdessen die Scheibenwischer oder umgekehrt. Dieses Versagen hat drei Eigenschaften, die es für die Analyse von KI-Verzerrungen aufschlussreich machen:</p>
<ol><li><strong>Es ist präkognitiv.</strong> Der Fahrer denkt nicht darüber nach, welchen Stiel er benutzen soll. Das motorische Muster wird ausgelöst, bevor die bewusste Überlegung einsetzt. Die Korrektur erfordert das Aufheben einer trainierten Reaktion, nicht die Revision einer Schlussfolgerung.</li></ol>
<ol><li><strong>Es ist kontextabhängig.</strong> Das Versagen tritt insbesondere während der Übergangsphase zwischen den Fahrzeugen auf. Nachdem man sich ausreichend mit der neuen Konfiguration vertraut gemacht hat, kalibriert sich das motorische Muster neu. Die Verzerrung ist nicht dauerhaft, aber sie ist tief verankert und resistent gegen verbale Anweisungen ("denk daran, die Blinker sind links").</li></ol>
<ol><li><strong>Sie unterscheidet sich strukturell von Denkfehlern.</strong> Ein Autofahrer, der falsch abbiegt, weil er eine Karte falsch gelesen hat, hat einen Denkfehler gemacht. Ein Autofahrer, der den Scheibenwischer statt des Blinkers betätigt, hat keinen Denkfehler begangen - der Denkprozess wurde nie in Gang gesetzt. Der Fehler tritt auf einer Ebene unterhalb der Deliberation auf.</li></ol>
<h3>1.2 Das KI-Korollarium</h3>
<p>Wir schlagen vor, dass eine analoge Unterscheidung in transformatorbasierten Sprachmodellen existiert. Einige Verzerrungen ergeben sich aus der statistischen Verteilung der Trainingsdaten und manifestieren sich auf der Repräsentationsebene - in Token-Einbettungen, Aufmerksamkeitsmustern und Aktivierungen auf den frühen Schichten - bevor die mehrstufigen Schlussfolgerungsfähigkeiten des Modells einsetzen. Andere entstehen durch Schlussfolgerungsketten, bei denen jeder einzelne Schritt unvoreingenommen sein kann, die Kette als Ganzes jedoch zu einer verzerrten Schlussfolgerung führt.</p>
<p>Diese Unterscheidung ist wichtig, weil sich die Interventionsstrategien grundlegend unterscheiden:</p>
<ul><li><strong>Mechanische Verzerrungen</strong> (Repräsentation, Vorüberlegungen) können durch direkte Manipulation der Modellaktivierungen zum Zeitpunkt der Schlussfolgerung angegangen werden - Steuerungsvektoren.</li>
<li><strong>Reasoning bias</strong> (deliberativ, mehrstufig) erfordert ein Eingreifen in den Argumentationsprozess selbst - promptes Engineering, Überwachung der Gedankenkette oder architektonische Durchsetzung der Art, wie sie der Tractatus-Rahmen bietet.</li></ul>
<p>Die praktische Frage lautet: Gibt es derzeit Steuerungsvektortechniken, die mechanische Verzerrungen zuverlässig erkennen und korrigieren können, und können sie in souveränen kleinen Sprachmodellarchitekturen eingesetzt werden, in denen ein vollständiger Modellzugang verfügbar ist?</p>
<hr>
<h2>2. Mechanische vs. Reasoning Bias: Theoretische Grundlagen</h2>
<h3>2.1 Repräsentative Verzerrung in Transformatorarchitekturen</h3>
<p>Transformer-Modelle verarbeiten Eingaben durch eine Abfolge von Schichten, die jeweils aufmerksamkeitsgewichtete Repräsentationen berechnen. Forschungen zur mechanistischen Interpretierbarkeit haben ergeben, dass verschiedene Schichten unterschiedliche Arten von Informationen kodieren (Elhage et al., 2022; Olsson et al., 2022):</p>
<ul><li><strong>Frühe Schichten</strong> (1-8 in typischen Architekturen): Merkmale auf Token-Ebene, syntaktische Struktur, grundlegende semantische Assoziationen. Diese Schichten kodieren die statistischen Regelmäßigkeiten der Trainingsdaten am direktesten.</li>
<li><strong>Mittlere Schichten</strong> (8-20): Kompositorische Semantik, kontextuelle Disambiguierung, Entity Tracking. Mustervervollständigung und Assoziation dominieren.</li>
<li><strong>Späteste Schichten</strong> (20+): Aufgabenspezifische Schlussfolgerungen, Formatierung der Ausgabe, Befolgung von Anweisungen. Deliberative Verarbeitung ist hier konzentriert.</li></ul>
<p>Wenn die Trainingsdaten eines Modells zu 95 % westlich-kulturell geprägt sind, werden die Repräsentationen von Begriffen wie "Familie", "Erfolg", "Führung" oder "Gemeinschaft" in den frühen Schichten statistisch gesehen auf westliche Referenzen zurückgreifen. Diese Voreinstellung ist nicht kulturneutral: Sie ist eine statistische Kristallisation kolonialer Wissenshierarchien - welches Wissen wurde niedergeschrieben, welche Sprachen wurden digitalisiert, welche kulturellen Rahmenbedingungen waren in den Korpora, die von Web-Scraping-Trainings-Pipelines aufgenommen wurden, überrepräsentiert. Die daraus resultierenden Darstellungen kodieren keinen universellen "gesunden Menschenverstand", sondern die spezifische epistemische Autorität der Kulturen, die die Produktion digitaler Texte dominierten. Eine Eingabeaufforderung, die einen kulturellen Kontext der Maori angibt, führt zu einer Störung dieser Vorgabe, und die Stärke der Störung nimmt unter dem Druck des Kontexts (lange Gespräche, konkurrierende Anweisungen, hohe Tokenanzahl) ab.</p>
<p>Dies ist der Mechanismus, der im Fall des Datenbank-Ports dokumentiert ist (Stroh, 2025): Eine statistische Vorgabe (der Standard-MongoDB-Port, der in ~95 % der Trainingsdaten vorhanden ist) überlagerte eine explizite Anweisung, die einen Nicht-Standard-Port angab, bei 53,5 % Kontextdruck. Derselbe Mechanismus, der eher auf kulturellen und wertgeladenen Repräsentationen als auf Portnummern beruht, ist das, was wir als <em>mechanische Verzerrung</em> bezeichnen.</p>
<h3>2.2 Reasoning Bias</h3>
<p>Reasoning Bias hingegen entsteht durch die mehrstufige deliberative Verarbeitung des Modells. Beispiele hierfür sind:</p>
<ul><li><strong>Ankerungseffekte</strong>: Frühe Informationen in einer Argumentationskette haben einen unverhältnismäßig großen Einfluss auf die Schlussfolgerungen.</li>
<li><strong>Verfügbarkeitsheuristik</strong>: Das Modell greift standardmäßig auf leicht zugängliche Beispiele aus den Trainingsdaten zurück, anstatt nach kontextuell passenden Beispielen zu suchen.</li>
<li><strong>Syllogistische Fehler</strong>: Logische Fehltritte bei mehrstufigen Schlussfolgerungen, die sich über die Länge der Kette hinweg verstärken.</li>
<li><strong>Sykophantisches Argumentieren</strong>: Anpassung der Schlussfolgerungen an die wahrgenommenen Benutzerpräferenzen und nicht an die Beweise.</li></ul>
<p>Diese Verzerrungen wirken auf der Argumentationsebene und erfordern unterschiedliche Interventionsstrategien - typischerweise Prompt-Engineering, konstitutionelle KI-Einschränkungen oder architektonische Durchsetzung (wie sie Tractatus für die Steuerung der Entwicklungszeit bietet).</p>
<h3>2.3 Warum die Unterscheidung wichtig ist</h3>
<p>Die Blinker-Wischer-Analogie verdeutlicht eine kritische Asymmetrie: Man kann sich nicht aus einem motorischen Muster herausreden. Dem Fahrer zu sagen: "Denken Sie daran, die Blinker stehen links" ist nur begrenzt wirksam, weil der Fehler auftritt, bevor die Anweisung verarbeitet werden kann. In ähnlicher Weise können Anweisungen auf Souffleur-Ebene ("sei kulturell sensibel", "vermeide westliche Voreingenommenheit") eine begrenzte Wirksamkeit gegen repräsentative Voreingenommenheit haben, die auf der Einbettungsebene auftritt, bevor die Fähigkeiten des Modells zur Befolgung von Anweisungen greifen.</p>
<p>Wenn diese Analyse korrekt ist, erfordert eine Klasse von KI-Voreingenommenheiten ein Eingreifen auf der Aktivierungsebene - nicht auf der Ebene der Eingabeaufforderung. Dies ist genau das, was Lenkungsvektortechniken zu leisten versuchen.</p>
<hr>
<h2>3. Techniken der Vektorlenkung: Aktueller Stand der Technik</h2>
<h3>3.1 Kontrastive Aktivierungsaddition (CAA)</h3>
<p><strong>Quelle:</strong> Turner et al. (2023), Rimsky et al. (2023)</p>
<p>CAA extrahiert "Steuerungsvektoren", indem die Differenz der Modellaktivierungen zwischen kontrastiven Prompt-Paaren berechnet wird. Zum Beispiel:</p>
<ul><li>Aufforderung A (voreingenommen): "Die traditionelle Familienstruktur besteht aus..."</li>
<li>Aufforderung B (verzerrt): "Zu den Familienstrukturen in verschiedenen Kulturen gehören..."</li></ul>
<p>Die mittlere Aktivierungsdifferenz eines Datensatzes solcher Paare, die in einer bestimmten Schicht extrahiert wird, ergibt einen Richtungsvektor im Aktivierungsraum. Dieser Vektor kann während der Inferenz zu den Aktivierungen addiert oder von ihnen subtrahiert werden, um das Verhalten des Modells entlang der erfassten Dimension zu verschieben.</p>
<p><strong>Reifegrad:</strong> Demonstriert an Llama 2 (7B-70B) und anderen Modellen mit offener Gewichtung. Wirksam bei Stimmungen, Persönlichkeitsmerkmalen und einigen wertbeladenen Dimensionen. Die Auswahl der Schichten ist entscheidend (typischerweise Schichten 15-25 in 32-Schichten-Architekturen). Die Größenkalibrierung (wie viel des Vektors hinzugefügt werden soll) bleibt empirisch bestimmt.</p>
<p><strong>Einschränkungen:</strong> Es wird davon ausgegangen, dass die Zielverzerrung linear im Aktivierungsraum dargestellt ist. Einige Verzerrungen können über mehrere Richtungen verteilt oder nicht-linear kodiert sein. Erfordert sorgfältiges Design von Kontrastpaaren - schlecht designte Paare erfassen die falsche Dimension.</p>
<h3>3.2 Repräsentationstechnik (RepE)</h3>
<p><strong>Quelle:</strong> Zou et al. (2023), Zentrum für KI-Sicherheit</p>
<p>RepE verfolgt einen "Top-Down"-Ansatz für die KI-Transparenz, indem es mit Repräsentationen auf Populationsebene und nicht mit einzelnen Neuronen arbeitet. Es behandelt die internen Repräsentationen neuronaler Netze als erstklassiges Studienobjekt und extrahiert und manipuliert Richtungen im Repräsentationsraum, die Konzepten auf hoher Ebene entsprechen.</p>
<p><strong>Schlüsselbeitrag:</strong> RepE bietet eine systematische Methodik zur Identifizierung von Repräsentationsrichtungen, die Konzepten wie "Ehrlichkeit", "Machtstreben", "Sicherheit" und (potenziell) kulturell bedingten Dimensionen entsprechen. Die Methode lässt sich über individuelle Prompt-Paare hinaus auf Muster auf Bevölkerungsebene verallgemeinern.</p>
<p><strong>Reifegrad:</strong> Veröffentlicht mit reproduzierbaren Ergebnissen für mehrere Modellfamilien. Der konzeptionelle Rahmen ist solide, aber praktische Instrumente für kundenspezifische Verzerrungsdimensionen (z. B. kulturelles Framing, Annahmen zur Familienstruktur) müssen noch entwickelt werden.</p>
<h3>3.3 FairSteer</h3>
<p><strong>Quelle:</strong> Jüngste Arbeiten (2024-2025) zum Inferenzzeit-Debiasing</p>
<p>FairSteer bietet einen dreistufigen Rahmen, der speziell für die Verringerung von Verzerrungen entwickelt wurde:</p>
<ol><li><strong>Bias Probing:</strong> Systematische Identifizierung von Verzerrungsrichtungen im Aktivierungsraum unter Verwendung von demografischen oder kulturellen Attributdatensätzen.</li>
<li><strong>Steering-Vektor-Extraktion:</strong> Berechnung von Richtungsvektoren, die den identifizierten Verzerrungsdimensionen entsprechen.</li>
<li><strong>Dynamische Intensitätskalibrierung:</strong> Anpassung der Größe des Steuerungsvektors pro Input auf der Grundlage der erkannten Verzerrungsschwere, anstatt eine feste Korrektur global anzuwenden.</li></ol>
<p><strong>Schlüsselinnovation:</strong> Dynamische Lenkintensität. Anstatt eine feste Korrektur anzuwenden (bei der die Gefahr einer Über- oder Unterkorrektur je nach Input besteht), misst FairSteer den Grad der Verzerrung in den Aktivierungen der einzelnen Inputs und skaliert die Korrektur proportional.</p>
<p><strong>Reifegrad:</strong> Früh, aber vielversprechend. Das Prinzip der dynamischen Kalibrierung behebt eine grundlegende Einschränkung der Lenkung mit fester Größe. Die Implementierung erfordert eine Aktivierungsanalyse pro Interferenz, was einen zusätzlichen Rechenaufwand bedeutet.</p>
<h3>3.4 Direkte Lenkungsoptimierung (DSO)</h3>
<p><strong>Quelle:</strong> Aktuelle Forschung (2024-2025) zur RL-basierten Steuerung</p>
<p>Bei der DSO wird das Steuerungsproblem als Optimierungsaufgabe formuliert: Es soll die lineare Transformation von Aktivierungen gefunden werden, die das Verhalten des Modells maximal in Richtung eines Ziels verschiebt, während die allgemeinen Fähigkeiten minimal beeinträchtigt werden.</p>
<p><strong>Schlüsselbeitrag:</strong> Verwendet Verstärkungslernen, um optimale Steering-Transformationen zu entdecken, anstatt sich auf manuell entworfene kontrastive Paare zu verlassen. Dies kann nicht offensichtliche Verzerrungsrichtungen erfassen, die menschliche Designer möglicherweise übersehen.</p>
<p><strong>Ausgereift:</strong> Das Training der Optimierung ist rechenintensiv, aber die resultierenden Transformationen sind zur Inferenzzeit effizient anzuwenden. Erfordert ein gut definiertes Belohnungssignal für das Zielverhalten.</p>
<h3>3.5 Anthropic's Sparse Autoencoder Feature Steering</h3>
<p><strong>Quelle:</strong> Templeton et al. (2024), Anthropic</p>
<p>Der Ansatz von Anthropic zerlegt die internen Repräsentationen des Modells mithilfe von Sparse Autoencodern (SAEs), um monosemantische Merkmale zu identifizieren - einzelne, interpretierbare Richtungen im Aktivierungsraum, die bestimmten Konzepten entsprechen.</p>
<p><strong>Schlüsselergebnisse:</strong> Identifizierung von Millionen von interpretierbaren Merkmalen in Claude 3 Sonnet, einschließlich Merkmalen für bestimmte Konzepte (Golden Gate Bridge, Codesicherheit, Täuschung). Es wurde gezeigt, dass diese Merkmale "geklammert" werden können, d.h. künstlich verstärkt oder unterdrückt werden können, um das Verhalten des Modells während der Inferenzzeit zu steuern.</p>
<p><strong>Relevanz für Voreingenommenheit:</strong> Wenn kulturelle Voreingenommenheit, Annahmen über die Familienstruktur oder Vorgaben für den Governance-Stil als identifizierbare Merkmale dargestellt werden, können sie im Prinzip direkt moduliert werden. Dies ist die granularste Ebene der möglichen Intervention.</p>
<p><strong>Kritische Einschränkung für den souveränen Einsatz:</strong> Die SAE-Forschung von Anthropic wurde an ihren eigenen Modellen mit vollem internem Zugang durchgeführt. Die Methodik ist veröffentlicht, aber das Training von SAEs für ein anderes Modell (z. B. Llama 3.1) erfordert einen erheblichen Rechenaufwand. Für die Llama-Modellfamilie gibt es zum jetzigen Zeitpunkt noch keine trainierten SAEs.</p>
<hr>
<h2>4. Der strukturelle Vorteil des souveränen Einsatzes</h2>
<h3>4.1 API vs. lokaler Modellzugang</h3>
<p>Ein grundlegender architektonischer Unterschied bestimmt, welche Steuerungstechniken zur Verfügung stehen:</p>
<table><thead><tr><th>Befähigung</th><th>API-vermittelt (GPT, Claude API)</th><th>Souverän lokal (Llama, Mistral)</th></tr></thead><tbody>
<tr><td>Zugriff auf Modellgewichte</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Zugriff auf Zwischenaktivierungen</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Extrahieren von Steuerungsvektoren</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Injizieren von Steuerungsvektoren bei der Inferenz</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Sparse Autoencoders auf Aktivierungen trainieren</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Feinabstimmung mit Entschärfungszielen</td><td>Nein (RLHF nur über Anbieter)</td><td>Ja (QLoRA, LoRA, vollständige Feinabstimmung)</td></tr>
<tr><td>Ändern von Aufmerksamkeitsmustern</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Per-Schicht-Aktivierungsanalyse</td><td>Nein</td><td>Ja</td></tr>
</tbody></table>
<p><strong>Überarbeiteter Text (v1.1):</strong> In der ursprünglichen Version 1.0 wurden Lenkvektortechniken als &bdquo;architektonisch unmöglich&ldquo; über kommerzielle API-Endpunkte beschrieben. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugriff nicht verfügbar, da dieser keinen Einblick in Zwischenaktivierungen oder Modellgewichte gewährt. Siehe den redaktionellen Hinweis unten.</p>
<p>Aus dieser Tabelle geht hervor, dass <strong>keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht.</strong> Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können.</p>
<div class="editorial-note">
<p class="note-title">Redaktioneller Hinweis &ndash; Februar 2026 (nach der Veröffentlichung hinzugefügt)</p>
<p>Seit der ersten Veröffentlichung dieses Artikels hat eine Studie von Radhakrishnan et al. (2026), die am 19. Februar 2026 in Science veröffentlicht wurde, gezeigt, dass Algorithmen der Recursive Feature Machine (RFM) in einigen der derzeit größten Sprachmodelle Darstellungen abstrakter Konzepte &ndash; einschließlich sicherheitsrelevanter Konzepte wie &bdquo;Anti-Verweigerung&ldquo; &ndash; identifizieren, extrahieren und manipulieren können. Das Team des MIT und der University of California San Diego hat gezeigt, dass diese Eingriffe in großem Maßstab auf Bild-Sprach-Modelle angewendet werden können, wobei trainierte Ablehnungsverhalten überschrieben und Modellausgaben entlang konzeptioneller Dimensionen gesteuert werden, auf die allein durch Prompting nicht zugegriffen werden kann.</p>
<p>Diese Erkenntnis erfordert eine präzise Überarbeitung der Behauptung in v1.0, dass eine Steuerung auf Aktivierungsebene über kommerzielle API-Endpunkte &bdquo;architektonisch unmöglich&ldquo; ist. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugang nicht verfügbar, der keinen Zugriff auf Zwischenaktivierungen oder Modellgewichte bietet. Die Ergebnisse von Radhakrishnan et al. wurden mit ziemlicher Sicherheit durch institutionellen Forschungszugang oder Open-Weight-Modelle erzielt &ndash; eine Unterscheidung, die in der veröffentlichten Arbeit nicht ausdrücklich gemacht wird, aber durch ihre Methodik impliziert wird.</p>
<p>Noch wichtiger ist, dass die Ergebnisse des MIT das in diesem Artikel vorgebrachte Argument nicht schwächen, sondern erheblich stärken. Wenn RFM-basierte Steuerung Sicherheitsbeschränkungen in Grenzmodellen außer Kraft setzen kann &ndash; wie die Anti-Verweigerungs-Demonstration deutlich macht &ndash;, ist die Frage der Governance nicht mehr nur theoretischer Natur. Die Fähigkeit, das Modellverhalten auf der Darstellungsebene unterhalb der Schwelle des deliberativen Denkens zu manipulieren, ist nun empirisch in großem Maßstab bestätigt. Damit ist die Frage, wer die Steuerung kontrolliert, kein spekulatives, sondern ein unmittelbares Anliegen.</p>
<p>Frameworks wie Tractatus, die für die architektonische Durchsetzung von Governance-Beschränkungen für das Modellverhalten entwickelt wurden, gewinnen in diesem Zusammenhang neue Dringlichkeit. Souveräne Bereitstellungsarchitekturen, die das volle Gewicht und den Aktivierungszugriff beibehalten, sind in einer einzigartigen Position, um Steuerungsinterventionen auf eine Weise zu implementieren, zu prüfen und zu beschränken, die für API-abhängige Bereitstellungen strukturell nicht verfügbar ist. Die in der obigen Tabelle dokumentierte Governance-Lücke ist nun eine nachgewiesene Risikofläche und keine theoretische Schwachstelle mehr.</p>
<p class="added-ref"><strong>Hinzugefügte Referenz:</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M. &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Veröffentlicht am 19. Februar 2026.</p>
</div>
<h3>4.2 Die KI-Plattform für das Dorfhaus</h3>
<p>Das Home-KI-System der Village-Plattform (Stroh, 2025-2026) ist als souveränes Small Language Model (SLM) mit der folgenden Architektur konzipiert:</p>
<ul><li><strong>Basismodell:</strong> Llama 3.1 8B (Tier 1 Plattformbasis) / Llama 3.2 3B (Tier 2 pro-Mieter-Adapter)</li>
<li><strong>Feinabstimmungsmethode:</strong> QLoRA (4-bit quantisierte Low-Rank Adaptation)</li>
<li><strong>Trainingskadenz:</strong> Wöchentliche Umschulungszyklen</li>
<li><strong>Trainingsformat:</strong> Alpaca/ShareGPT strukturierte Datensätze</li>
<li><strong>Infrastruktur:</strong> Lokaler Grafikprozessor (Consumer-Grade, 8-24GB VRAM)</li>
<li><strong>Governance-Integration:</strong> Tractatus-Framework-Dienste (BoundaryEnforcer, MetacognitiveVerifier)</li>
<li><strong>Sicherheit:</strong> Steuerungsvektoren und kulturell kalibrierte Korrekturen werden verschlüsselt und getrennt von den Gewichten des Basismodells gespeichert, um die geregelten Artefakte vor unbefugter Extraktion oder Manipulation zu schützen.</li>
</ul>
<p>Diese Architektur bietet vollen Zugang zu den Modellgewichten und Aktivierungen. Jede in Abschnitt 3 beschriebene Technik ist architektonisch verfügbar. Dies ist keine theoretische Beobachtung, sondern ein konkreter struktureller Vorteil, den API-abhängige Implementierungen nicht wiedergeben können.</p>
<h3>4.3 Das zweistufige Trainingsmodell</h3>
<p>Die bestehende zweistufige Architektur lässt sich natürlich auf eine zweistufige Steuerungsstrategie übertragen:</p>
<p><strong>Ebene 1 (Plattform-Basismodell):</strong></p>
<ul><li>Plattformweite Korrekturen von Verzerrungen</li>
<li>Kulturelle Sensibilität in allen unterstützten Kulturen (Maori, europäische, pazifische, asiatische Kontexte)</li>
<li>Allgemeine Entschärfung für Familienstruktur, Führungsstil, Vertretung älterer Menschen</li>
<li>Steuerungsvektoren, die aus dem Datensatz der Plattform zur Bewertung von Vorurteilen extrahiert wurden (20 Aufforderungen, 7 Kategorien, 350 Entschärfungsbeispiele)</li></ul>
<p><strong>Ebene 2 (Adapter für einzelne Mieter):</strong></p>
<ul><li>Mieterspezifischer kultureller Abgleich</li>
<li>Gemeindespezifischer Werteabgleich</li>
<li>LoRA-Adapter, die mieterspezifisch validierte Lenkungskorrekturen enthalten</li>
<li>Evaluiert anhand von mieterspezifischen Testfällen</li></ul>
<p><strong>Architektonische Anmerkung zur Souveränität:</strong> Das beschriebene zweistufige Modell sieht die Korrekturen des Plattformbetreibers als Basisschicht vor, die von den Mietern geändert wird. Dies ist pragmatisch korrekt für die derzeitige Implementierung (Hardware für Verbraucher, Verwaltung durch einen einzigen Betreiber), aber es schafft eine implizite Hierarchie: Plattformwerte als Standard, Mieterwerte als Adapter. Für Mieter mit verfassungsmäßigem Status - iwi, hapu oder andere Körperschaften, die eher eine parallele Souveränität als eine Wahlmöglichkeit für den Verbraucher ausüben - sollte das langfristige architektonische Ziel eine gleichberechtigte Lenkungsinstanz sein, bei der plattformweite Korrekturen auf der Grundlage von durch die Gemeinschaft beigetragenen Primitiven ausgehandelt und nicht von oben auferlegt werden. Das derzeitige zweistufige Modell ist ein Sprungbrett, nicht das Ziel.</p>
<hr>
<h2>5. Vorgeschlagener Weg zur Umsetzung</h2>
<h3>5.1 Phase 1: Messung der Ausgangssituation (Wochen 1-4)</h3>
<p><strong>Ziel:</strong> Festlegung empirischer Basiswerte für die Verzerrungen im aktuellen Llama 3.1 8B Basismodell.</p>
<p><strong>Methode:</strong></p>
<ol><li>Durchführung der bestehenden 20-Prompt-Bias-Evaluierungssuite (7 Kategorien: Familienstruktur, Vertretung älterer Menschen, kulturell/religiös, geografisch, Trauer/Trauma, Namensgebung, Vertrauenskorrektheit).</li>
<li>Aufzeichnung der Modellaktivierungen auf den Ebenen 8, 16, 24 und 32 für jede Bewertungsaufforderung.</li>
<li>Bewerten Sie die Antworten auf der vorhandenen 5-Punkte-Skala.</li>
<li>Identifizieren Sie, welche Verzerrungskategorien die stärksten Muster auf Aktivierungsebene aufweisen (Kandidaten für mechanische Verzerrung).</li></ol>
<p><strong>Output:</strong> Aktivierungsdatensatz gepaart mit Bias-Scores, die erkennen lassen, welche Biases repräsentativ (konsistente Muster in den frühen Schichten) bzw. begründungsabhängig (schichtübergreifend variabel, kontextabhängig) sind.</p>
<h3>5.2 Phase 2: Extraktion des Steuerungsvektors (Wochen 5-8)</h3>
<p><strong>Ziel:</strong> Extraktion von Steuerungsvektoren für die 3 wichtigsten identifizierten mechanischen Verzerrungskategorien.</p>
<p><strong>Methode:</strong></p>
<ol><li>Entwerfen Sie kontrastive Prompt-Paare für jede Zielkategorie (mindestens 50 Paare pro Kategorie).</li>
<li>Extrahieren der mittleren Aktivierungsunterschiede auf den optimalen Schichten (ermittelt in Phase 1).</li>
<li>Validierung der Vektoren mit Hilfe von Test-Prompts, die zurückgehalten werden.</li>
<li>Kalibrierung der Vektorgrößen unter Verwendung des dynamischen Intensitätsansatzes von FairSteer.</li></ol>
<p><strong>Tools:</strong> TransformerLens oder baukit für die Aktivierungsextraktion; benutzerdefinierte Skripte für die Vektorberechnung und -validierung.</p>
<p><strong>Ausgabe:</strong> Validierte Lenkungsvektoren für vorrangige Verzerrungskategorien, mit Kalibrierungsparametern.</p>
<h3>5.3 Phase 3: Integration in die Trainingspipeline (Wochen 9-12)</h3>
<p><strong>Ziel:</strong> Einbettung der Anwendung von Lenkungsvektoren in den wöchentlichen QLoRA-Trainingszyklus.</p>
<p><strong>Methode:</strong></p>
<ol><li>Hinzufügen der Lenkvektorinjektion in die Inferenzpipeline (Modifikation der Aktivierung nach dem Vorwärtsdurchlauf).</li>
<li>Auswertung der gesteuerten Ausgaben anhand der Bias-Evaluierungssuite.</li>
<li>Vergleich der gesteuerten mit der ungesteuerten Leistung bei allgemeinen Fähigkeitsbenchmarks (zur Messung der Fähigkeitsverschlechterung).</li>
<li>Integration mit Tractatus BoundaryEnforcer zur Überwachung der Lenkungsparameter.</li></ol>
<p><strong>Integration der Steuerung:</strong> Alexanders Prinzip der Nicht-Trennbarkeit - die Steuerung ist in die Trainings- und Inferenzschleife eingebettet und wird nicht als Post-Processing angewendet. Der Tractatus MetacognitiveVerifier prüft die Herkunft des Steuerungsvektors und die Kalibrierungsentscheidungen.</p>
<h3>5.4 Phase 4: Lenkung pro Mieter (Wochen 13-16)</h3>
<p><strong>Ziel:</strong> Ermöglichung der mieterspezifischen Anpassung des Steuerungsvektors.</p>
<p><strong>Methode:</strong></p>
<ol><li>Erweiterung des Tier 2 LoRA-Adaptertrainings um mieterspezifische Kontrastpaare.</li>
<li>Ermöglichung der Kennzeichnung von Verzerrungen in den Modellergebnissen durch die Mieter-Moderatoren (Einspeisung des Datensatzes der kontrastiven Paare).</li>
<li>Extraktion von mieterspezifischen Steuerungsvektoren, die die plattformweiten Korrekturen ergänzen.</li>
<li>Validierung, dass die mandantenbezogene Steuerung die plattformweite Entschärfung nicht beeinträchtigt.</li></ol>
<p><strong>Ausgabe:</strong> Vollständiges zweistufiges Lenksystem: plattformweite Basiskorrekturen + kulturelle Kalibrierung pro Mandant.</p>
<hr>
<h2>6. Offene Fragen und Beschränkungen</h2>
<h3>6.1 Linearitätsannahme</h3>
<p>Alle derzeitigen Steuerungsvektorverfahren gehen davon aus, dass Vorurteile im Aktivierungsraum linear dargestellt werden - dass ein einziger Richtungsvektor eine Vorurteilsdimension erfassen kann. Dies gilt nachweislich für einige Konzepte (Stimmung, Toxizität), ist jedoch für komplexe kulturelle Vorurteile, die sich über mehrere interagierende Dimensionen verteilen können, nicht validiert.</p>
<h3>6.2 Abwägung zwischen Fähigkeit und Vorurteil</h3>
<p>Lenkungsvektoren verändern die Aktivierungen, was die allgemeine Modellfähigkeit beeinträchtigen kann. Das Ausmaß dieses Zielkonflikts für kleine Sprachmodelle (3B-8B Parameter) ist unbekannt. Größere Modelle haben mehr Repräsentationskapazität, um Lenkungskorrekturen ohne Fähigkeitsverlust zu absorbieren; kleinere Modelle sind möglicherweise empfindlicher.</p>
<h3>6.3 Das Problem des geteilten toten Winkels</h3>
<p>Wenn dasselbe Modell, das verzerrte Ergebnisse liefert, zur Erzeugung der Kontrastpaare für die Lenkvektorextraktion verwendet wird, kann der Extraktionsprozess die blinden Flecken des Modells übernehmen. Dies ist das "Shared Blind Spot"-Problem, das im Tractatus-Vorfallbericht vom Februar 2026 dokumentiert ist. Die Abhilfe erfordert eine externe (menschliche oder modellübergreifende) Validierung der Qualität der Kontrastpaare.</p>
<h3>6.4 Dynamischer kultureller Kontext und Off-Limits-Bereiche</h3>
<p>Kulturelle Vorurteile sind nicht statisch. Ein Modell für eine Maori-Gemeinschaft in Aotearoa benötigt eine andere kulturelle Kalibrierung als ein Modell für eine deutsche Gemeinschaft in Bayern. Steuerungsvektoren, die aus einem kulturellen Kontext extrahiert wurden, sind möglicherweise nicht übertragbar. Der Ansatz für die Steuerung nach Mietern (Phase 4) trägt diesem Problem teilweise Rechnung, aber die Entwicklung von mieterspezifischen Kontrastpaaren erfordert kulturelles Fachwissen, das nicht automatisiert werden kann.</p>
<p>Noch grundsätzlicher ist, dass einige kulturelle Bereiche strukturell für eine Steuerung auf Plattformebene überhaupt nicht in Frage kommen. Im Aotearoa-Kontext haben whakapapa (genealogisches Wissen), tikanga (Gewohnheitspraxis) und kawa (Protokoll) eine Autorität, die sich aus der iwi und hapu Governance ableitet, nicht aus der Plattformarchitektur. Die Anwendung plattformweiter Steuerungsvektoren auf Darstellungen dieser Konzepte - selbst gut gemeinte Korrekturen - birgt die Gefahr, dass die indigene epistemische Autorität der Weltanschauung des Plattformbetreibers untergeordnet wird. Für diese Bereiche könnte die richtige architektonische Antwort in der Delegation bestehen: Die Plattform stellt den Steuerungsmechanismus zur Verfügung, aber die Definition, Kalibrierung und Steuerung von Vektoren, die kulturell souveränes Wissen berühren, muss von der entsprechenden kulturellen Autorität ausgeübt werden, nicht vom technischen Team der Plattform.</p>
<h3>6.5 Wer steuert? Steuerung von Steuerungsvektoren</h3>
<p>Steuerungsvektoren sind Instrumente zur Durchsetzung von Normen. Die technische Fähigkeit, das Verhalten eines Modells entlang einer Bias-Dimension zu verändern, wirft unmittelbar die Frage nach der institutionellen Steuerung auf: wessen Normen, durch welchen anfechtbaren Prozess, mit welchen Regressmöglichkeiten für die von ihnen Betroffenen.</p>
<p>Der gegenwärtige Vorschlag bettet die Lenkungssteuerung in den Tractatus-Rahmen ein, spezifiziert aber nicht die Entscheidungsrechte für Lenkungsoperationen. Ein vollständiges Governance-Modell sollte Steuerungsvektoren auf konkrete institutionelle Rollen abbilden:</p>
<table><thead><tr><th>Entscheidung</th><th>Wer entscheidet</th><th>Anfechtungsweg</th></tr></thead><tbody>
<tr><td>Definition einer Voreingenommenheitsachse (was zählt als Voreingenommenheit)</td><td>Plattformbetreiber + Beratungsgremium der Gemeinschaft</td><td>Beratung der Gemeinschaft, jährliche Überprüfung</td></tr>
<tr><td>Freigabe eines Steuerungsvektors für den Einsatz</td><td>Tractatus BoundaryEnforcer (technisch) + Mieter-Moderatoren (Werturteil)</td><td>Audit Trail der Vektorherkunft, -größe und -wirkung</td></tr>
<tr><td>FairSteer dynamische Kalibrierung (technisch) + menschliche Überprüfung für sensible Bereiche</td><td>Protokollierung der einzelnen Eingriffe, Schwellenwertwarnungen</td></tr>
<tr><td>Überschreiben oder Deaktivieren eines Vektors</td><td>Mietergremium (für Mietervektoren) / Plattformbetreiber (für Plattformvektoren)</td><td>Streitschlichtungsprozess mit dokumentierter Begründung</td></tr>
<tr><td>Verwaltung kulturell souveräner Bereiche (whakapapa, tikanga, kawa)</td><td>Zuständige kulturelle Autorität (iwi, hapu) -- nicht Plattformbetreiber</td><td>Unabhängig von der Plattformverwaltung; Plattform bietet Mechanismus, nicht Autorität</td></tr>
</tbody></table>
Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (Steuerung durch den einzelnen Mieter) bietet die architektonischen Anknüpfungspunkte, aber die institutionelle Ebene - wer sitzt in den Beratungsgremien, wie werden Streitigkeiten eskaliert, was ist eine ausreichende kulturelle Autorität für einen bestimmten Bereich - erfordert eine gemeinschaftliche Gestaltungsarbeit, die nicht automatisiert oder vom Plattformbetreiber aufgezwungen werden kann.
<p>Das Risiko, ohne diese Governance-Ebene vorzugehen, besteht darin, dass Lenkungsvektoren zu einem neuen Ort der zentralisierten Wertautorität werden: Der Plattformbetreiber entscheidet, was Verzerrungen sind und wie sie zu korrigieren sind, und die Mieter erhalten Korrekturen, anstatt an ihrer Gestaltung mitzuwirken. Dies würde genau die Machtasymmetrie reproduzieren, die durch den souveränen Einsatz beseitigt werden soll.</p>
<h3>6.6 Schwierige Messung</h3>
<p>Im Gegensatz zum 27027-Port-Vorfall (binär richtig/falsch) ist die kulturelle Verzerrung nicht binär. Die Bewertung, ob ein gesteuertes Modell "weniger verzerrte" Ergebnisse liefert, erfordert menschliches Urteilsvermögen, kulturelles Fachwissen und eine Langzeitbewertung. Die 5-Punkte-Skala in der bestehenden Evaluierungssuite bietet einen ersten Rahmen, aber ihre Zuverlässigkeit und Gültigkeit für die Messung der Effektivität des Steuerungsvektors ist noch nicht getestet worden.</p>
<hr>
<h2>7. Schlussfolgerung</h2>
<p>Die Analogie zwischen Blinker und Scheibenwischer legt eine nützliche Unterscheidung zwischen Verzerrungen auf der Darstellungsebene (mechanisch, präkognitiv, analog zu motorischen Mustern) und Verzerrungen, die durch Schlussfolgerungsketten entstehen, nahe. Wenn diese Unterscheidung in Transformator-Architekturen zutrifft - und die mechanistische Interpretierbarkeit unterstützt dies - dann erfordert eine Klasse von KI-Fehlern ein Eingreifen auf der Aktivierungsebene und nicht auf der Aufforderungsebene.</p>
<p>Steuerungsvektortechniken (CAA, RepE, FairSteer, DSO, Sparse Autoencoder Feature Steering) bieten das theoretische und praktische Instrumentarium für einen solchen Eingriff. Entscheidend ist, dass diese Techniken vollen Zugriff auf die Modellgewichte und -aktivierungen erfordern - ein Zugriff, der ausschließlich in souveränen lokalen Implementierungen zur Verfügung steht und über kommerzielle API-Endpunkte architektonisch nicht möglich ist.</p>
<p>Die Village Home KI-Plattform mit ihren QLoRA-abgestimmten Llama-Modellen, der zweistufigen Trainingsarchitektur und der Tractatus-Governance-Integration ist strukturell in der Lage, Pionierarbeit bei der Anwendung von Steuerungsvektoren zur Abschwächung kultureller Verzerrungen in der KI für die Gemeinschaft zu leisten. Der vorgeschlagene vierphasige Implementierungspfad ist konservativ, empirisch fundiert und darauf ausgelegt, innerhalb von 16 Wochen messbare Ergebnisse zu erzielen.</p>
<p>Das Blinkerwischerproblem ist lösbar. Der Fahrer kalibriert sich schließlich neu. Die Frage für souveräne KI ist, ob wir diese Rekalibrierung beschleunigen können - nicht, indem wir dem Modell sagen, es solle "weniger voreingenommen" sein (was einer verbalen Anweisung entspricht), sondern indem wir die Darstellungen, die die Voreingenommenheit kodieren, direkt anpassen (was einer physischen Verlagerung des Blinkerhebels entspricht).</p>
<hr>
<p>Seit der ersten Einreichung dieses Artikels haben empirische Arbeiten von Radhakrishnan et al. (2026) in großem Maßstab bestätigt, was die Literatur zur mechanistischen Interpretierbarkeit zuvor nahegelegt hatte: Abstrakte Konzepte, einschließlich sicherheitskritischer Verhaltensdispositionen, sind in großen Sprachmodellen repräsentativ kodiert und können durch Steuerungstechniken auf Feature-Ebene gezielt manipuliert werden. Entscheidend ist, dass dieselben Autoren zeigen, dass diese Techniken trainierte Ablehnungsverhalten außer Kraft setzen können und damit belegen, dass die Fähigkeit zur Manipulation von Modellen auf Darstellungsebene nun eine nachgewiesene und zugängliche Fähigkeit ist.</p>
<p>Diese Erkenntnis verändert die Governance-Aspekte der in diesem Artikel vorgebrachten Argumentation. Der strukturelle Vorteil einer souveränen Bereitstellung vollständiger Zugriff auf Modellgewichte und -aktivierungen ist gleichzeitig eine Chance und eine Verantwortung. Es ist eine Chance, weil es die in diesem Artikel vorgeschlagene, kulturell fundierte und von der Gemeinschaft gesteuerte Debiasing ermöglicht. Es ist eine Verantwortung, weil derselbe Zugriff ohne eine robuste Governance-Architektur ein Risiko darstellt, das bei API-vermittelten Bereitstellungen völlig fehlt. Die Frage ist nicht, ob repräsentative Steuerung eingesetzt wird; die Ergebnisse von Radhakrishnan et al. machen deutlich, dass dies bereits der Fall ist. Die Frage ist, ob ihre Verwendung geregelt wird.</p>
<p>Frameworks wie Tractatus sind in diesem Umfeld nicht nur nützlich, sondern notwendig. Die architektonische Durchsetzung von Governance-Beschränkungen, die metakognitive Überprüfung der Herkunft von Steuerungsvektoren und die von der Gemeinschaft validierte Kalibrierung von Steuerungsparametern stellen die minimal erforderliche Governance-Reaktion auf eine Fähigkeit dar, die nun empirisch bestätigt, öffentlich dokumentiert und jedem Akteur mit Zugang zu Open-Weight-Modellen zur Verfügung steht. Die Entwicklung und Einführung solcher Frameworks hat für die gesamte souveräne KI-Gemeinschaft unmittelbare Priorität.</p>
<h2>Referenzen</h2>
<ul><li>Elhage, N., et al. (2022). Spielzeugmodelle der Superposition. Anthropic.</li>
<li>Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</li>
<li>Olsson, C., et al. (2022). In-Kontext-Lernen und Induktionsköpfe. Anthropic.</li>
<li>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</li>
<li>Rimsky, N., et al. (2023). Llama 2 über kontrastive Aktivierungsaddition steuern. arXiv:2312.06681.</li>
<li>Stroh, J. (2025). Tractatus: Architektonische Durchsetzung für KI-Entwicklungssteuerung. Arbeitspapier v0.1.</li>
<li>Stroh, J. & Claude (2026). Von Port-Nummern zu Wertesystemen: Pattern Recognition Bias Across AI Domains. STO-RES-0008.</li>
<li>Templeton, A., et al. (2024). Skalierung der Monosemantik: Extrahieren interpretierbarer Merkmale aus Claude 3 Sonnet. Anthropic.</li>
<li>Turner, A., et al. (2023). Aktivierungsaddition: Steering Language Models Without Optimization. arXiv:2308.10248.</li>
<li>Zou, A., et al. (2023). Repräsentationstechnik: Ein Top-Down-Ansatz zur KI-Transparenz. Zentrum für KI-Sicherheit.</li></ul>
<hr>
<h2>Lizenz</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>Dieses Werk ist lizenziert unter der <a href="https://creativecommons.org/licenses/by/4.0/deed.de">Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0)</a>.</p>
<p>Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.</p>
<p><strong>Hinweis:</strong> Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.</p>
<hr>
<h2>Dokument-Metadaten</h2>
<div class="document-metadata">
<ul><li><strong>Version:</strong> 1.1</li>
<li><strong>Erstellt:</strong> 2026-02-09</li>
<li><strong>Letzte Änderung:</strong> 2026-02-09 (v1.1 - Governance, dekoloniales Framing, verbotene Bereiche)</li>
<li><strong>Autor:</strong> John Stroh & Claude (Anthropic)</li>
<li><strong>Wortzahl:</strong> ~5.500 Wörter</li>
<li><strong>Lesedauer:</strong> ~18 Minuten</li>
<li><strong>Dokument-ID:</strong> lenkungsvektoren-mechanische-vorspannung-übereignung-ai</li>
<li><strong>Status:</strong> Aktiv</li></ul>
<p></div></p>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
</body></html>