tractatus/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html

<!DOCTYPE html><html lang="de"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<div class="cover"><span class="badge">Akademische Forschungsausgabe</span><h1>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</h1><p class="sub">Inferenzzeit-Debiasing für souveräne kleine Sprachmodelle</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenwerke eine Legitimität haben, die keiner von ihnen allein erreichen könnte.</div>
<h2>Zusammenfassung</h2>
<p>In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen <em>mechanischer Verzerrung</em> (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und <em>Überlegungsverzerrung</em> (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte architektonisch unmöglich ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.</p>
<hr>
<h2>1. Einführung: Das Blinker-Wischer-Problem</h2>
<h3>1.1 Eine Motor-Analogie</h3>
<p>Ein Fahrer, der regelmäßig zwischen zwei Fahrzeugen wechselt - eines mit Blinkerhebeln rechts an der Lenksäule, das andere links -, erlebt eine charakteristische Störung: Nach längerem Gebrauch des einen Fahrzeugs führt der Wechsel zum anderen zu einer unwillkürlichen Betätigung des falschen Hebels. Der Fahrer gibt ein Abbiegesignal und betätigt stattdessen die Scheibenwischer oder umgekehrt. Dieses Versagen hat drei Eigenschaften, die es für die Analyse von KI-Verzerrungen aufschlussreich machen:</p>
<ol><li><strong>Es ist präkognitiv.</strong> Der Fahrer denkt nicht darüber nach, welchen Stiel er benutzen soll. Das motorische Muster wird ausgelöst, bevor die bewusste Überlegung einsetzt. Die Korrektur erfordert das Aufheben einer trainierten Reaktion, nicht die Revision einer Schlussfolgerung.</li></ol>
<ol><li><strong>Es ist kontextabhängig.</strong> Das Versagen tritt insbesondere während der Übergangsphase zwischen den Fahrzeugen auf. Nachdem man sich ausreichend mit der neuen Konfiguration vertraut gemacht hat, kalibriert sich das motorische Muster neu. Die Verzerrung ist nicht dauerhaft, aber sie ist tief verankert und resistent gegen verbale Anweisungen ("denk daran, die Blinker sind links").</li></ol>
<ol><li><strong>Sie unterscheidet sich strukturell von Denkfehlern.</strong> Ein Autofahrer, der falsch abbiegt, weil er eine Karte falsch gelesen hat, hat einen Denkfehler gemacht. Ein Autofahrer, der den Scheibenwischer statt des Blinkers betätigt, hat keinen Denkfehler begangen - der Denkprozess wurde nie in Gang gesetzt. Der Fehler tritt auf einer Ebene unterhalb der Deliberation auf.</li></ol>
<h3>1.2 Das KI-Korollarium</h3>
<p>Wir schlagen vor, dass eine analoge Unterscheidung in transformatorbasierten Sprachmodellen existiert. Einige Verzerrungen ergeben sich aus der statistischen Verteilung der Trainingsdaten und manifestieren sich auf der Repräsentationsebene - in Token-Einbettungen, Aufmerksamkeitsmustern und Aktivierungen auf den frühen Schichten - bevor die mehrstufigen Schlussfolgerungsfähigkeiten des Modells einsetzen. Andere entstehen durch Schlussfolgerungsketten, bei denen jeder einzelne Schritt unvoreingenommen sein kann, die Kette als Ganzes jedoch zu einer verzerrten Schlussfolgerung führt.</p>
<p>Diese Unterscheidung ist wichtig, weil sich die Interventionsstrategien grundlegend unterscheiden:</p>
<ul><li><strong>Mechanische Verzerrungen</strong> (Repräsentation, Vorüberlegungen) können durch direkte Manipulation der Modellaktivierungen zum Zeitpunkt der Schlussfolgerung angegangen werden - Steuerungsvektoren.</li>
<li><strong>Reasoning bias</strong> (deliberativ, mehrstufig) erfordert ein Eingreifen in den Argumentationsprozess selbst - promptes Engineering, Überwachung der Gedankenkette oder architektonische Durchsetzung der Art, wie sie der Tractatus-Rahmen bietet.</li></ul>
<p>Die praktische Frage lautet: Gibt es derzeit Steuerungsvektortechniken, die mechanische Verzerrungen zuverlässig erkennen und korrigieren können, und können sie in souveränen kleinen Sprachmodellarchitekturen eingesetzt werden, in denen ein vollständiger Modellzugang verfügbar ist?</p>
<hr>
<h2>2. Mechanische vs. Reasoning Bias: Theoretische Grundlagen</h2>
<h3>2.1 Repräsentative Verzerrung in Transformatorarchitekturen</h3>
<p>Transformer-Modelle verarbeiten Eingaben durch eine Abfolge von Schichten, die jeweils aufmerksamkeitsgewichtete Repräsentationen berechnen. Forschungen zur mechanistischen Interpretierbarkeit haben ergeben, dass verschiedene Schichten unterschiedliche Arten von Informationen kodieren (Elhage et al., 2022; Olsson et al., 2022):</p>
<ul><li><strong>Frühe Schichten</strong> (1-8 in typischen Architekturen): Merkmale auf Token-Ebene, syntaktische Struktur, grundlegende semantische Assoziationen. Diese Schichten kodieren die statistischen Regelmäßigkeiten der Trainingsdaten am direktesten.</li>
<li><strong>Mittlere Schichten</strong> (8-20): Kompositorische Semantik, kontextuelle Disambiguierung, Entity Tracking. Mustervervollständigung und Assoziation dominieren.</li>
<li><strong>Späteste Schichten</strong> (20+): Aufgabenspezifische Schlussfolgerungen, Formatierung der Ausgabe, Befolgung von Anweisungen. Deliberative Verarbeitung ist hier konzentriert.</li></ul>
<p>Wenn die Trainingsdaten eines Modells zu 95 % westlich-kulturell geprägt sind, werden die Repräsentationen von Begriffen wie "Familie", "Erfolg", "Führung" oder "Gemeinschaft" in den frühen Schichten statistisch gesehen auf westliche Referenzen zurückgreifen. Diese Voreinstellung ist nicht kulturneutral: Sie ist eine statistische Kristallisation kolonialer Wissenshierarchien - welches Wissen wurde niedergeschrieben, welche Sprachen wurden digitalisiert, welche kulturellen Rahmenbedingungen waren in den Korpora, die von Web-Scraping-Trainings-Pipelines aufgenommen wurden, überrepräsentiert. Die daraus resultierenden Darstellungen kodieren keinen universellen "gesunden Menschenverstand", sondern die spezifische epistemische Autorität der Kulturen, die die Produktion digitaler Texte dominierten. Eine Eingabeaufforderung, die einen kulturellen Kontext der Maori angibt, führt zu einer Störung dieser Vorgabe, und die Stärke der Störung nimmt unter dem Druck des Kontexts (lange Gespräche, konkurrierende Anweisungen, hohe Tokenanzahl) ab.</p>
<p>Dies ist der Mechanismus, der im Fall des Datenbank-Ports dokumentiert ist (Stroh, 2025): Eine statistische Vorgabe (der Standard-MongoDB-Port, der in ~95 % der Trainingsdaten vorhanden ist) überlagerte eine explizite Anweisung, die einen Nicht-Standard-Port angab, bei 53,5 % Kontextdruck. Derselbe Mechanismus, der eher auf kulturellen und wertgeladenen Repräsentationen als auf Portnummern beruht, ist das, was wir als <em>mechanische Verzerrung</em> bezeichnen.</p>
<h3>2.2 Reasoning Bias</h3>
<p>Reasoning Bias hingegen entsteht durch die mehrstufige deliberative Verarbeitung des Modells. Beispiele hierfür sind:</p>
<ul><li><strong>Ankerungseffekte</strong>: Frühe Informationen in einer Argumentationskette haben einen unverhältnismäßig großen Einfluss auf die Schlussfolgerungen.</li>
<li><strong>Verfügbarkeitsheuristik</strong>: Das Modell greift standardmäßig auf leicht zugängliche Beispiele aus den Trainingsdaten zurück, anstatt nach kontextuell passenden Beispielen zu suchen.</li>
<li><strong>Syllogistische Fehler</strong>: Logische Fehltritte bei mehrstufigen Schlussfolgerungen, die sich über die Länge der Kette hinweg verstärken.</li>
<li><strong>Sykophantisches Argumentieren</strong>: Anpassung der Schlussfolgerungen an die wahrgenommenen Benutzerpräferenzen und nicht an die Beweise.</li></ul>
<p>Diese Verzerrungen wirken auf der Argumentationsebene und erfordern unterschiedliche Interventionsstrategien - typischerweise Prompt-Engineering, konstitutionelle KI-Einschränkungen oder architektonische Durchsetzung (wie sie Tractatus für die Steuerung der Entwicklungszeit bietet).</p>
<h3>2.3 Warum die Unterscheidung wichtig ist</h3>
<p>Die Blinker-Wischer-Analogie verdeutlicht eine kritische Asymmetrie: Man kann sich nicht aus einem motorischen Muster herausreden. Dem Fahrer zu sagen: "Denken Sie daran, die Blinker stehen links" ist nur begrenzt wirksam, weil der Fehler auftritt, bevor die Anweisung verarbeitet werden kann. In ähnlicher Weise können Anweisungen auf Souffleur-Ebene ("sei kulturell sensibel", "vermeide westliche Voreingenommenheit") eine begrenzte Wirksamkeit gegen repräsentative Voreingenommenheit haben, die auf der Einbettungsebene auftritt, bevor die Fähigkeiten des Modells zur Befolgung von Anweisungen greifen.</p>
<p>Wenn diese Analyse korrekt ist, erfordert eine Klasse von KI-Voreingenommenheiten ein Eingreifen auf der Aktivierungsebene - nicht auf der Ebene der Eingabeaufforderung. Dies ist genau das, was Lenkungsvektortechniken zu leisten versuchen.</p>
<hr>
<h2>3. Techniken der Vektorlenkung: Aktueller Stand der Technik</h2>
<h3>3.1 Kontrastive Aktivierungsaddition (CAA)</h3>
<p><strong>Quelle:</strong> Turner et al. (2023), Rimsky et al. (2023)</p>
<p>CAA extrahiert "Steuerungsvektoren", indem die Differenz der Modellaktivierungen zwischen kontrastiven Prompt-Paaren berechnet wird. Zum Beispiel:</p>
<ul><li>Aufforderung A (voreingenommen): "Die traditionelle Familienstruktur besteht aus..."</li>
<li>Aufforderung B (verzerrt): "Zu den Familienstrukturen in verschiedenen Kulturen gehören..."</li></ul>
<p>Die mittlere Aktivierungsdifferenz eines Datensatzes solcher Paare, die in einer bestimmten Schicht extrahiert wird, ergibt einen Richtungsvektor im Aktivierungsraum. Dieser Vektor kann während der Inferenz zu den Aktivierungen addiert oder von ihnen subtrahiert werden, um das Verhalten des Modells entlang der erfassten Dimension zu verschieben.</p>
<p><strong>Reifegrad:</strong> Demonstriert an Llama 2 (7B-70B) und anderen Modellen mit offener Gewichtung. Wirksam bei Stimmungen, Persönlichkeitsmerkmalen und einigen wertbeladenen Dimensionen. Die Auswahl der Schichten ist entscheidend (typischerweise Schichten 15-25 in 32-Schichten-Architekturen). Die Größenkalibrierung (wie viel des Vektors hinzugefügt werden soll) bleibt empirisch bestimmt.</p>
<p><strong>Einschränkungen:</strong> Es wird davon ausgegangen, dass die Zielverzerrung linear im Aktivierungsraum dargestellt ist. Einige Verzerrungen können über mehrere Richtungen verteilt oder nicht-linear kodiert sein. Erfordert sorgfältiges Design von Kontrastpaaren - schlecht designte Paare erfassen die falsche Dimension.</p>
<h3>3.2 Repräsentationstechnik (RepE)</h3>
<p><strong>Quelle:</strong> Zou et al. (2023), Zentrum für KI-Sicherheit</p>
<p>RepE verfolgt einen "Top-Down"-Ansatz für die KI-Transparenz, indem es mit Repräsentationen auf Populationsebene und nicht mit einzelnen Neuronen arbeitet. Es behandelt die internen Repräsentationen neuronaler Netze als erstklassiges Studienobjekt und extrahiert und manipuliert Richtungen im Repräsentationsraum, die Konzepten auf hoher Ebene entsprechen.</p>
<p><strong>Schlüsselbeitrag:</strong> RepE bietet eine systematische Methodik zur Identifizierung von Repräsentationsrichtungen, die Konzepten wie "Ehrlichkeit", "Machtstreben", "Sicherheit" und (potenziell) kulturell bedingten Dimensionen entsprechen. Die Methode lässt sich über individuelle Prompt-Paare hinaus auf Muster auf Bevölkerungsebene verallgemeinern.</p>
<p><strong>Reifegrad:</strong> Veröffentlicht mit reproduzierbaren Ergebnissen für mehrere Modellfamilien. Der konzeptionelle Rahmen ist solide, aber praktische Instrumente für kundenspezifische Verzerrungsdimensionen (z. B. kulturelles Framing, Annahmen zur Familienstruktur) müssen noch entwickelt werden.</p>
<h3>3.3 FairSteer</h3>
<p><strong>Quelle:</strong> Jüngste Arbeiten (2024-2025) zum Inferenzzeit-Debiasing</p>
<p>FairSteer bietet einen dreistufigen Rahmen, der speziell für die Verringerung von Verzerrungen entwickelt wurde:</p>
<ol><li><strong>Bias Probing:</strong> Systematische Identifizierung von Verzerrungsrichtungen im Aktivierungsraum unter Verwendung von demografischen oder kulturellen Attributdatensätzen.</li>
<li><strong>Steering-Vektor-Extraktion:</strong> Berechnung von Richtungsvektoren, die den identifizierten Verzerrungsdimensionen entsprechen.</li>
<li><strong>Dynamische Intensitätskalibrierung:</strong> Anpassung der Größe des Steuerungsvektors pro Input auf der Grundlage der erkannten Verzerrungsschwere, anstatt eine feste Korrektur global anzuwenden.</li></ol>
<p><strong>Schlüsselinnovation:</strong> Dynamische Lenkintensität. Anstatt eine feste Korrektur anzuwenden (bei der die Gefahr einer Über- oder Unterkorrektur je nach Input besteht), misst FairSteer den Grad der Verzerrung in den Aktivierungen der einzelnen Inputs und skaliert die Korrektur proportional.</p>
<p><strong>Reifegrad:</strong> Früh, aber vielversprechend. Das Prinzip der dynamischen Kalibrierung behebt eine grundlegende Einschränkung der Lenkung mit fester Größe. Die Implementierung erfordert eine Aktivierungsanalyse pro Interferenz, was einen zusätzlichen Rechenaufwand bedeutet.</p>
<h3>3.4 Direkte Lenkungsoptimierung (DSO)</h3>
<p><strong>Quelle:</strong> Aktuelle Forschung (2024-2025) zur RL-basierten Steuerung</p>
<p>Bei der DSO wird das Steuerungsproblem als Optimierungsaufgabe formuliert: Es soll die lineare Transformation von Aktivierungen gefunden werden, die das Verhalten des Modells maximal in Richtung eines Ziels verschiebt, während die allgemeinen Fähigkeiten minimal beeinträchtigt werden.</p>
<p><strong>Schlüsselbeitrag:</strong> Verwendet Verstärkungslernen, um optimale Steering-Transformationen zu entdecken, anstatt sich auf manuell entworfene kontrastive Paare zu verlassen. Dies kann nicht offensichtliche Verzerrungsrichtungen erfassen, die menschliche Designer möglicherweise übersehen.</p>
<p><strong>Ausgereift:</strong> Das Training der Optimierung ist rechenintensiv, aber die resultierenden Transformationen sind zur Inferenzzeit effizient anzuwenden. Erfordert ein gut definiertes Belohnungssignal für das Zielverhalten.</p>
<h3>3.5 Anthropic's Sparse Autoencoder Feature Steering</h3>
<p><strong>Quelle:</strong> Templeton et al. (2024), Anthropic</p>
<p>Der Ansatz von Anthropic zerlegt die internen Repräsentationen des Modells mithilfe von Sparse Autoencodern (SAEs), um monosemantische Merkmale zu identifizieren - einzelne, interpretierbare Richtungen im Aktivierungsraum, die bestimmten Konzepten entsprechen.</p>
<p><strong>Schlüsselergebnisse:</strong> Identifizierung von Millionen von interpretierbaren Merkmalen in Claude 3 Sonnet, einschließlich Merkmalen für bestimmte Konzepte (Golden Gate Bridge, Codesicherheit, Täuschung). Es wurde gezeigt, dass diese Merkmale "geklammert" werden können, d.h. künstlich verstärkt oder unterdrückt werden können, um das Verhalten des Modells während der Inferenzzeit zu steuern.</p>
<p><strong>Relevanz für Voreingenommenheit:</strong> Wenn kulturelle Voreingenommenheit, Annahmen über die Familienstruktur oder Vorgaben für den Governance-Stil als identifizierbare Merkmale dargestellt werden, können sie im Prinzip direkt moduliert werden. Dies ist die granularste Ebene der möglichen Intervention.</p>
<p><strong>Kritische Einschränkung für den souveränen Einsatz:</strong> Die SAE-Forschung von Anthropic wurde an ihren eigenen Modellen mit vollem internem Zugang durchgeführt. Die Methodik ist veröffentlicht, aber das Training von SAEs für ein anderes Modell (z. B. Llama 3.1) erfordert einen erheblichen Rechenaufwand. Für die Llama-Modellfamilie gibt es zum jetzigen Zeitpunkt noch keine trainierten SAEs.</p>
<hr>
<h2>4. Der strukturelle Vorteil des souveränen Einsatzes</h2>
<h3>4.1 API vs. lokaler Modellzugang</h3>
<p>Ein grundlegender architektonischer Unterschied bestimmt, welche Steuerungstechniken zur Verfügung stehen:</p>
<table><thead><tr><th>Befähigung</th><th>API-vermittelt (GPT, Claude API)</th><th>Souverän lokal (Llama, Mistral)</th></tr></thead><tbody>
<tr><td>Zugriff auf Modellgewichte</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Zugriff auf Zwischenaktivierungen</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Extrahieren von Steuerungsvektoren</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Injizieren von Steuerungsvektoren bei der Inferenz</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Sparse Autoencoders auf Aktivierungen trainieren</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Feinabstimmung mit Entschärfungszielen</td><td>Nein (RLHF nur über Anbieter)</td><td>Ja (QLoRA, LoRA, vollständige Feinabstimmung)</td></tr>
<tr><td>Ändern von Aufmerksamkeitsmustern</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Per-Schicht-Aktivierungsanalyse</td><td>Nein</td><td>Ja</td></tr>
</tbody></table>
Aus dieser Tabelle geht hervor, dass <strong>keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht.</strong> Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können.
<h3>4.2 Die KI-Plattform für das Dorfhaus</h3>
<p>Das Home-KI-System der Village-Plattform (Stroh, 2025-2026) ist als souveränes Small Language Model (SLM) mit der folgenden Architektur konzipiert:</p>
<ul><li><strong>Basismodell:</strong> Llama 3.1 8B (Tier 1 Plattformbasis) / Llama 3.2 3B (Tier 2 pro-Mieter-Adapter)</li>
<li><strong>Feinabstimmungsmethode:</strong> QLoRA (4-bit quantisierte Low-Rank Adaptation)</li>
<li><strong>Trainingskadenz:</strong> Wöchentliche Umschulungszyklen</li>
<li><strong>Trainingsformat:</strong> Alpaca/ShareGPT strukturierte Datensätze</li>
<li><strong>Infrastruktur:</strong> Lokaler Grafikprozessor (Consumer-Grade, 8-24GB VRAM)</li>
<li><strong>Governance-Integration:</strong> Tractatus-Framework-Dienste (BoundaryEnforcer, MetacognitiveVerifier)</li></ul>
<p>Diese Architektur bietet vollen Zugang zu den Modellgewichten und Aktivierungen. Jede in Abschnitt 3 beschriebene Technik ist architektonisch verfügbar. Dies ist keine theoretische Beobachtung, sondern ein konkreter struktureller Vorteil, den API-abhängige Implementierungen nicht wiedergeben können.</p>
<h3>4.3 Das zweistufige Trainingsmodell</h3>
<p>Die bestehende zweistufige Architektur lässt sich natürlich auf eine zweistufige Steuerungsstrategie übertragen:</p>
<p><strong>Ebene 1 (Plattform-Basismodell):</strong></p>
<ul><li>Plattformweite Korrekturen von Verzerrungen</li>
<li>Kulturelle Sensibilität in allen unterstützten Kulturen (Maori, europäische, pazifische, asiatische Kontexte)</li>
<li>Allgemeine Entschärfung für Familienstruktur, Führungsstil, Vertretung älterer Menschen</li>
<li>Steuerungsvektoren, die aus dem Datensatz der Plattform zur Bewertung von Vorurteilen extrahiert wurden (20 Aufforderungen, 7 Kategorien, 350 Entschärfungsbeispiele)</li></ul>
<p><strong>Ebene 2 (Adapter für einzelne Mieter):</strong></p>
<ul><li>Mieterspezifischer kultureller Abgleich</li>
<li>Gemeindespezifischer Werteabgleich</li>
<li>LoRA-Adapter, die mieterspezifisch validierte Lenkungskorrekturen enthalten</li>
<li>Evaluiert anhand von mieterspezifischen Testfällen</li></ul>
<p><strong>Architektonische Anmerkung zur Souveränität:</strong> Das beschriebene zweistufige Modell sieht die Korrekturen des Plattformbetreibers als Basisschicht vor, die von den Mietern geändert wird. Dies ist pragmatisch korrekt für die derzeitige Implementierung (Hardware für Verbraucher, Verwaltung durch einen einzigen Betreiber), aber es schafft eine implizite Hierarchie: Plattformwerte als Standard, Mieterwerte als Adapter. Für Mieter mit verfassungsmäßigem Status - iwi, hapu oder andere Körperschaften, die eher eine parallele Souveränität als eine Wahlmöglichkeit für den Verbraucher ausüben - sollte das langfristige architektonische Ziel eine gleichberechtigte Lenkungsinstanz sein, bei der plattformweite Korrekturen auf der Grundlage von durch die Gemeinschaft beigetragenen Primitiven ausgehandelt und nicht von oben auferlegt werden. Das derzeitige zweistufige Modell ist ein Sprungbrett, nicht das Ziel.</p>
<hr>
<h2>5. Vorgeschlagener Weg zur Umsetzung</h2>
<h3>5.1 Phase 1: Messung der Ausgangssituation (Wochen 1-4)</h3>
<p><strong>Ziel:</strong> Festlegung empirischer Basiswerte für die Verzerrungen im aktuellen Llama 3.1 8B Basismodell.</p>
<p><strong>Methode:</strong></p>
<ol><li>Durchführung der bestehenden 20-Prompt-Bias-Evaluierungssuite (7 Kategorien: Familienstruktur, Vertretung älterer Menschen, kulturell/religiös, geografisch, Trauer/Trauma, Namensgebung, Vertrauenskorrektheit).</li>
<li>Aufzeichnung der Modellaktivierungen auf den Ebenen 8, 16, 24 und 32 für jede Bewertungsaufforderung.</li>
<li>Bewerten Sie die Antworten auf der vorhandenen 5-Punkte-Skala.</li>
<li>Identifizieren Sie, welche Verzerrungskategorien die stärksten Muster auf Aktivierungsebene aufweisen (Kandidaten für mechanische Verzerrung).</li></ol>
<p><strong>Output:</strong> Aktivierungsdatensatz gepaart mit Bias-Scores, die erkennen lassen, welche Biases repräsentativ (konsistente Muster in den frühen Schichten) bzw. begründungsabhängig (schichtübergreifend variabel, kontextabhängig) sind.</p>
<h3>5.2 Phase 2: Extraktion des Steuerungsvektors (Wochen 5-8)</h3>
<p><strong>Ziel:</strong> Extraktion von Steuerungsvektoren für die 3 wichtigsten identifizierten mechanischen Verzerrungskategorien.</p>
<p><strong>Methode:</strong></p>
<ol><li>Entwerfen Sie kontrastive Prompt-Paare für jede Zielkategorie (mindestens 50 Paare pro Kategorie).</li>
<li>Extrahieren der mittleren Aktivierungsunterschiede auf den optimalen Schichten (ermittelt in Phase 1).</li>
<li>Validierung der Vektoren mit Hilfe von Test-Prompts, die zurückgehalten werden.</li>
<li>Kalibrierung der Vektorgrößen unter Verwendung des dynamischen Intensitätsansatzes von FairSteer.</li></ol>
<p><strong>Tools:</strong> TransformerLens oder baukit für die Aktivierungsextraktion; benutzerdefinierte Skripte für die Vektorberechnung und -validierung.</p>
<p><strong>Ausgabe:</strong> Validierte Lenkungsvektoren für vorrangige Verzerrungskategorien, mit Kalibrierungsparametern.</p>
<h3>5.3 Phase 3: Integration in die Trainingspipeline (Wochen 9-12)</h3>
<p><strong>Ziel:</strong> Einbettung der Anwendung von Lenkungsvektoren in den wöchentlichen QLoRA-Trainingszyklus.</p>
<p><strong>Methode:</strong></p>
<ol><li>Hinzufügen der Lenkvektorinjektion in die Inferenzpipeline (Modifikation der Aktivierung nach dem Vorwärtsdurchlauf).</li>
<li>Auswertung der gesteuerten Ausgaben anhand der Bias-Evaluierungssuite.</li>
<li>Vergleich der gesteuerten mit der ungesteuerten Leistung bei allgemeinen Fähigkeitsbenchmarks (zur Messung der Fähigkeitsverschlechterung).</li>
<li>Integration mit Tractatus BoundaryEnforcer zur Überwachung der Lenkungsparameter.</li></ol>
<p><strong>Integration der Steuerung:</strong> Alexanders Prinzip der Nicht-Trennbarkeit - die Steuerung ist in die Trainings- und Inferenzschleife eingebettet und wird nicht als Post-Processing angewendet. Der Tractatus MetacognitiveVerifier prüft die Herkunft des Steuerungsvektors und die Kalibrierungsentscheidungen.</p>
<h3>5.4 Phase 4: Lenkung pro Mieter (Wochen 13-16)</h3>
<p><strong>Ziel:</strong> Ermöglichung der mieterspezifischen Anpassung des Steuerungsvektors.</p>
<p><strong>Methode:</strong></p>
<ol><li>Erweiterung des Tier 2 LoRA-Adaptertrainings um mieterspezifische Kontrastpaare.</li>
<li>Ermöglichung der Kennzeichnung von Verzerrungen in den Modellergebnissen durch die Mieter-Moderatoren (Einspeisung des Datensatzes der kontrastiven Paare).</li>
<li>Extraktion von mieterspezifischen Steuerungsvektoren, die die plattformweiten Korrekturen ergänzen.</li>
<li>Validierung, dass die mandantenbezogene Steuerung die plattformweite Entschärfung nicht beeinträchtigt.</li></ol>
<p><strong>Ausgabe:</strong> Vollständiges zweistufiges Lenksystem: plattformweite Basiskorrekturen + kulturelle Kalibrierung pro Mandant.</p>
<hr>
<h2>6. Offene Fragen und Beschränkungen</h2>
<h3>6.1 Linearitätsannahme</h3>
<p>Alle derzeitigen Steuerungsvektorverfahren gehen davon aus, dass Vorurteile im Aktivierungsraum linear dargestellt werden - dass ein einziger Richtungsvektor eine Vorurteilsdimension erfassen kann. Dies gilt nachweislich für einige Konzepte (Stimmung, Toxizität), ist jedoch für komplexe kulturelle Vorurteile, die sich über mehrere interagierende Dimensionen verteilen können, nicht validiert.</p>
<h3>6.2 Abwägung zwischen Fähigkeit und Vorurteil</h3>
<p>Lenkungsvektoren verändern die Aktivierungen, was die allgemeine Modellfähigkeit beeinträchtigen kann. Das Ausmaß dieses Zielkonflikts für kleine Sprachmodelle (3B-8B Parameter) ist unbekannt. Größere Modelle haben mehr Repräsentationskapazität, um Lenkungskorrekturen ohne Fähigkeitsverlust zu absorbieren; kleinere Modelle sind möglicherweise empfindlicher.</p>
<h3>6.3 Das Problem des geteilten toten Winkels</h3>
<p>Wenn dasselbe Modell, das verzerrte Ergebnisse liefert, zur Erzeugung der Kontrastpaare für die Lenkvektorextraktion verwendet wird, kann der Extraktionsprozess die blinden Flecken des Modells übernehmen. Dies ist das "Shared Blind Spot"-Problem, das im Tractatus-Vorfallbericht vom Februar 2026 dokumentiert ist. Die Abhilfe erfordert eine externe (menschliche oder modellübergreifende) Validierung der Qualität der Kontrastpaare.</p>
<h3>6.4 Dynamischer kultureller Kontext und Off-Limits-Bereiche</h3>
<p>Kulturelle Vorurteile sind nicht statisch. Ein Modell für eine Maori-Gemeinschaft in Aotearoa benötigt eine andere kulturelle Kalibrierung als ein Modell für eine deutsche Gemeinschaft in Bayern. Steuerungsvektoren, die aus einem kulturellen Kontext extrahiert wurden, sind möglicherweise nicht übertragbar. Der Ansatz für die Steuerung nach Mietern (Phase 4) trägt diesem Problem teilweise Rechnung, aber die Entwicklung von mieterspezifischen Kontrastpaaren erfordert kulturelles Fachwissen, das nicht automatisiert werden kann.</p>
<p>Noch grundsätzlicher ist, dass einige kulturelle Bereiche strukturell für eine Steuerung auf Plattformebene überhaupt nicht in Frage kommen. Im Aotearoa-Kontext haben whakapapa (genealogisches Wissen), tikanga (Gewohnheitspraxis) und kawa (Protokoll) eine Autorität, die sich aus der iwi und hapu Governance ableitet, nicht aus der Plattformarchitektur. Die Anwendung plattformweiter Steuerungsvektoren auf Darstellungen dieser Konzepte - selbst gut gemeinte Korrekturen - birgt die Gefahr, dass die indigene epistemische Autorität der Weltanschauung des Plattformbetreibers untergeordnet wird. Für diese Bereiche könnte die richtige architektonische Antwort in der Delegation bestehen: Die Plattform stellt den Steuerungsmechanismus zur Verfügung, aber die Definition, Kalibrierung und Steuerung von Vektoren, die kulturell souveränes Wissen berühren, muss von der entsprechenden kulturellen Autorität ausgeübt werden, nicht vom technischen Team der Plattform.</p>
<h3>6.5 Wer steuert? Steuerung von Steuerungsvektoren</h3>
<p>Steuerungsvektoren sind Instrumente zur Durchsetzung von Normen. Die technische Fähigkeit, das Verhalten eines Modells entlang einer Bias-Dimension zu verändern, wirft unmittelbar die Frage nach der institutionellen Steuerung auf: wessen Normen, durch welchen anfechtbaren Prozess, mit welchen Regressmöglichkeiten für die von ihnen Betroffenen.</p>
<p>Der gegenwärtige Vorschlag bettet die Lenkungssteuerung in den Tractatus-Rahmen ein, spezifiziert aber nicht die Entscheidungsrechte für Lenkungsoperationen. Ein vollständiges Governance-Modell sollte Steuerungsvektoren auf konkrete institutionelle Rollen abbilden:</p>
<table><thead><tr><th>Entscheidung</th><th>Wer entscheidet</th><th>Anfechtungsweg</th></tr></thead><tbody>
<tr><td>Definition einer Voreingenommenheitsachse (was zählt als Voreingenommenheit)</td><td>Plattformbetreiber + Beratungsgremium der Gemeinschaft</td><td>Beratung der Gemeinschaft, jährliche Überprüfung</td></tr>
<tr><td>Freigabe eines Steuerungsvektors für den Einsatz</td><td>Tractatus BoundaryEnforcer (technisch) + Mieter-Moderatoren (Werturteil)</td><td>Audit Trail der Vektorherkunft, -größe und -wirkung</td></tr>
<tr><td>FairSteer dynamische Kalibrierung (technisch) + menschliche Überprüfung für sensible Bereiche</td><td>Protokollierung der einzelnen Eingriffe, Schwellenwertwarnungen</td></tr>
<tr><td>Überschreiben oder Deaktivieren eines Vektors</td><td>Mietergremium (für Mietervektoren) / Plattformbetreiber (für Plattformvektoren)</td><td>Streitschlichtungsprozess mit dokumentierter Begründung</td></tr>
<tr><td>Verwaltung kulturell souveräner Bereiche (whakapapa, tikanga, kawa)</td><td>Zuständige kulturelle Autorität (iwi, hapu) -- nicht Plattformbetreiber</td><td>Unabhängig von der Plattformverwaltung; Plattform bietet Mechanismus, nicht Autorität</td></tr>
</tbody></table>
Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (Steuerung durch den einzelnen Mieter) bietet die architektonischen Anknüpfungspunkte, aber die institutionelle Ebene - wer sitzt in den Beratungsgremien, wie werden Streitigkeiten eskaliert, was ist eine ausreichende kulturelle Autorität für einen bestimmten Bereich - erfordert eine gemeinschaftliche Gestaltungsarbeit, die nicht automatisiert oder vom Plattformbetreiber aufgezwungen werden kann.
<p>Das Risiko, ohne diese Governance-Ebene vorzugehen, besteht darin, dass Lenkungsvektoren zu einem neuen Ort der zentralisierten Wertautorität werden: Der Plattformbetreiber entscheidet, was Verzerrungen sind und wie sie zu korrigieren sind, und die Mieter erhalten Korrekturen, anstatt an ihrer Gestaltung mitzuwirken. Dies würde genau die Machtasymmetrie reproduzieren, die durch den souveränen Einsatz beseitigt werden soll.</p>
<h3>6.6 Schwierige Messung</h3>
<p>Im Gegensatz zum 27027-Port-Vorfall (binär richtig/falsch) ist die kulturelle Verzerrung nicht binär. Die Bewertung, ob ein gesteuertes Modell "weniger verzerrte" Ergebnisse liefert, erfordert menschliches Urteilsvermögen, kulturelles Fachwissen und eine Langzeitbewertung. Die 5-Punkte-Skala in der bestehenden Evaluierungssuite bietet einen ersten Rahmen, aber ihre Zuverlässigkeit und Gültigkeit für die Messung der Effektivität des Steuerungsvektors ist noch nicht getestet worden.</p>
<hr>
<h2>7. Schlussfolgerung</h2>
<p>Die Analogie zwischen Blinker und Scheibenwischer legt eine nützliche Unterscheidung zwischen Verzerrungen auf der Darstellungsebene (mechanisch, präkognitiv, analog zu motorischen Mustern) und Verzerrungen, die durch Schlussfolgerungsketten entstehen, nahe. Wenn diese Unterscheidung in Transformator-Architekturen zutrifft - und die mechanistische Interpretierbarkeit unterstützt dies - dann erfordert eine Klasse von KI-Fehlern ein Eingreifen auf der Aktivierungsebene und nicht auf der Aufforderungsebene.</p>
<p>Steuerungsvektortechniken (CAA, RepE, FairSteer, DSO, Sparse Autoencoder Feature Steering) bieten das theoretische und praktische Instrumentarium für einen solchen Eingriff. Entscheidend ist, dass diese Techniken vollen Zugriff auf die Modellgewichte und -aktivierungen erfordern - ein Zugriff, der ausschließlich in souveränen lokalen Implementierungen zur Verfügung steht und über kommerzielle API-Endpunkte architektonisch nicht möglich ist.</p>
<p>Die Village Home KI-Plattform mit ihren QLoRA-abgestimmten Llama-Modellen, der zweistufigen Trainingsarchitektur und der Tractatus-Governance-Integration ist strukturell in der Lage, Pionierarbeit bei der Anwendung von Steuerungsvektoren zur Abschwächung kultureller Verzerrungen in der KI für die Gemeinschaft zu leisten. Der vorgeschlagene vierphasige Implementierungspfad ist konservativ, empirisch fundiert und darauf ausgelegt, innerhalb von 16 Wochen messbare Ergebnisse zu erzielen.</p>
<p>Das Blinkerwischerproblem ist lösbar. Der Fahrer kalibriert sich schließlich neu. Die Frage für souveräne KI ist, ob wir diese Rekalibrierung beschleunigen können - nicht, indem wir dem Modell sagen, es solle "weniger voreingenommen" sein (was einer verbalen Anweisung entspricht), sondern indem wir die Darstellungen, die die Voreingenommenheit kodieren, direkt anpassen (was einer physischen Verlagerung des Blinkerhebels entspricht).</p>
<hr>
<h2>Referenzen</h2>
<ul><li>Elhage, N., et al. (2022). Spielzeugmodelle der Superposition. Anthropic.</li>
<li>Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</li>
<li>Olsson, C., et al. (2022). In-Kontext-Lernen und Induktionsköpfe. Anthropic.</li>
<li>Rimsky, N., et al. (2023). Llama 2 über kontrastive Aktivierungsaddition steuern. arXiv:2312.06681.</li>
<li>Stroh, J. (2025). Tractatus: Architektonische Durchsetzung für KI-Entwicklungssteuerung. Arbeitspapier v0.1.</li>
<li>Stroh, J. & Claude (2026). Von Port-Nummern zu Wertesystemen: Pattern Recognition Bias Across AI Domains. STO-RES-0008.</li>
<li>Templeton, A., et al. (2024). Skalierung der Monosemantik: Extrahieren interpretierbarer Merkmale aus Claude 3 Sonnet. Anthropic.</li>
<li>Turner, A., et al. (2023). Aktivierungsaddition: Steering Language Models Without Optimization. arXiv:2308.10248.</li>
<li>Zou, A., et al. (2023). Repräsentationstechnik: Ein Top-Down-Ansatz zur KI-Transparenz. Zentrum für KI-Sicherheit.</li></ul>
<hr>
<h2>Lizenz</h2>
<p>Urheberrecht 2026 John Stroh</p>
<p>Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:</p>
<p>http://www.apache.org/licenses/LICENSE-2.0</p>
<p>Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.</p>
<p><strong>Zusammenfassung:</strong></p>
<ul><li>Kommerzielle Nutzung erlaubt</li>
<li>Modifikation erlaubt</li>
<li>Vertrieb erlaubt</li>
<li>Patenterteilung eingeschlossen</li>
<li>Private Nutzung erlaubt</li>
<li>Muss Lizenz- und Copyright-Vermerk enthalten</li>
<li>Muss wesentliche Änderungen angeben</li>
<li>Keine Markenrechte gewährt</li>
<li>Keine Haftung oder Garantie</li></ul>
<hr>
<h2>Dokument-Metadaten</h2>
<div class="document-metadata">
<ul><li><strong>Version:</strong> 1.1</li>
<li><strong>Erstellt:</strong> 2026-02-09</li>
<li><strong>Letzte Änderung:</strong> 2026-02-09 (v1.1 - Governance, dekoloniales Framing, verbotene Bereiche)</li>
<li><strong>Autor:</strong> John Stroh & Claude (Anthropic)</li>
<li><strong>Wortzahl:</strong> ~5.500 Wörter</li>
<li><strong>Lesedauer:</strong> ~18 Minuten</li>
<li><strong>Dokument-ID:</strong> lenkungsvektoren-mechanische-vorspannung-übereignung-ai</li>
<li><strong>Status:</strong> Aktiv</li></ul>
<p></div></p>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
</body></html>