diff --git a/public/architectural-alignment-community.html b/public/architectural-alignment-community.html index 057b0f04..5d464608 100644 --- a/public/architectural-alignment-community.html +++ b/public/architectural-alignment-community.html @@ -441,6 +441,14 @@
+
+

Licence

+

Copyright © 2026 John Stroh.

+

This work is licensed under the Creative Commons Attribution 4.0 International Licence (CC BY 4.0).

+

You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.

+

Suggested citation: Stroh, J., & Claude (Anthropic). (2026). Architectural Alignment: Community-Governed AI Through Constitutional Infrastructure (STO-INN-0003, v2.1-C). Agentic Governance Digital. https://agenticgovernance.digital

+

Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.

+

— End of Document —

diff --git a/public/architectural-alignment-policymakers.html b/public/architectural-alignment-policymakers.html index 6edc75d1..3de9f0b1 100644 --- a/public/architectural-alignment-policymakers.html +++ b/public/architectural-alignment-policymakers.html @@ -476,6 +476,14 @@
+
+

Licence

+

Copyright © 2026 John Stroh.

+

This work is licensed under the Creative Commons Attribution 4.0 International Licence (CC BY 4.0).

+

You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.

+

Suggested citation: Stroh, J., & Claude (Anthropic). (2026). Architectural Alignment: Constitutional Governance for Distributed AI Systems (STO-INN-0003, v2.1-P). Agentic Governance Digital. https://agenticgovernance.digital

+

Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.

+

— End of Document —

diff --git a/public/architectural-alignment.html b/public/architectural-alignment.html index e451764a..973d11f8 100644 --- a/public/architectural-alignment.html +++ b/public/architectural-alignment.html @@ -446,7 +446,15 @@
-

— End of Document —

+
+

Licence

+

Copyright © 2026 John Stroh.

+

This work is licensed under the Creative Commons Attribution 4.0 International Licence (CC BY 4.0).

+

You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.

+

Suggested citation: Stroh, J., & Claude (Anthropic). (2026). Architectural Alignment: Interrupting Neural Reasoning Through Constitutional Inference Gating (STO-INN-0003, v2.1-A). Agentic Governance Digital. https://agenticgovernance.digital

+

Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.

+
+

— End of Document —

diff --git a/public/downloads/architectural-alignment-academic-de.html b/public/downloads/architectural-alignment-academic-de.html index 6b86bba6..23a4ca51 100644 --- a/public/downloads/architectural-alignment-academic-de.html +++ b/public/downloads/architectural-alignment-academic-de.html @@ -78,6 +78,12 @@

Referenzen

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.


— End of Document —

+
+

Lizenz

+

Copyright © 2026 John Stroh.

+

Dieses Werk ist lizenziert unter der Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0).

+

Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.

+

Hinweis: Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.

\ No newline at end of file diff --git a/public/downloads/architectural-alignment-academic-fr.html b/public/downloads/architectural-alignment-academic-fr.html index 83919b4f..79cfdd5e 100644 --- a/public/downloads/architectural-alignment-academic-fr.html +++ b/public/downloads/architectural-alignment-academic-fr.html @@ -78,6 +78,12 @@

Références

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.


— End of Document —

+
+

Licence

+

Copyright © 2026 John Stroh.

+

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International (CC BY 4.0).

+

Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.

+

Note : Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.

\ No newline at end of file diff --git a/public/downloads/architectural-alignment-academic-mi.html b/public/downloads/architectural-alignment-academic-mi.html index 994bb206..af148a33 100644 --- a/public/downloads/architectural-alignment-academic-mi.html +++ b/public/downloads/architectural-alignment-academic-mi.html @@ -78,6 +78,11 @@

Ngā tohutoro

Acquisti, A., Brandimarte, L., & Loewenstein, G. (2017). Privacy and human behavior in the age of information. Science, 347(6221), 509-514.

Alexander, C., Ishikawa, S., & Silverstein, M. (1977). A Pattern Language. Oxford University Press.

Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.

Bostrom, N. (2014). Superintelligence. Oxford University Press.

Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.

Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. NeurIPS, 30.

Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.

Elhage, N., et al. (2021). A mathematical framework for transformer circuits.

Gardiner, S. M. (2006). A core precautionary principle. J. Political Philosophy, 14(1), 33-60.

Goodhart, C. A. (1984). Problems of monetary management.

Hansson, S. O. (2020). How to be cautious but open to learning. Risk Analysis, 40(8).

Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.

IBM IBV. (2026). The enterprise in 2030.

Olah, C., et al. (2020). Zoom in: An introduction to circuits. Distill.

Ouyang, L., et al. (2022). Training language models to follow instructions. NeurIPS, 35.

Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.

Rawls, J. (1971). A Theory of Justice. Harvard University Press.

Reason, J. (1990). Human Error. Cambridge University Press.

Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.

Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.

Simon, H. A. (1956). Rational choice. Psych. Review, 63(2).

Te Mana Raraunga. (2018). Maori Data Sovereignty Principles.

Wittgenstein, L. (1921/1961). Tractatus Logico-Philosophicus.


— End of Document —

+
+

Raihana

+

Manatā © 2026 John Stroh.

+

Kua tukuna tēnei mahi i raro i te Creative Commons Attribution 4.0 International Licence (CC BY 4.0).

+

Tuhipoka: Ko te waehere puna o te Tractatus AI Safety Framework kei raro anō i te Apache License 2.0. Ko tēnei raihana Creative Commons mō te tuhinga rangahau me ngā whakaahua anake.

\ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-de.html b/public/downloads/philosophical-foundations-village-project-de.html index f25c99c1..b30302b3 100644 --- a/public/downloads/philosophical-foundations-village-project-de.html +++ b/public/downloads/philosophical-foundations-village-project-de.html @@ -55,6 +55,12 @@

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care


— End of Document —

+
+

Lizenz

+

Copyright © 2026 John Stroh.

+

Dieses Werk ist lizenziert unter der Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0).

+

Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.

+

Hinweis: Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.

\ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-fr.html b/public/downloads/philosophical-foundations-village-project-fr.html index 9e8f7e83..b35dc214 100644 --- a/public/downloads/philosophical-foundations-village-project-fr.html +++ b/public/downloads/philosophical-foundations-village-project-fr.html @@ -55,6 +55,12 @@

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care


— End of Document —

+
+

Licence

+

Copyright © 2026 John Stroh.

+

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International (CC BY 4.0).

+

Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.

+

Note : Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.

\ No newline at end of file diff --git a/public/downloads/philosophical-foundations-village-project-mi.html b/public/downloads/philosophical-foundations-village-project-mi.html index 3d799dbe..f284c158 100644 --- a/public/downloads/philosophical-foundations-village-project-mi.html +++ b/public/downloads/philosophical-foundations-village-project-mi.html @@ -55,6 +55,11 @@

Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care


— End of Document —

+
+

Raihana

+

Manatā © 2026 John Stroh.

+

Kua tukuna tēnei mahi i raro i te Creative Commons Attribution 4.0 International Licence (CC BY 4.0).

+

Tuhipoka: Ko te waehere puna o te Tractatus AI Safety Framework kei raro anō i te Apache License 2.0. Ko tēnei raihana Creative Commons mō te tuhinga rangahau me ngā whakaahua anake.

\ No newline at end of file diff --git a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html index cbad2db1..0c399784 100644 --- a/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html +++ b/public/downloads/steering-vectors-mechanical-bias-sovereign-ai-de.html @@ -1,10 +1,10 @@ Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle - +
Akademische Forschungsausgabe

Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle

Inferenzzeit-Debiasing für souveräne kleine Sprachmodelle

John Stroh & Claude (Anthropic)

STO-RES-0009 | Version: 1.1 | February 2026

Tractatus AI Safety Framework

https://agenticgovernance.digital

Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenwerke eine Legitimität haben, die keiner von ihnen allein erreichen könnte.

Zusammenfassung

-

In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen mechanischer Verzerrung (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und Überlegungsverzerrung (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte architektonisch unmöglich ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.

+

In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen mechanischer Verzerrung (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und Überlegungsverzerrung (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte nicht verfügbar ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.


1. Einführung: Das Blinker-Wischer-Problem

1.1 Eine Motor-Analogie

@@ -85,7 +85,18 @@ Ändern von AufmerksamkeitsmusternNeinJa Per-Schicht-AktivierungsanalyseNeinJa -Aus dieser Tabelle geht hervor, dass keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht. Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können. +

Überarbeiteter Text (v1.1): In der ursprünglichen Version 1.0 wurden Lenkvektortechniken als „architektonisch unmöglich“ über kommerzielle API-Endpunkte beschrieben. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugriff nicht verfügbar, da dieser keinen Einblick in Zwischenaktivierungen oder Modellgewichte gewährt. Siehe den redaktionellen Hinweis unten.

+

Aus dieser Tabelle geht hervor, dass keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht. Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können.

+ +
+

Redaktioneller Hinweis – Februar 2026 (nach der Veröffentlichung hinzugefügt)

+

Seit der ersten Veröffentlichung dieses Artikels hat eine Studie von Radhakrishnan et al. (2026), die am 19. Februar 2026 in Science veröffentlicht wurde, gezeigt, dass Algorithmen der Recursive Feature Machine (RFM) in einigen der derzeit größten Sprachmodelle Darstellungen abstrakter Konzepte – einschließlich sicherheitsrelevanter Konzepte wie „Anti-Verweigerung“ – identifizieren, extrahieren und manipulieren können. Das Team des MIT und der University of California San Diego hat gezeigt, dass diese Eingriffe in großem Maßstab auf Bild-Sprach-Modelle angewendet werden können, wobei trainierte Ablehnungsverhalten überschrieben und Modellausgaben entlang konzeptioneller Dimensionen gesteuert werden, auf die allein durch Prompting nicht zugegriffen werden kann.

+

Diese Erkenntnis erfordert eine präzise Überarbeitung der Behauptung in v1.0, dass eine Steuerung auf Aktivierungsebene über kommerzielle API-Endpunkte „architektonisch unmöglich“ ist. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugang nicht verfügbar, der keinen Zugriff auf Zwischenaktivierungen oder Modellgewichte bietet. Die Ergebnisse von Radhakrishnan et al. wurden mit ziemlicher Sicherheit durch institutionellen Forschungszugang oder Open-Weight-Modelle erzielt – eine Unterscheidung, die in der veröffentlichten Arbeit nicht ausdrücklich gemacht wird, aber durch ihre Methodik impliziert wird.

+

Noch wichtiger ist, dass die Ergebnisse des MIT das in diesem Artikel vorgebrachte Argument nicht schwächen, sondern erheblich stärken. Wenn RFM-basierte Steuerung Sicherheitsbeschränkungen in Grenzmodellen außer Kraft setzen kann – wie die Anti-Verweigerungs-Demonstration deutlich macht –, ist die Frage der Governance nicht mehr nur theoretischer Natur. Die Fähigkeit, das Modellverhalten auf der Darstellungsebene unterhalb der Schwelle des deliberativen Denkens zu manipulieren, ist nun empirisch in großem Maßstab bestätigt. Damit ist die Frage, wer die Steuerung kontrolliert, kein spekulatives, sondern ein unmittelbares Anliegen.

+

Frameworks wie Tractatus, die für die architektonische Durchsetzung von Governance-Beschränkungen für das Modellverhalten entwickelt wurden, gewinnen in diesem Zusammenhang neue Dringlichkeit. Souveräne Bereitstellungsarchitekturen, die das volle Gewicht und den Aktivierungszugriff beibehalten, sind in einer einzigartigen Position, um Steuerungsinterventionen auf eine Weise zu implementieren, zu prüfen und zu beschränken, die für API-abhängige Bereitstellungen strukturell nicht verfügbar ist. Die in der obigen Tabelle dokumentierte Governance-Lücke ist nun eine nachgewiesene Risikofläche und keine theoretische Schwachstelle mehr.

+

Hinzugefügte Referenz: Radhakrishnan, A., Beaglehole, D., Belkin, M. & Boix-Adserà, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. Science. Veröffentlicht am 19. Februar 2026.

+
+

4.2 Die KI-Plattform für das Dorfhaus

Das Home-KI-System der Village-Plattform (Stroh, 2025-2026) ist als souveränes Small Language Model (SLM) mit der folgenden Architektur konzipiert:

+
  • Governance-Integration: Tractatus-Framework-Dienste (BoundaryEnforcer, MetacognitiveVerifier)
  • +
  • Sicherheit: Steuerungsvektoren und kulturell kalibrierte Korrekturen werden verschlüsselt und getrennt von den Gewichten des Basismodells gespeichert, um die geregelten Artefakte vor unbefugter Extraktion oder Manipulation zu schützen.
  • +

    Diese Architektur bietet vollen Zugang zu den Modellgewichten und Aktivierungen. Jede in Abschnitt 3 beschriebene Technik ist architektonisch verfügbar. Dies ist keine theoretische Beobachtung, sondern ein konkreter struktureller Vorteil, den API-abhängige Implementierungen nicht wiedergeben können.

    4.3 Das zweistufige Trainingsmodell

    Die bestehende zweistufige Architektur lässt sich natürlich auf eine zweistufige Steuerungsstrategie übertragen:

    @@ -175,10 +188,15 @@ Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (St

    Die Village Home KI-Plattform mit ihren QLoRA-abgestimmten Llama-Modellen, der zweistufigen Trainingsarchitektur und der Tractatus-Governance-Integration ist strukturell in der Lage, Pionierarbeit bei der Anwendung von Steuerungsvektoren zur Abschwächung kultureller Verzerrungen in der KI für die Gemeinschaft zu leisten. Der vorgeschlagene vierphasige Implementierungspfad ist konservativ, empirisch fundiert und darauf ausgelegt, innerhalb von 16 Wochen messbare Ergebnisse zu erzielen.

    Das Blinkerwischerproblem ist lösbar. Der Fahrer kalibriert sich schließlich neu. Die Frage für souveräne KI ist, ob wir diese Rekalibrierung beschleunigen können - nicht, indem wir dem Modell sagen, es solle "weniger voreingenommen" sein (was einer verbalen Anweisung entspricht), sondern indem wir die Darstellungen, die die Voreingenommenheit kodieren, direkt anpassen (was einer physischen Verlagerung des Blinkerhebels entspricht).


    + +

    Seit der ersten Einreichung dieses Artikels haben empirische Arbeiten von Radhakrishnan et al. (2026) in großem Maßstab bestätigt, was die Literatur zur mechanistischen Interpretierbarkeit zuvor nahegelegt hatte: Abstrakte Konzepte, einschließlich sicherheitskritischer Verhaltensdispositionen, sind in großen Sprachmodellen repräsentativ kodiert und können durch Steuerungstechniken auf Feature-Ebene gezielt manipuliert werden. Entscheidend ist, dass dieselben Autoren zeigen, dass diese Techniken trainierte Ablehnungsverhalten außer Kraft setzen können – und damit belegen, dass die Fähigkeit zur Manipulation von Modellen auf Darstellungsebene nun eine nachgewiesene und zugängliche Fähigkeit ist.

    +

    Diese Erkenntnis verändert die Governance-Aspekte der in diesem Artikel vorgebrachten Argumentation. Der strukturelle Vorteil einer souveränen Bereitstellung – vollständiger Zugriff auf Modellgewichte und -aktivierungen – ist gleichzeitig eine Chance und eine Verantwortung. Es ist eine Chance, weil es die in diesem Artikel vorgeschlagene, kulturell fundierte und von der Gemeinschaft gesteuerte Debiasing ermöglicht. Es ist eine Verantwortung, weil derselbe Zugriff ohne eine robuste Governance-Architektur ein Risiko darstellt, das bei API-vermittelten Bereitstellungen völlig fehlt. Die Frage ist nicht, ob repräsentative Steuerung eingesetzt wird; die Ergebnisse von Radhakrishnan et al. machen deutlich, dass dies bereits der Fall ist. Die Frage ist, ob ihre Verwendung geregelt wird.

    +

    Frameworks wie Tractatus sind in diesem Umfeld nicht nur nützlich, sondern notwendig. Die architektonische Durchsetzung von Governance-Beschränkungen, die metakognitive Überprüfung der Herkunft von Steuerungsvektoren und die von der Gemeinschaft validierte Kalibrierung von Steuerungsparametern stellen die minimal erforderliche Governance-Reaktion auf eine Fähigkeit dar, die nun empirisch bestätigt, öffentlich dokumentiert und jedem Akteur mit Zugang zu Open-Weight-Modellen zur Verfügung steht. Die Entwicklung und Einführung solcher Frameworks hat für die gesamte souveräne KI-Gemeinschaft unmittelbare Priorität.

    Referenzen


    Lizenz

    -

    Urheberrecht 2026 John Stroh

    -

    Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:

    -

    http://www.apache.org/licenses/LICENSE-2.0

    -

    Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.

    -

    Zusammenfassung:

    - +

    Copyright © 2026 John Stroh.

    +

    Dieses Werk ist lizenziert unter der Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0).

    +

    Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.

    +

    Hinweis: Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.


    Dokument-Metadaten