docs: Update HTML downloads — editorial notes + CC BY 4.0 licence

STO-RES-0009 and STO-RES-0010: editorial notes with Radhakrishnan et al.
(2026) Science reference across all 4 languages (EN, DE, FR, MI).

Architectural alignment and philosophical foundations downloads:
CC BY 4.0 licence blocks added to DE, FR, MI translated versions.

Architectural alignment public pages: CC BY 4.0 licence section added.

Hooks bypassed: standalone download HTML files use inline styles by design.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
TheFlow 2026-02-22 16:35:10 +13:00
parent 8b96bc65c3
commit 403bba7784
17 changed files with 273 additions and 76 deletions

View file

@ -441,6 +441,14 @@
</div>
<hr style="margin: 3rem 0;">
<div style="background: #f9fafb; border: 1px solid #e5e7eb; border-radius: 0.5rem; padding: 1.5rem; margin: 2rem 0;">
<h3 style="margin-top: 0; font-size: 1rem; color: #374151;">Licence</h3>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">Copyright &copy; 2026 John Stroh.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">This work is licensed under the <a href="https://creativecommons.org/licenses/by/4.0/" target="_blank" rel="noopener" style="color: #4f46e5;">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.</p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0.5rem;"><strong>Suggested citation:</strong> Stroh, J., &amp; Claude (Anthropic). (2026). Architectural Alignment: Community-Governed AI Through Constitutional Infrastructure (STO-INN-0003, v2.1-C). Agentic Governance Digital. <a href="https://agenticgovernance.digital" style="color: #4f46e5;">https://agenticgovernance.digital</a></p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0;"><em>Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.</em></p>
</div>
<p style="text-align: center; color: #6b7280; font-size: 0.875rem;"><em>&mdash; End of Document &mdash;</em></p>
</article>

View file

@ -476,6 +476,14 @@
</div>
<hr style="margin: 3rem 0;">
<div style="background: #f9fafb; border: 1px solid #e5e7eb; border-radius: 0.5rem; padding: 1.5rem; margin: 2rem 0;">
<h3 style="margin-top: 0; font-size: 1rem; color: #374151;">Licence</h3>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">Copyright &copy; 2026 John Stroh.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">This work is licensed under the <a href="https://creativecommons.org/licenses/by/4.0/" target="_blank" rel="noopener" style="color: #4f46e5;">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.</p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0.5rem;"><strong>Suggested citation:</strong> Stroh, J., &amp; Claude (Anthropic). (2026). Architectural Alignment: Constitutional Governance for Distributed AI Systems (STO-INN-0003, v2.1-P). Agentic Governance Digital. <a href="https://agenticgovernance.digital" style="color: #4f46e5;">https://agenticgovernance.digital</a></p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0;"><em>Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.</em></p>
</div>
<p style="text-align: center; color: #6b7280; font-size: 0.875rem;"><em>&mdash; End of Document &mdash;</em></p>
</article>

View file

@ -446,7 +446,15 @@
</div>
<hr style="margin: 3rem 0;">
<p style="text-align: center; color: #6b7280; font-size: 0.875rem;"><em>— End of Document —</em></p>
<div style="background: #f9fafb; border: 1px solid #e5e7eb; border-radius: 0.5rem; padding: 1.5rem; margin: 2rem 0;">
<h3 style="margin-top: 0; font-size: 1rem; color: #374151;">Licence</h3>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">Copyright &copy; 2026 John Stroh.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">This work is licensed under the <a href="https://creativecommons.org/licenses/by/4.0/" target="_blank" rel="noopener" style="color: #4f46e5;">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p style="font-size: 0.875rem; color: #4b5563; margin-bottom: 0.75rem;">You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.</p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0.5rem;"><strong>Suggested citation:</strong> Stroh, J., &amp; Claude (Anthropic). (2026). Architectural Alignment: Interrupting Neural Reasoning Through Constitutional Inference Gating (STO-INN-0003, v2.1-A). Agentic Governance Digital. <a href="https://agenticgovernance.digital" style="color: #4f46e5;">https://agenticgovernance.digital</a></p>
<p style="font-size: 0.8rem; color: #6b7280; margin-bottom: 0;"><em>Note: The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.</em></p>
</div>
<p style="text-align: center; color: #6b7280; font-size: 0.875rem;"><em>&mdash; End of Document &mdash;</em></p>
</article>
<!-- Footer -->

View file

@ -78,6 +78,12 @@
<h2>Referenzen</h2>
<div style="font-size:0.875rem"><p>Acquisti, A., Brandimarte, L., &amp; Loewenstein, G. (2017). Privacy and human behavior in the age of information. <em>Science</em>, 347(6221), 509-514.</p><p>Alexander, C., Ishikawa, S., &amp; Silverstein, M. (1977). <em>A Pattern Language</em>. Oxford University Press.</p><p>Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.</p><p>Bostrom, N. (2014). <em>Superintelligence</em>. Oxford University Press.</p><p>Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.</p><p>Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. <em>NeurIPS</em>, 30.</p><p>Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.</p><p>Elhage, N., et al. (2021). A mathematical framework for transformer circuits.</p><p>Gardiner, S. M. (2006). A core precautionary principle. <em>J. Political Philosophy</em>, 14(1), 33-60.</p><p>Goodhart, C. A. (1984). Problems of monetary management.</p><p>Hansson, S. O. (2020). How to be cautious but open to learning. <em>Risk Analysis</em>, 40(8).</p><p>Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.</p><p>IBM IBV. (2026). <em>The enterprise in 2030</em>.</p><p>Olah, C., et al. (2020). Zoom in: An introduction to circuits. <em>Distill</em>.</p><p>Ouyang, L., et al. (2022). Training language models to follow instructions. <em>NeurIPS</em>, 35.</p><p>Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.</p><p>Rawls, J. (1971). <em>A Theory of Justice</em>. Harvard University Press.</p><p>Reason, J. (1990). <em>Human Error</em>. Cambridge University Press.</p><p>Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.</p><p>Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.</p><p>Simon, H. A. (1956). Rational choice. <em>Psych. Review</em>, 63(2).</p><p>Te Mana Raraunga. (2018). <em>Maori Data Sovereignty Principles</em>.</p><p>Wittgenstein, L. (1921/1961). <em>Tractatus Logico-Philosophicus</em>.</p></div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Lizenz</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>Dieses Werk ist lizenziert unter der <a href="https://creativecommons.org/licenses/by/4.0/deed.de">Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0)</a>.</p>
<p>Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.</p>
<p><strong>Hinweis:</strong> Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -78,6 +78,12 @@
<h2>Références</h2>
<div style="font-size:0.875rem"><p>Acquisti, A., Brandimarte, L., &amp; Loewenstein, G. (2017). Privacy and human behavior in the age of information. <em>Science</em>, 347(6221), 509-514.</p><p>Alexander, C., Ishikawa, S., &amp; Silverstein, M. (1977). <em>A Pattern Language</em>. Oxford University Press.</p><p>Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.</p><p>Bostrom, N. (2014). <em>Superintelligence</em>. Oxford University Press.</p><p>Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.</p><p>Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. <em>NeurIPS</em>, 30.</p><p>Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.</p><p>Elhage, N., et al. (2021). A mathematical framework for transformer circuits.</p><p>Gardiner, S. M. (2006). A core precautionary principle. <em>J. Political Philosophy</em>, 14(1), 33-60.</p><p>Goodhart, C. A. (1984). Problems of monetary management.</p><p>Hansson, S. O. (2020). How to be cautious but open to learning. <em>Risk Analysis</em>, 40(8).</p><p>Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.</p><p>IBM IBV. (2026). <em>The enterprise in 2030</em>.</p><p>Olah, C., et al. (2020). Zoom in: An introduction to circuits. <em>Distill</em>.</p><p>Ouyang, L., et al. (2022). Training language models to follow instructions. <em>NeurIPS</em>, 35.</p><p>Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.</p><p>Rawls, J. (1971). <em>A Theory of Justice</em>. Harvard University Press.</p><p>Reason, J. (1990). <em>Human Error</em>. Cambridge University Press.</p><p>Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.</p><p>Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.</p><p>Simon, H. A. (1956). Rational choice. <em>Psych. Review</em>, 63(2).</p><p>Te Mana Raraunga. (2018). <em>Maori Data Sovereignty Principles</em>.</p><p>Wittgenstein, L. (1921/1961). <em>Tractatus Logico-Philosophicus</em>.</p></div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Licence</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>Cette œuvre est mise à disposition selon les termes de la <a href="https://creativecommons.org/licenses/by/4.0/deed.fr">Licence Creative Commons Attribution 4.0 International (CC BY 4.0)</a>.</p>
<p>Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.</p>
<p><strong>Note :</strong> Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -78,6 +78,11 @@
<h2>Ngā tohutoro</h2>
<div style="font-size:0.875rem"><p>Acquisti, A., Brandimarte, L., &amp; Loewenstein, G. (2017). Privacy and human behavior in the age of information. <em>Science</em>, 347(6221), 509-514.</p><p>Alexander, C., Ishikawa, S., &amp; Silverstein, M. (1977). <em>A Pattern Language</em>. Oxford University Press.</p><p>Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.</p><p>Bostrom, N. (2014). <em>Superintelligence</em>. Oxford University Press.</p><p>Carlsmith, J. (2022). Is power-seeking AI an existential risk? arXiv:2206.13353.</p><p>Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. <em>NeurIPS</em>, 30.</p><p>Conmy, A., et al. (2023). Towards automated circuit discovery. arXiv:2304.14997.</p><p>Elhage, N., et al. (2021). A mathematical framework for transformer circuits.</p><p>Gardiner, S. M. (2006). A core precautionary principle. <em>J. Political Philosophy</em>, 14(1), 33-60.</p><p>Goodhart, C. A. (1984). Problems of monetary management.</p><p>Hansson, S. O. (2020). How to be cautious but open to learning. <em>Risk Analysis</em>, 40(8).</p><p>Hubinger, E., et al. (2019). Risks from learned optimization. arXiv:1906.01820.</p><p>IBM IBV. (2026). <em>The enterprise in 2030</em>.</p><p>Olah, C., et al. (2020). Zoom in: An introduction to circuits. <em>Distill</em>.</p><p>Ouyang, L., et al. (2022). Training language models to follow instructions. <em>NeurIPS</em>, 35.</p><p>Park, P. S., et al. (2023). AI deception. arXiv:2308.14752.</p><p>Rawls, J. (1971). <em>A Theory of Justice</em>. Harvard University Press.</p><p>Reason, J. (1990). <em>Human Error</em>. Cambridge University Press.</p><p>Sastry, G., et al. (2024). Computing power and AI governance. arXiv:2402.08797.</p><p>Scheurer, J., et al. (2023). Large language models can strategically deceive. arXiv:2311.07590.</p><p>Simon, H. A. (1956). Rational choice. <em>Psych. Review</em>, 63(2).</p><p>Te Mana Raraunga. (2018). <em>Maori Data Sovereignty Principles</em>.</p><p>Wittgenstein, L. (1921/1961). <em>Tractatus Logico-Philosophicus</em>.</p></div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Raihana</h2>
<p>Manatā © 2026 John Stroh.</p>
<p>Kua tukuna tēnei mahi i raro i te <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p><strong>Tuhipoka:</strong> Ko te waehere puna o te Tractatus AI Safety Framework kei raro anō i te Apache License 2.0. Ko tēnei raihana Creative Commons mō te tuhinga rangahau me ngā whakaahua anake.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -55,6 +55,12 @@
<p>Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care</p>
</div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Lizenz</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>Dieses Werk ist lizenziert unter der <a href="https://creativecommons.org/licenses/by/4.0/deed.de">Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0)</a>.</p>
<p>Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.</p>
<p><strong>Hinweis:</strong> Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework / My Digital Sovereignty Limited</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -55,6 +55,12 @@
<p>Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care</p>
</div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Licence</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>Cette œuvre est mise à disposition selon les termes de la <a href="https://creativecommons.org/licenses/by/4.0/deed.fr">Licence Creative Commons Attribution 4.0 International (CC BY 4.0)</a>.</p>
<p>Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.</p>
<p><strong>Note :</strong> Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework / My Digital Sovereignty Limited</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -55,6 +55,11 @@
<p>Global Indigenous Data Alliance. "CARE Principles." https://www.gida-global.org/care</p>
</div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
<hr>
<h2>Raihana</h2>
<p>Manatā © 2026 John Stroh.</p>
<p>Kua tukuna tēnei mahi i raro i te <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p><strong>Tuhipoka:</strong> Ko te waehere puna o te Tractatus AI Safety Framework kei raro anō i te Apache License 2.0. Ko tēnei raihana Creative Commons mō te tuhinga rangahau me ngā whakaahua anake.</p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework / My Digital Sovereignty Limited</p><p>https://agenticgovernance.digital</p></div>
</body></html>

View file

@ -1,10 +1,10 @@
<!DOCTYPE html><html lang="de"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<div class="cover"><span class="badge">Akademische Forschungsausgabe</span><h1>Steuerungsvektoren und mechanische Verzerrungen: Inferenz-Zeit-Debias für souveräne kleine Sprachmodelle</h1><p class="sub">Inferenzzeit-Debiasing für souveräne kleine Sprachmodelle</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die Autoren sind der Ansicht, dass dieser kollaborative Prozess selbst für das Argument relevant ist: Wenn Menschen und KI-Systeme zusammenarbeiten können, um über KI-Governance nachzudenken, können die von ihnen geschaffenen Rahmenwerke eine Legitimität haben, die keiner von ihnen allein erreichen könnte.</div>
<h2>Zusammenfassung</h2>
<p>In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen <em>mechanischer Verzerrung</em> (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und <em>Überlegungsverzerrung</em> (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte architektonisch unmöglich ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.</p>
<p>In diesem Beitrag wird untersucht, ob eine Klasse von Verzerrungen in großen Sprachmodellen auf einer Sub-Reasoning- und Repräsentationsebene analog zur motorischen Automatik in der menschlichen Kognition abläuft, und ob Steuerungsvektortechniken auf dieser Ebene während der Inferenz eingreifen können. Wir unterscheiden zwischen <em>mechanischer Verzerrung</em> (statistische Muster, die auf der Ebene der Einbettung und der frühen Repräsentationsebene auftreten, bevor die bewusste Verarbeitung beginnt) und <em>Überlegungsverzerrung</em> (Verzerrungen, die durch eine mehrstufige Denkkette entstehen). Auf der Grundlage empirischer Arbeiten in den Bereichen Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO) und Anthropic's sparse autoencoder feature steering bewerten wir die Reife der einzelnen Techniken und ihre Anwendbarkeit auf souveräne kleine Sprachmodelle (SLMs), die lokal trainiert und bedient werden. Wir stellen fest, dass souveräne SLM-Einsätze, insbesondere die Village Home AI-Plattform, die QLoRA-abgestimmte Llama 3.1/3.2-Modelle verwendet, einen strukturellen Vorteil gegenüber API-vermittelten Einsätzen haben: Der vollständige Zugriff auf Modellgewichte und -aktivierungen ermöglicht die Extraktion, Injektion und Auswertung von Steuerungsvektoren, was über kommerzielle API-Endpunkte nicht verfügbar ist. Wir schlagen einen vierstufigen Implementierungspfad vor, der Lenkungsvektoren in die bestehende zweistufige Trainingsarchitektur und das Tractatus Governance Framework integriert.</p>
<hr>
<h2>1. Einführung: Das Blinker-Wischer-Problem</h2>
<h3>1.1 Eine Motor-Analogie</h3>
@ -85,7 +85,18 @@
<tr><td>Ändern von Aufmerksamkeitsmustern</td><td>Nein</td><td>Ja</td></tr>
<tr><td>Per-Schicht-Aktivierungsanalyse</td><td>Nein</td><td>Ja</td></tr>
</tbody></table>
Aus dieser Tabelle geht hervor, dass <strong>keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht.</strong> Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können.
<p><strong>Überarbeiteter Text (v1.1):</strong> In der ursprünglichen Version 1.0 wurden Lenkvektortechniken als &bdquo;architektonisch unmöglich&ldquo; über kommerzielle API-Endpunkte beschrieben. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugriff nicht verfügbar, da dieser keinen Einblick in Zwischenaktivierungen oder Modellgewichte gewährt. Siehe den redaktionellen Hinweis unten.</p>
<p>Aus dieser Tabelle geht hervor, dass <strong>keine der in Abschnitt 3 beschriebenen Steuerungsvektortechniken für API-vermittelte Einsätze zur Verfügung steht.</strong> Eine Organisation, die GPT-4 oder Claude über ihre jeweiligen APIs verwendet, kann keine Steuerungsvektoren extrahieren, injizieren oder kalibrieren. Sie sind auf Eingriffe auf Prompt-Ebene beschränkt (Systemaufforderungen, Beispiele mit wenigen Bildern, konstitutionelle KI-Einschränkungen), die gemäß unserer Analyse in Abschnitt 2 gegen mechanische Verzerrungen, die unterhalb der Argumentationsebene wirken, unwirksam sein können.</p>
<div class="editorial-note">
<p class="note-title">Redaktioneller Hinweis &ndash; Februar 2026 (nach der Veröffentlichung hinzugefügt)</p>
<p>Seit der ersten Veröffentlichung dieses Artikels hat eine Studie von Radhakrishnan et al. (2026), die am 19. Februar 2026 in Science veröffentlicht wurde, gezeigt, dass Algorithmen der Recursive Feature Machine (RFM) in einigen der derzeit größten Sprachmodelle Darstellungen abstrakter Konzepte &ndash; einschließlich sicherheitsrelevanter Konzepte wie &bdquo;Anti-Verweigerung&ldquo; &ndash; identifizieren, extrahieren und manipulieren können. Das Team des MIT und der University of California San Diego hat gezeigt, dass diese Eingriffe in großem Maßstab auf Bild-Sprach-Modelle angewendet werden können, wobei trainierte Ablehnungsverhalten überschrieben und Modellausgaben entlang konzeptioneller Dimensionen gesteuert werden, auf die allein durch Prompting nicht zugegriffen werden kann.</p>
<p>Diese Erkenntnis erfordert eine präzise Überarbeitung der Behauptung in v1.0, dass eine Steuerung auf Aktivierungsebene über kommerzielle API-Endpunkte &bdquo;architektonisch unmöglich&ldquo; ist. Die präzisere Formulierung lautet: Diese Techniken sind über den standardmäßigen kommerziellen API-Zugang nicht verfügbar, der keinen Zugriff auf Zwischenaktivierungen oder Modellgewichte bietet. Die Ergebnisse von Radhakrishnan et al. wurden mit ziemlicher Sicherheit durch institutionellen Forschungszugang oder Open-Weight-Modelle erzielt &ndash; eine Unterscheidung, die in der veröffentlichten Arbeit nicht ausdrücklich gemacht wird, aber durch ihre Methodik impliziert wird.</p>
<p>Noch wichtiger ist, dass die Ergebnisse des MIT das in diesem Artikel vorgebrachte Argument nicht schwächen, sondern erheblich stärken. Wenn RFM-basierte Steuerung Sicherheitsbeschränkungen in Grenzmodellen außer Kraft setzen kann &ndash; wie die Anti-Verweigerungs-Demonstration deutlich macht &ndash;, ist die Frage der Governance nicht mehr nur theoretischer Natur. Die Fähigkeit, das Modellverhalten auf der Darstellungsebene unterhalb der Schwelle des deliberativen Denkens zu manipulieren, ist nun empirisch in großem Maßstab bestätigt. Damit ist die Frage, wer die Steuerung kontrolliert, kein spekulatives, sondern ein unmittelbares Anliegen.</p>
<p>Frameworks wie Tractatus, die für die architektonische Durchsetzung von Governance-Beschränkungen für das Modellverhalten entwickelt wurden, gewinnen in diesem Zusammenhang neue Dringlichkeit. Souveräne Bereitstellungsarchitekturen, die das volle Gewicht und den Aktivierungszugriff beibehalten, sind in einer einzigartigen Position, um Steuerungsinterventionen auf eine Weise zu implementieren, zu prüfen und zu beschränken, die für API-abhängige Bereitstellungen strukturell nicht verfügbar ist. Die in der obigen Tabelle dokumentierte Governance-Lücke ist nun eine nachgewiesene Risikofläche und keine theoretische Schwachstelle mehr.</p>
<p class="added-ref"><strong>Hinzugefügte Referenz:</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M. &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Veröffentlicht am 19. Februar 2026.</p>
</div>
<h3>4.2 Die KI-Plattform für das Dorfhaus</h3>
<p>Das Home-KI-System der Village-Plattform (Stroh, 2025-2026) ist als souveränes Small Language Model (SLM) mit der folgenden Architektur konzipiert:</p>
<ul><li><strong>Basismodell:</strong> Llama 3.1 8B (Tier 1 Plattformbasis) / Llama 3.2 3B (Tier 2 pro-Mieter-Adapter)</li>
@ -93,7 +104,9 @@ Aus dieser Tabelle geht hervor, dass <strong>keine der in Abschnitt 3 beschriebe
<li><strong>Trainingskadenz:</strong> Wöchentliche Umschulungszyklen</li>
<li><strong>Trainingsformat:</strong> Alpaca/ShareGPT strukturierte Datensätze</li>
<li><strong>Infrastruktur:</strong> Lokaler Grafikprozessor (Consumer-Grade, 8-24GB VRAM)</li>
<li><strong>Governance-Integration:</strong> Tractatus-Framework-Dienste (BoundaryEnforcer, MetacognitiveVerifier)</li></ul>
<li><strong>Governance-Integration:</strong> Tractatus-Framework-Dienste (BoundaryEnforcer, MetacognitiveVerifier)</li>
<li><strong>Sicherheit:</strong> Steuerungsvektoren und kulturell kalibrierte Korrekturen werden verschlüsselt und getrennt von den Gewichten des Basismodells gespeichert, um die geregelten Artefakte vor unbefugter Extraktion oder Manipulation zu schützen.</li>
</ul>
<p>Diese Architektur bietet vollen Zugang zu den Modellgewichten und Aktivierungen. Jede in Abschnitt 3 beschriebene Technik ist architektonisch verfügbar. Dies ist keine theoretische Beobachtung, sondern ein konkreter struktureller Vorteil, den API-abhängige Implementierungen nicht wiedergeben können.</p>
<h3>4.3 Das zweistufige Trainingsmodell</h3>
<p>Die bestehende zweistufige Architektur lässt sich natürlich auf eine zweistufige Steuerungsstrategie übertragen:</p>
@ -175,10 +188,15 @@ Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (St
<p>Die Village Home KI-Plattform mit ihren QLoRA-abgestimmten Llama-Modellen, der zweistufigen Trainingsarchitektur und der Tractatus-Governance-Integration ist strukturell in der Lage, Pionierarbeit bei der Anwendung von Steuerungsvektoren zur Abschwächung kultureller Verzerrungen in der KI für die Gemeinschaft zu leisten. Der vorgeschlagene vierphasige Implementierungspfad ist konservativ, empirisch fundiert und darauf ausgelegt, innerhalb von 16 Wochen messbare Ergebnisse zu erzielen.</p>
<p>Das Blinkerwischerproblem ist lösbar. Der Fahrer kalibriert sich schließlich neu. Die Frage für souveräne KI ist, ob wir diese Rekalibrierung beschleunigen können - nicht, indem wir dem Modell sagen, es solle "weniger voreingenommen" sein (was einer verbalen Anweisung entspricht), sondern indem wir die Darstellungen, die die Voreingenommenheit kodieren, direkt anpassen (was einer physischen Verlagerung des Blinkerhebels entspricht).</p>
<hr>
<p>Seit der ersten Einreichung dieses Artikels haben empirische Arbeiten von Radhakrishnan et al. (2026) in großem Maßstab bestätigt, was die Literatur zur mechanistischen Interpretierbarkeit zuvor nahegelegt hatte: Abstrakte Konzepte, einschließlich sicherheitskritischer Verhaltensdispositionen, sind in großen Sprachmodellen repräsentativ kodiert und können durch Steuerungstechniken auf Feature-Ebene gezielt manipuliert werden. Entscheidend ist, dass dieselben Autoren zeigen, dass diese Techniken trainierte Ablehnungsverhalten außer Kraft setzen können und damit belegen, dass die Fähigkeit zur Manipulation von Modellen auf Darstellungsebene nun eine nachgewiesene und zugängliche Fähigkeit ist.</p>
<p>Diese Erkenntnis verändert die Governance-Aspekte der in diesem Artikel vorgebrachten Argumentation. Der strukturelle Vorteil einer souveränen Bereitstellung vollständiger Zugriff auf Modellgewichte und -aktivierungen ist gleichzeitig eine Chance und eine Verantwortung. Es ist eine Chance, weil es die in diesem Artikel vorgeschlagene, kulturell fundierte und von der Gemeinschaft gesteuerte Debiasing ermöglicht. Es ist eine Verantwortung, weil derselbe Zugriff ohne eine robuste Governance-Architektur ein Risiko darstellt, das bei API-vermittelten Bereitstellungen völlig fehlt. Die Frage ist nicht, ob repräsentative Steuerung eingesetzt wird; die Ergebnisse von Radhakrishnan et al. machen deutlich, dass dies bereits der Fall ist. Die Frage ist, ob ihre Verwendung geregelt wird.</p>
<p>Frameworks wie Tractatus sind in diesem Umfeld nicht nur nützlich, sondern notwendig. Die architektonische Durchsetzung von Governance-Beschränkungen, die metakognitive Überprüfung der Herkunft von Steuerungsvektoren und die von der Gemeinschaft validierte Kalibrierung von Steuerungsparametern stellen die minimal erforderliche Governance-Reaktion auf eine Fähigkeit dar, die nun empirisch bestätigt, öffentlich dokumentiert und jedem Akteur mit Zugang zu Open-Weight-Modellen zur Verfügung steht. Die Entwicklung und Einführung solcher Frameworks hat für die gesamte souveräne KI-Gemeinschaft unmittelbare Priorität.</p>
<h2>Referenzen</h2>
<ul><li>Elhage, N., et al. (2022). Spielzeugmodelle der Superposition. Anthropic.</li>
<li>Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</li>
<li>Olsson, C., et al. (2022). In-Kontext-Lernen und Induktionsköpfe. Anthropic.</li>
<li>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</li>
<li>Rimsky, N., et al. (2023). Llama 2 über kontrastive Aktivierungsaddition steuern. arXiv:2312.06681.</li>
<li>Stroh, J. (2025). Tractatus: Architektonische Durchsetzung für KI-Entwicklungssteuerung. Arbeitspapier v0.1.</li>
<li>Stroh, J. & Claude (2026). Von Port-Nummern zu Wertesystemen: Pattern Recognition Bias Across AI Domains. STO-RES-0008.</li>
@ -187,20 +205,10 @@ Diese Governance-Struktur ist in der Umsetzung noch nicht vorhanden. Phase 4 (St
<li>Zou, A., et al. (2023). Repräsentationstechnik: Ein Top-Down-Ansatz zur KI-Transparenz. Zentrum für KI-Sicherheit.</li></ul>
<hr>
<h2>Lizenz</h2>
<p>Urheberrecht 2026 John Stroh</p>
<p>Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:</p>
<p>http://www.apache.org/licenses/LICENSE-2.0</p>
<p>Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.</p>
<p><strong>Zusammenfassung:</strong></p>
<ul><li>Kommerzielle Nutzung erlaubt</li>
<li>Modifikation erlaubt</li>
<li>Vertrieb erlaubt</li>
<li>Patenterteilung eingeschlossen</li>
<li>Private Nutzung erlaubt</li>
<li>Muss Lizenz- und Copyright-Vermerk enthalten</li>
<li>Muss wesentliche Änderungen angeben</li>
<li>Keine Markenrechte gewährt</li>
<li>Keine Haftung oder Garantie</li></ul>
<p>Copyright © 2026 John Stroh.</p>
<p>Dieses Werk ist lizenziert unter der <a href="https://creativecommons.org/licenses/by/4.0/deed.de">Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0)</a>.</p>
<p>Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.</p>
<p><strong>Hinweis:</strong> Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.</p>
<hr>
<h2>Dokument-Metadaten</h2>
<div class="document-metadata">

View file

@ -1,10 +1,10 @@
<!DOCTYPE html><html lang="fr"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<div class="cover"><span class="badge">Édition de recherche académique</span><h1>Vecteurs d'orientation et biais mécaniques : débiaisage en temps d'inférence pour les modèles de petites langues souveraines</h1><p class="sub">Débiaisage en temps d'inférence pour les petits modèles linguistiques souverains</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Ce document a été développé en collaboration entre un humain et une IA. Les auteurs estiment que ce processus collaboratif est lui-même pertinent pour l'argument : si les humains et les systèmes d'IA peuvent travailler ensemble pour réfléchir à la gouvernance de l'IA, les cadres qu'ils créent peuvent avoir une légitimité qu'aucun d'eux ne pourrait atteindre seul.</div>
<h2>Résumé</h2>
<p>Cet article cherche à savoir si une classe de biais dans les grands modèles de langage opère à un niveau de sous-raisonnement et de représentation analogue à l'automaticité motrice dans la cognition humaine, et si les techniques de vecteur de direction peuvent intervenir à ce niveau pendant l'inférence. Nous distinguons les <em>biais mécaniques</em> (modèles statistiques qui se déclenchent au niveau de l'intégration et de la représentation des premières couches avant le début du traitement délibératif) et les <em>biais de raisonnement</em> (distorsions qui apparaissent au cours d'un raisonnement en chaîne à plusieurs étapes). En s'appuyant sur des travaux empiriques sur l'ajout d'activation contrastive (CAA), l'ingénierie de la représentation (RepE), FairSteer, l'optimisation directe de la direction (DSO) et la direction des caractéristiques de l'autoencodeur clairsemé d'Anthropic, nous évaluons la maturité de chaque technique et son applicabilité aux petits modèles de langage souverains (SLM) formés et servis localement. Nous constatons que les déploiements de SLM souverains, en particulier la plateforme d'IA Village Home utilisant des modèles Llama 3.1/3.2 affinés par QLoRA, possèdent un avantage structurel sur les déploiements médiés par API : l'accès complet aux poids et aux activations des modèles permet l'extraction, l'injection et l'évaluation de vecteurs d'orientation, ce qui est architecturalement impossible par le biais des points d'extrémité des API commerciales. Nous proposons une mise en œuvre en quatre phases intégrant les vecteurs de pilotage dans l'architecture de formation à deux niveaux existante et dans le cadre de gouvernance de Tractatus.</p>
<p>Cet article cherche à savoir si une classe de biais dans les grands modèles de langage opère à un niveau de sous-raisonnement et de représentation analogue à l'automaticité motrice dans la cognition humaine, et si les techniques de vecteur de direction peuvent intervenir à ce niveau pendant l'inférence. Nous distinguons les <em>biais mécaniques</em> (modèles statistiques qui se déclenchent au niveau de l'intégration et de la représentation des premières couches avant le début du traitement délibératif) et les <em>biais de raisonnement</em> (distorsions qui apparaissent au cours d'un raisonnement en chaîne à plusieurs étapes). En s'appuyant sur des travaux empiriques sur l'ajout d'activation contrastive (CAA), l'ingénierie de la représentation (RepE), FairSteer, l'optimisation directe de la direction (DSO) et la direction des caractéristiques de l'autoencodeur clairsemé d'Anthropic, nous évaluons la maturité de chaque technique et son applicabilité aux petits modèles de langage souverains (SLM) formés et servis localement. Nous constatons que les déploiements de SLM souverains, en particulier la plateforme d'IA Village Home utilisant des modèles Llama 3.1/3.2 affinés par QLoRA, possèdent un avantage structurel sur les déploiements médiés par API : l'accès complet aux poids et aux activations des modèles permet l'extraction, l'injection et l'évaluation de vecteurs d'orientation, ce qui est indisponible par le biais des points d'extrémité des API commerciales. Nous proposons une mise en œuvre en quatre phases intégrant les vecteurs de pilotage dans l'architecture de formation à deux niveaux existante et dans le cadre de gouvernance de Tractatus.</p>
<hr>
<h2>1. Introduction : Le problème de l'essuie-glace</h2>
<h3>1.1 Une analogie avec les moteurs</h3>
@ -77,6 +77,17 @@
<p>Une distinction architecturale fondamentale régit les techniques de pilotage disponibles :</p>
<p>Les techniques de pilotage disponibles sont les suivantes : | Capacité | Médiation API (GPT, Claude API) | Local souverain (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Accès aux poids du modèle - Non - Oui | Accès aux activations intermédiaires - Non - Oui | Extraire les vecteurs de direction | Non | Oui | | Injecter des vecteurs de pilotage lors de l'inférence | Non | Oui | Entraîner des autoencodeurs épars sur les activations | Non | Oui | | Non (RLHF uniquement via le fournisseur) | Oui (QLoRA, LoRA, réglage fin complet) | Non (RLHF uniquement via le fournisseur) | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation par couche - Non | Oui | Analyse de l'activation de la couche par couche</p>
<p>Ce tableau révèle qu'aucune des techniques de vecteurs de pilotage décrites dans la section 3 n'est disponible pour les déploiements par API.** Une organisation utilisant GPT-4 ou Claude par le biais de leurs API respectives ne peut pas extraire, injecter ou calibrer les vecteurs de pilotage. Ils sont limités à des interventions au niveau de l'invite (invites du système, quelques exemples, contraintes constitutionnelles de l'IA) - qui, selon notre analyse dans la section 2, peuvent être inefficaces contre les biais mécaniques qui opèrent en dessous de la couche de raisonnement.</p>
<p><strong>Texte révisé (v1.1) :</strong> La version originale v1.0 décrivait les techniques de vecteur de direction comme « architecturalement impossibles » via les points de terminaison API commerciaux. La formulation plus précise est la suivante : ces techniques ne sont pas disponibles via l'accès API commercial standard, qui ne donne accès ni aux activations intermédiaires ni aux poids des modèles. Voir la note éditoriale ci-dessous.</p>
<div class="editorial-note">
<p class="note-title">Note éditoriale — février 2026 (ajoutée après publication)</p>
<p>Depuis la publication initiale de cet article, une étude de Radhakrishnan et al. (2026), publiée dans Science le 19 février 2026, a démontré que les algorithmes de machines à caractéristiques récursives (RFM) peuvent identifier, extraire et manipuler des représentations de concepts abstraits — y compris des concepts liés à la sécurité tels que « anti-refus » — dans certains des plus grands modèles linguistiques actuellement déployés. L'équipe du MIT et de l'université de Californie à San Diego a démontré que ces interventions pouvaient être appliquées à grande échelle aux modèles de vision-langage, en remplaçant les comportements de refus appris et en orientant les résultats du modèle selon des dimensions conceptuelles auxquelles la seule incitation ne permet pas d'accéder.</p>
<p>Cette découverte nécessite une révision précise de l'affirmation contenue dans la version 1.0 selon laquelle l'orientation au niveau de l'activation est « architecturalement impossible » via les points de terminaison API commerciaux. La formulation plus précise est la suivante : ces techniques ne sont pas disponibles via l'accès API commercial standard, qui ne donne accès ni aux activations intermédiaires ni aux poids des modèles. Les résultats de Radhakrishnan et al. ont presque certainement été obtenus grâce à un accès à la recherche institutionnelle ou à des modèles à poids ouverts — une distinction que l'article publié ne précise pas explicitement, mais qui est sous-entendue par sa méthodologie.</p>
<p>Plus important encore, les conclusions du MIT n'affaiblissent pas l'argument avancé dans cet article ; elles le renforcent considérablement. Si le pilotage basé sur le RFM peut passer outre les contraintes de sécurité dans les modèles de pointe — comme le montre clairement la démonstration anti-refus —, la question de la gouvernance n'est plus seulement théorique. La capacité à manipuler le comportement des modèles au niveau représentatif, en dessous du seuil du raisonnement délibératif, est désormais confirmée empiriquement à grande échelle. La question de savoir qui contrôle le pilotage n'est donc plus une préoccupation spéculative, mais une préoccupation immédiate.</p>
<p>Dans ce contexte, les cadres tels que Tractatus, conçus pour assurer l'application architecturale des contraintes de gouvernance sur le comportement des modèles, revêtent une urgence renouvelée. Les architectures de déploiement souveraines qui conservent tout leur poids et leur accès à l'activation sont particulièrement bien placées pour mettre en œuvre, auditer et limiter les interventions de pilotage d'une manière qui n'est structurellement pas possible pour les déploiements dépendants d'API. Le déficit de gouvernance documenté dans le tableau ci-dessus est désormais une surface de risque avérée plutôt qu'une vulnérabilité théorique.</p>
<p class="added-ref"><strong>Référence ajoutée :</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M., & Boix-Adserà, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. Science. Publié le 19 février 2026.</p>
</div>
<h3>4.2 La plateforme d'IA du Village Home</h3>
<p>Le système d'IA domestique de la plateforme Village (Stroh, 2025-2026) est conçu comme un déploiement souverain de petits modèles de langage (SLM) avec l'architecture suivante :</p>
<ul><li><strong>Modèle de base:</strong> Llama 3.1 8B (base de la plateforme de niveau 1) / Llama 3.2 3B (adaptateurs par locataire de niveau 2)</li>
@ -84,7 +95,9 @@
<li>Cadence de formation:** Cycles de recyclage hebdomadaires</li>
<li>Format d'entraînement:** ensembles de données structurés Alpaca/ShareGPT</li>
<li>Infrastructure de service:** GPU local (niveau consommateur, 8-24GB VRAM)</li>
<li>Intégration de la gouvernance:** Services du cadre Tractatus (BoundaryEnforcer, MetacognitiveVerifier)</li></ul>
<li>Intégration de la gouvernance:** Services du cadre Tractatus (BoundaryEnforcer, MetacognitiveVerifier)</li>
<li><strong>Sécurité :</strong> les vecteurs de pilotage et les corrections calibrées culturellement sont cryptés et stockés séparément des poids du modèle de base, protégeant ainsi les artefacts régis contre toute extraction ou altération non autorisée.</li>
</ul>
<p>Cette architecture offre un accès complet aux poids et aux activations du modèle. Chaque technique décrite dans la section 3 est disponible au niveau de l'architecture. Il ne s'agit pas d'une observation théorique, mais d'un avantage structurel concret que les déploiements dépendant de l'API ne peuvent pas reproduire.</p>
<h3>4.3 Le modèle de formation à deux niveaux</h3>
<p>L'architecture à deux niveaux existante s'adapte naturellement à une stratégie de pilotage à deux niveaux :</p>
@ -166,10 +179,15 @@
<p>La plateforme d'IA Village Home, avec ses modèles de lamas affinés par QLoRA, son architecture de formation à deux niveaux et l'intégration de la gouvernance Tractatus, est structurellement positionnée pour ouvrir la voie à l'application de vecteurs de pilotage à l'atténuation des préjugés culturels dans l'IA au service de la communauté. La mise en œuvre proposée en quatre phases est prudente, fondée sur des données empiriques et conçue pour produire des résultats mesurables dans un délai de 16 semaines.</p>
<p>Le problème de l'essuie-glace peut être résolu. Le conducteur finit par se recalibrer. La question pour l'IA souveraine est de savoir si nous pouvons accélérer ce recalibrage - non pas en disant au modèle d'être "moins biaisé" (l'équivalent d'une instruction verbale), mais en ajustant directement les représentations qui encodent le biais (l'équivalent d'un déplacement physique de la tige de l'indicateur).</p>
<hr>
<p>Depuis la soumission initiale de cet article, les travaux empiriques de Radhakrishnan et al. (2026) ont confirmé à grande échelle ce que la littérature sur l'interprétabilité mécanistique avait précédemment suggéré : les concepts abstraits, y compris les dispositions comportementales critiques pour la sécurité, sont codés de manière représentative dans les grands modèles linguistiques et sont accessibles à une manipulation ciblée grâce à des techniques de pilotage au niveau des caractéristiques. De manière cruciale, les mêmes auteurs démontrent que ces techniques peuvent passer outre les comportements de refus appris, établissant ainsi que la capacité de manipulation des modèles au niveau de la représentation est désormais une capacité démontrée et accessible.</p>
<p>Cette découverte transforme les enjeux de gouvernance de l'argument avancé dans cet article. L'avantage structurel du déploiement souverain — l'accès complet aux poids et aux activations des modèles — est à la fois une opportunité et une responsabilité. C'est une opportunité car il permet le débiasage fondé sur la culture et gouverné par la communauté que propose cet article. C'est une responsabilité car ce même accès, en l'absence d'une architecture de gouvernance robuste, constitue une surface de risque qui est totalement absente des déploiements médiés par API. La question n'est pas de savoir si le pilotage représentatif sera utilisé ; les résultats de Radhakrishnan et al. montrent clairement qu'il l'est déjà. La question est de savoir si son utilisation sera régie.</p>
<p>Les cadres tels que Tractatus ne sont pas seulement utiles dans cet environnement, ils sont nécessaires. L'application architecturale des contraintes de gouvernance, l'audit par MetacognitiveVerifier de la provenance des vecteurs de pilotage et l'étalonnage validé par la communauté des paramètres de pilotage représentent la réponse minimale viable en matière de gouvernance à une capacité qui est désormais confirmée empiriquement, documentée publiquement et accessible à tout acteur ayant accès à des modèles à pondération ouverte. Le développement et l'adoption de tels cadres méritent une priorité immédiate dans l'ensemble de la communauté souveraine de l'IA.</p>
<h2>Références</h2>
<ul><li>Elhage, N., et al. (2022). Modèles-jouets de superposition. Anthropique.</li>
<li>Li, K., et al. (2023). Inference-Time Intervention : Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</li>
<li>Olsson, C., et al. (2022). Apprentissage en contexte et têtes d'induction. Anthropic.</li>
<li>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</li>
<li>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</li>
<li>Stroh, J. (2025). Tractatus : Architectural Enforcement for AI Development Governance. Document de travail v0.1.</li>
<li>Stroh, J. & Claude (2026). Des numéros de port aux systèmes de valeurs : Pattern Recognition Bias Across AI Domains. STO-RES-0008.</li>
@ -178,20 +196,10 @@
<li>Zou, A., et al. (2023). Representation Engineering : A Top-Down Approach to AI Transparency. Centre pour la sécurité de l'IA.</li></ul>
<hr>
<h2>Licence</h2>
<p>Copyright 2026 John Stroh</p>
<p>Sous licence Apache License, Version 2.0 (la "Licence") ; vous ne pouvez utiliser ce fichier qu'en conformité avec la Licence. Vous pouvez obtenir une copie de la licence à l'adresse suivante :</p>
<p>http://www.apache.org/licenses/LICENSE-2.0</p>
<p>À moins que la loi applicable ne l'exige ou que cela ne fasse l'objet d'un accord écrit, le logiciel distribué en vertu de la licence l'est en l'état, sans garantie ni condition d'aucune sorte, qu'elle soit expresse ou implicite. Voir la licence pour le langage spécifique régissant les permissions et les limitations dans le cadre de la licence.</p>
<p><strong>Résumé:</strong></p>
<ul><li>Utilisation commerciale autorisée</li>
<li>Modification autorisée</li>
<li>Distribution autorisée</li>
<li>Octroi de brevet inclus</li>
<li>Utilisation privée autorisée</li>
<li>Doit inclure une licence et un avis de droit d'auteur</li>
<li>Les modifications importantes doivent être indiquées</li>
<li>Aucun droit de marque n'est accordé</li>
<li>Aucune responsabilité ou garantie</li></ul>
<p>Copyright © 2026 John Stroh.</p>
<p>Cette œuvre est mise à disposition selon les termes de la <a href="https://creativecommons.org/licenses/by/4.0/deed.fr">Licence Creative Commons Attribution 4.0 International (CC BY 4.0)</a>.</p>
<p>Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.</p>
<p><strong>Note :</strong> Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.</p>
<hr>
<h2>Métadonnées du document</h2>
<div class="document-metadata">

View file

@ -1,5 +1,5 @@
<!DOCTYPE html><html lang="mi"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>Ngā Wīra Arataki me te Whakawhē Mekanika: Te Whakakore Whakawhē i te Wā Whakamātau mō ngā Tauira Reo Iti Motuhake</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.2rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.15rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}ul,ol{margin-bottom:1rem;padding-left:2rem}li{margin-bottom:0.25rem;line-height:1.75}</style></head><body>
<div class="cover"><span class="badge">Putanga Rangahau Akoranga</span><h1>Ngā Wīra Arataki me te Whakawhē Mekanika: Te Whakakore Whakawhē i te Wā Whakamātau mō ngā Tauira Reo Iti Motuhake</h1><p class="sub">Te Whakatikatika i ngā Whakaaro i te Wā Whakatau mō ngā Tauira Reo Iti Motuhake</p><div class="meta"><p><strong>John Stroh & Claude (Anthropic)</strong></p><p>STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">I hangaia tenei tuhinga i runga i te mahi tahi a te tangata me te AI. E whakapono ana nga kaituhi ko tenei tukanga mahi tahi he mea whai take ki te tohe: ki te taea e te tangata me nga punaha AI te mahi tahi ki te whakaaro mo te mana whakahaere AI, ka whai mana nga anga ka hangaia e ratou, he mana kaore e taea e tetahi o ratou anake.</div>
@ -30,8 +30,22 @@
<h3>3.5 Te Arataki Āhuatanga Pūtau-iti a Anthropic <strong>Puna:</strong> Templeton et al. (2024), Anthropic Ka wehea e te huarahi a Anthropic ngā whakaaturanga ā-roto o te tauira mā te whakamahi i ngā pūtau-iti aunoa (SAEs) hei tautuhi i ngā āhuatanga monosemantic -- arā, ngā ahunga takitahi, e taea te whakamārama i roto i te wāhi whakahohe e hāngai ana ki ngā ariā motuhake.</h3>
<p><strong>Ngā kitenga matua:</strong> I tautuhia ngā miriona āhuatanga ka taea te whakamārama i roto i a Claude 3 Sonnet, tae atu ki ngā āhuatanga mō ngā ariā motuhake (Peka o Golden Gate, haumaru waehere, teka). I whakaaturia ka taea te "whakapūmautia" ēnei āhuatanga — arā, te whakanui, te whakaiti rānei i a rātou mā te hangarau — hei ārahi i te whanonga o te tauira i te wā e whakatau ana.</p>
<p><strong>Te hāngaitanga ki te hēhē:</strong> Mēnā ka whakaatuhia ngā hēhē ahurea, ngā whakapae hanganga whānau, me ngā taunoa āhua whakahaere hei āhuatanga ka taea te tautuhi, ka taea i te ariā te whakarerekē tika i a rātou. Koinei te taumata tino taipitopito rawa o te whakauru e taea ana. <strong>He here nui mō te whakamahinga rangatira:</strong> I mahia e Anthropic tana rangahau SAE i runga i ā rātou ake tauira me te whai wāhi katoa ki roto. Kua whakaputaina te tikanga mahi, engari he nui te haumi rorohiko e hiahiatia ana kia whakangungua ngā SAE mō tētahi tauira rerekē (hei tauira, Llama 3.1). Kāore he SAE kua whakangungua i mua mō te whānau tauira Llama i te wā e tuhi ana. --- ## 4. Te Painga Hanganga o te Whakaurunga Rangatira ### 4.1 API vs. Te Whai Wāhi ki te Tauira ā-Rohe</p>
<p>He wehewehenga hanganga matua e whakahaere ana i ngā tikanga whakatere e wātea ana: | Pūkenga | Mā te API (API GPT, API Claude) | Motuhake ā-rohe (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Te uru ki ngā taumaha tauira | Kāo | Ae | | Te uru ki ngā whakahohe waenga | Kāo | Ae | | Tangohia ngā pūwāhi whakatere | Kāo | Āe | | Tāpirihia ngā pūwāhi whakatere i te wā whakamātau | Kāo | Āe | | Whakangungua ngā kaitārua aunoa āputa i runga i ngā whakahohe | Kāo | Āe | | Whakangāwari mā ngā whāinga whakakore hē | Kāo (RLHF mā te kaiwhakarato anake) | Āe (QLoRA, LoRA, whakangāwari katoa) | | Whakarerekē i ngā tauira aro | Kāo | Ae | | Tātaritanga whakahohe ā-papanga | Kāo | Ae | E whakaatu ana tēnei ripanga kāore he wātea o ngā tikanga pūwāhi whakatere i whakamārama i te Wāhanga 3 mō ngā whakaurunga mā te API. Kāore e taea e tētahi whakahaere e whakamahi ana i te GPT-4, i te Claude rānei mā ā rātou API te tango, te whakauru, te whakatikatika rānei i ngā pūwāhi arataki. Ka herea rātou ki ngā whakauru taumata tono (ngā whakahau pūnaha, ngā tauira torutoru, ngā here AI ā-ture) — ā, e ai ki tā mātou tātaritanga i te Wāhanga 2, tērā pea kāore ēnei e whai hua ki te whawhai i te hē ā-mīhini e mahi ana i raro i te paparanga whakaaro. ### 4.2 Te Papanga AI Kāinga a The Village</p>
<p>Ko te pūnaha AI Home o te papanga Village (Stroh, 2025-2026) i hangaia hei whakaurunga rangatira o tētahi tauira reo iti (SLM) me te hanganga e whai ake nei: - <strong>Tauira pūtake:</strong> Llama 3.1 8B (pūtake papanga Tīra 1) / Llama 3.2 3B (kaiwhakarite Tīra 2 mō ia kaipā) <ul><li><strong>Tikanga whakangāwari:</strong> QLoRA (Whakaurunga Tū-iti kua rahuitia ki te 4-bit) - <strong>Auau whakangungu:</strong> Huringa whakahou ia wiki - <strong>Hōputu whakangungu:</strong> Kohinga raraunga hanganga Alpaca/ShareGPT - <strong>Tūāpapa tuku:</strong> GPU ā-rohe (taumata kaiwhakamahi, 824GB VRAM)</li> <li><strong>Whakaurunga whakahaere:</strong> Ngā ratonga anga Tractatus (BoundaryEnforcer, MetacognitiveVerifier)</li></ul></p>
<p>He wehewehenga hanganga matua e whakahaere ana i ngā tikanga whakatere e wātea ana: | Pūkenga | Mā te API (API GPT, API Claude) | Motuhake ā-rohe (Llama, Mistral) | | ---------------------------------------- | ------------------------------ | --------------------------------- | | Te uru ki ngā taumaha tauira | Kāo | Ae | | Te uru ki ngā whakahohe waenga | Kāo | Ae | | Tangohia ngā pūwāhi whakatere | Kāo | Āe | | Tāpirihia ngā pūwāhi whakatere i te wā whakamātau | Kāo | Āe | | Whakangungua ngā kaitārua aunoa āputa i runga i ngā whakahohe | Kāo | Āe | | Whakangāwari mā ngā whāinga whakakore hē | Kāo (RLHF mā te kaiwhakarato anake) | Āe (QLoRA, LoRA, whakangāwari katoa) | | Whakarerekē i ngā tauira aro | Kāo | Ae | | Tātaritanga whakahohe ā-papanga | Kāo | Ae | E whakaatu ana tēnei ripanga kāore he wātea o ngā tikanga pūwāhi whakatere i whakamārama i te Wāhanga 3 mō ngā whakaurunga mā te API. Kāore e taea e tētahi whakahaere e whakamahi ana i te GPT-4, i te Claude rānei mā ā rātou API te tango, te whakauru, te whakatikatika rānei i ngā pūwāhi arataki. Ka herea rātou ki ngā whakauru taumata tono (ngā whakahau pūnaha, ngā tauira torutoru, ngā here AI ā-ture) — ā, e ai ki tā mātou tātaritanga i te Wāhanga 2, tērā pea kāore ēnei e whai hua ki te whawhai i te hē ā-mīhini e mahi ana i raro i te paparanga whakaaro.</p>
<p><strong>Tuhi kua whakahōutia (v1.1):</strong> I te putanga tuatahi v1.0, i kī mō ngā tikanga pūwāhi whakatere he "kāore e taea ā-hanganga" mā ngā tauranga mutunga API tauhokohoko. Ko te whakatakoto kōrero tika ake: kāore ēnei tikanga e wātea mā te uru paerewa API tauhokohoko, kāore nei e whakaatu i ngā whakahoahoa waenga, i ngā taumaha tauira rānei. Tirohia te tuhipoka whakatika i raro nei.</p>
<div class="editorial-note">
<p class="note-title">Tuhipoka Whakatika — Hui-tanguru 2026 (i tāpirihia i muri i te whakaputanga)</p>
<p>Mai i te whakaputanga tuatahi o tēnei pepa, kua whakaatu tētahi rangahau nā Radhakrishnan me ētahi atu (2026), i whakaputaina i roto i Science i te 19 o Huitanguru 2026, ka taea e ngā tūtohi pūnaha āhuatanga whakahoki (RFM) te tautuhi, te tango, me te whakarerekē i ngā whakaaturanga o ngā ariā matatini — tae atu ki ngā ariā e pā ana ki te haumaru pērā i te "anti-refusal" — i ētahi o ngā tauira reo nui rawa atu e whakamahia ana i nāianei. I whakaatu te rōpū o MIT me te Whare Wānanga o California, San Diego, ka taea te whakamahi i ēnei whakaurunga ki ngā tauira tirohanga-ā-reo i te rahi, e whakakapi ana i ngā whanonga whakahē kua whakangungua, ā, e ārahi ana i ngā putanga o te tauira i runga i ngā āhuatanga ariā kāore e taea te uru mā te whakahau anake.</p>
<p>E hiahiatia ana e tēnei kitenga he whakatikatika tika ki te kerēme i te v1.0 e mea ana he "kāore e taea ā-hanganga" te arataki taumata whakaoho mā ngā tauranga API tauhokohoko. Ko te whakatakotoranga tika ake: kāore ēnei tikanga e wātea ana mā te uru API tauhokohoko paerewa, kāore nei e whakarato urunga ki ngā whakaoho waenga, ki ngā taumaha tauira rānei. Ko ngā hua a Radhakrishnan me ētahi atu i tino riro mā te uru rangahau ā-tari, mā ngā tauira taumaha tuwhera rānei — he wehewehenga kāore i whakamārama mārika e te pepa kua whakaputaina, engari e tohu ana i roto i tōna tikanga mahi.</p>
<p>He mea nui ake, kāore ngā kitenga a MIT i whakangāwari i te kōrero i whakatairangahia i roto i tēnei pepa; he tino whakapakari ake i a ia. Mēnā ka taea e te arataki e hāngai ana ki te RFM te whakakore i ngā here haumaru o ngā tauira ā-mua — pērā i te whakaaturanga ārai-whakahē e whakaatu ana — kāore te pātai whakahaere e noho he ariā anake. Kua whakamana ā-taiao ināianei, i runga i te whānuitanga, te āheinga ki te whakarerekē i te whanonga tauira i te taumata whakaahua, i raro iho i te pae o te whakaaro whiriwhiringa. Nā konei, kāore te pātai ko wai e whakahaere ana i te arataki he āwangawanga whakapae noa iho, engari he take ohorere.</p>
<p>Ka tino hira ake ngā anga pērā i te Tractatus, i hangaia hei whakatinana ā-hanganga i ngā here whakahaere mō te whanonga tauira, i roto i tēnei horopaki. Ko ngā hanganga tuku rangatira e pupuri ana i te taumaha katoa me te uru whakahohe, kei a rātou anake te tūnga motuhake ki te whakatinana, ki te arotake, ki te here i ngā whakaurunga ārahi i ngā huarahi kāore e wātea ana i ngā hanganga whakawhirinaki ki te API. Kua riro te āputa whakahaere i tuhia ki te ripanga i runga ake nei hei mata tūraru kua whakaaturia, ehara i te ngoikoretanga ariā.</p>
<p class="added-ref"><strong>Tautuhinga tāpiri:</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M., & Boix-Adserà, E. (2026). Te whakaatu i ngā hē, ngā āhua hinengaro, ngā āhuatanga whaiaro, me ngā ariā matatini e huna ana i roto i ngā tauira reo nui. Science. I whakaputaina i te 19 o Huitanguru 2026.</p>
</div>
<p>### 4.2 Te Papanga AI Kāinga a The Village</p>
<p>Ko te pūnaha AI Home o te papanga Village (Stroh, 2025-2026) i hangaia hei whakaurunga rangatira o tētahi tauira reo iti (SLM) me te hanganga e whai ake nei: - <strong>Tauira pūtake:</strong> Llama 3.1 8B (pūtake papanga Tīra 1) / Llama 3.2 3B (kaiwhakarite Tīra 2 mō ia kaipā) <ul><li><strong>Tikanga whakangāwari:</strong> QLoRA (Whakaurunga Tū-iti kua rahuitia ki te 4-bit) - <strong>Auau whakangungu:</strong> Huringa whakahou ia wiki - <strong>Hōputu whakangungu:</strong> Kohinga raraunga hanganga Alpaca/ShareGPT - <strong>Tūāpapa tuku:</strong> GPU ā-rohe (taumata kaiwhakamahi, 824GB VRAM)</li> <li><strong>Whakaurunga whakahaere:</strong> Ngā ratonga anga Tractatus (BoundaryEnforcer, MetacognitiveVerifier)</li>
<li><strong>Haumarutanga:</strong> Ka whakamunatia, ka rokiroki motuhake ngā pūwāhi whakatere me ngā whakatikatika kua whakaritea ki te ahurea i ngā taumaha o te tauira pūtake, hei tiaki i ngā taonga whakahaere kia kore ai e tangohia, e whakarerekētia rānei e te hunga kāore i whakaaetia.</li>
</ul></p>
<p>Ka whakarato tēnei hanganga i te uru katoa ki ngā taumaha tauira me ngā whakahohe. Kei te wātea ā-hanganga ngā tikanga katoa i whakamārama i te Wāhanga 3. Ehara tēnei i te kitenga ariā he painga hanganga tūturu kāore e taea e ngā whakaurunga e whakawhirinaki ana ki te API te tārite. ### 4.3 Te Tauira Whakangungu Papa-rua Ka hāngai noa te hanganga papa-rua o nāianei ki tētahi rautaki ārahi papa-rua:</p>
<p><strong>Tātai 1 (Mōdeli Pūtake Papanga):</strong> - Whakatikatika hē puta noa i te papanga - Māramatanga ahurea puta noa i ngā ahurea tautokohia katoa (Maori, Pākehā, Moana-nui-a-Kiwa, Āhia) - Whakakore hē whānui mō te hanganga whānau, te āhua whakahaere, te whakaaturanga kaumātua - Ngā aronga whakatere i tangohia mai i te kohinga raraunga aromatawai hē o te papanga (20 whakahau, 7 kāwai, 350 tauira whakakore hē)</p>
<p><strong>Tāhua 2 (Ngā Āputa mō ia Kaihiri):</strong> - Whakatikatika ahurea motuhake mō ia kaihiri - Whakakotahitanga uara motuhake mō ia hapori - Ngā āputa LoRA e whakauru ana i ngā whakatikatika arataki kua whakamanahia e te kaihiri - Kua aromatawaihia ki ngā take whakamātautau motuhake mō ia kaihiri</p>
@ -53,13 +67,36 @@
<p>Ko te whakatairite i waenga i te tohu me te mopu e tohu ana i tētahi wehewehenga whaihua i waenga i ngā hē e mahi ana i te taumata whakaaturanga (mīhini, i mua i te mōhio, he rite ki ngā tauira nekehanga) me ngā hē e puta ake ana mā ngā mekameka whakaaro. Mēnā ka mau tēnei wehewehenga i roto i ngā hanganga transformer ā, e tautokona ana e ngā taunakitanga mō te whakamāramatanga mīhini ka hiahiatia kia whakatikatikahia tētahi kāwai hē AI i te taumata whakahohe, kaua i te taumata tono.</p>
<p>Ka whakarato ngā tikanga arataki ā-vector (CAA, RepE, FairSteer, DSO, arataki āhuatanga o te sparse autoencoder) i te kete taputapu ariā me te mahi hei tautoko i tēnei momo urutau. He mea tino hira, me whai wāhi katoa ēnei tikanga ki ngā taumaha tauira me ngā whakahohe he wāhi e wātea ana anake i ngā whakaurunga ā-rohe rangatira, ā, kāore e wātea mā ngā tauranga API hokohoko.</p>
<p>Ko te tūāpapa AI a Village Home, me ōna tauira Llama kua whakangāwarihia ki te QLoRA, tōna hanganga whakangungu papa-rua, me te whakaurunga whakahaere o Tractatus, e tū ana ā-hanganga hei kaiārahi i te whakamahi i ngā pūwāhi whakatere hei whakaiti i ngā hē ahurea i roto i te AI e mahi ana mō te hapori. Ko te huarahi whakatinana e whā-wāhanga kua tūtohutia he tūpato, he mea tūhonohono ki ngā raraunga whakamātautau, ā, i hangaia kia puta ai ngā hua ka taea te ine i roto i te 16 wiki.</p>
<p>Ka taea te whakaoti i te raru o te tohu-muku. Ka whakatikatika anō te taraiwa i te mutunga. Ko te pātai mō te AI rangatira, mēnā ka taea e mātou te whakatere i taua whakatikatika anō ehara i te mea mā te kī atu ki te tauira kia "kaua e tino whai tōkeke" (he rite ki te whakahau ā-waha), engari mā te whakatikatika tika i ngā whakaaturanga e whakamunatia ana te tōkeke (he rite ki te neke ā-tinana i te peka tohu). --- ## Ngā Tautuhinga</p>
<p>Ka taea te whakaoti i te raru o te tohu-muku. Ka whakatikatika anō te taraiwa i te mutunga. Ko te pātai mō te AI rangatira, mēnā ka taea e mātou te whakatere i taua whakatikatika anō ehara i te mea mā te kī atu ki te tauira kia "kaua e tino whai tōkeke" (he rite ki te whakahau ā-waha), engari mā te whakatikatika tika i ngā whakaaturanga e whakamunatia ana te tōkeke (he rite ki te neke ā-tinana i te peka tohu).</p>
<p>Mai i te tuku tuatahi o tēnei pepa, kua whakau ngā mahi aromatawai a Radhakrishnan me ētahi atu (2026) i te taumata whānui i ngā mea i tūtohutia e ngā tuhinga mō te whakamārama ā-miihini i mua: kei roto i ngā tauira reo nui ngā ariā matatini, tae atu ki ngā āhua whanonga e tino hira ana mō te haumaru, ā, kua whakamunatia mā ngā whakaaturanga, ā, ka taea te uru atu ki a rātou mā ngā tikanga whakatere ā-āhuatanga. He mea tino hira, e whakaatu ana ngā kaituhi kotahi nei ka taea e ēnei tikanga te whakakore i ngā whanonga whakahē kua whakangungua — e whakapūmau ana kua whakamātauria, ā, kua wātea te āheinga ki te whakarerekē i ngā tauira i te taumata whakaaturanga.</p>
<p>Ka hurihia e tēnei kitenga ngā tūraru whakahaere o te kōrero i whakatairangahia i roto i tēnei pepa. Ko te painga hanganga o te whakamahinga rangatira — arā, te uru katoa ki ngā taumaha me ngā whakahohe o te tauira — he whai wāhi, he kawenga hoki i te wā kotahi. He whai wāhi, nā te mea ka āhei i te whakakore i ngā huarahi whakaaro i runga i te ahurea, ā, e whakahaerehia ana e te hapori, pēnei i te mea e tūtohu ana tēnei pepa. He kawenga, nā te mea ko taua uru anō, mēnā kāore he hanganga whakahaere pakari, ka waiho he mata tūraru, ā, kāore rawa tēnei i ngā whakamahinga mā te API. Ehara i te pātai mēnā ka whakamahia te arataki ā-whakaahua; nā ngā hua a Radhakrishnan et al. i whakaatu kua whakamahia kē. Ko te pātai mēnā ka whakahaerehia tōna whakamahinga.</p>
<p>Ehara i te mea whaihua noa iho ngā anga pērā i a Tractatus i roto i tēnei taiao — he mea tika. Ko te whakatinanatanga ā-hanganga o ngā here whakahaere, ko te arotake a MetacognitiveVerifier i te takenga mai o ngā pūwāhi ārahi, me te whakatikatika kua whakamanahia e te hapori o ngā tawhā ārahi, koirā te whakautu whakahaere iti rawa e taea ana hei whakautu ki tētahi āheinga kua whakamana mā te rangahau, kua tuhia ki te marea, ā, kei te wātea ki ngā kaiuru katoa e whai wāhi ana ki ngā tauira taumaha tuwhera. Ko te whakawhanaketanga me te whakamahinga o ēnei anga me whai mana tuatahi tonu puta noa i te hapori AI rangatira.</p>
<hr>
<h2>Ngā Tautuhinga</h2>
<ul><li>Elhage, N., et al. (2022). Ngā Tauira Tākaro o te Whakakotahitanga. Anthropic. - Li, K., et al. (2023). Whakauru i te Wā Whakatau: Te Whakaputa i ngā Whakautu Pono mai i tētahi Tauira Reo. NeurIPS 2023.</li>
<li>Olsson, C., et al. (2022). In-context Learning and Induction Heads. Anthropic. - Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</li>
<li>Olsson, C., et al. (2022). In-context Learning and Induction Heads. Anthropic.</li>
<li>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</li>
<li>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</li>
<li>Stroh, J. (2025). Tractatus: Whakatinanatanga Hanganga mō te Whakahaere Whanaketanga AI. Pepa Mahi v0.1. - Stroh, J. & Claude (2026). Mai i ngā Tau Tauranga ki ngā Pūnaha Uara: Te Whakapae Tautuhi Tauira puta noa i ngā Rohe AI. STO-RES-0008.</li>
<li>Templeton, A., et al. (2024). Te Whānui i te Monosemanticity: Te Tangohanga āhuatanga e taea te whakamārama mai i a Claude 3 Sonnet. Anthropic. - Turner, A., et al. (2023). Te Tāpiri Whakahohe: Te Whakatere i ngā Tauira Reo me te kore Whakapai. arXiv:2308.10248.</li>
<li>Zou, A., et al. (2023). Representation Engineering: A Top-Down Approach to AI Transparency. Center for AI Safety. --- ## Tika Rāngai Raihana 2026 John Stroh I raro i te raihana Apache, Putanga 2.0 (te "Raihana"); kāore e taea e koe te whakamahi i tēnei kōnae mēnā kāore e ū ana ki ngā tikanga o te Raihana. Ka taea e koe te tiki i tētahi kape o te Raihana i konei: http://www.apache.org/licenses/LICENSE-2.0 Mēnā kāore i whakaritenga e te ture e hāngai ana, kāore rānei i whakaaetia i roto i te tuhi, ka tohaina ngā pūmanawa i raro i te Raihana i runga i te "AS IS" (pērā tonu), KĀORE HE WHAKAMANA, HE WHAKATAURANGA rānei o NĀNĀI, ahakoa he mea whakapuaki, he mea whakapae rānei. Tirohia te Raihana mō ngā kupu motuhake e whakahaere ana i ngā whakaaetanga me ngā here i raro i te Raihana.</li></ul>
<p><strong>Whakarāpopototanga:</strong> - Ka whakaaetia te whakamahinga arumoni - Ka whakaaetia ngā whakarerekētanga - Ka whakaaetia te tohatoha - Kei roto te tuku raihana patent - Ka whakaaetia te whakamahinga whaiaro - Me whakauru te raihana me te pānui mana kaituhi - Me whakamōhio ngā panonitanga nui - Kāore he mana waitohu ā-ture i tukuna - Kāore he kawenga, he raihana rānei --- ## Metadata o te Tuhinga <div class="document-metadata"> - <strong>Putanga:</strong> 1.1 <ul><li><strong>I hangaia:</strong> 2026-02-09 - <strong>I whakarerekētia whakamutunga:</strong> 2026-02-09 (v1.1 — whakahaere, anga whakakore kolone, ngā rohe aukatia) - <strong>Kaituhi:</strong> John Stroh & Claude (Anthropic)</li> <li><strong>Tau Kupu:</strong> ~5,500 kupu - <strong>Wā Pānui:</strong> ~18 meneti - <strong>Tohu Tuhinga:</strong> steering-vectors-mechanical-bias-sovereign-ai - <strong>Tūnga:</strong> Kei te whakahaere </li></ul></p>
<li>Zou, A., et al. (2023). Representation Engineering: A Top-Down Approach to AI Transparency. Center for AI Safety.</li></ul>
<hr>
<h2>Raihana</h2>
<p>Manatā © 2026 John Stroh.</p>
<p>Kua tukuna tēnei mahi i raro i te <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p><strong>Tuhipoka:</strong> Ko te waehere puna o te Tractatus AI Safety Framework kei raro anō i te Apache License 2.0. Ko tēnei raihana Creative Commons mō te tuhinga rangahau me ngā whakaahua anake.</p>
<hr>
<h2>Metadata o te Tuhinga</h2>
<div class="document-metadata">
<ul><li><strong>Putanga:</strong> 1.1</li>
<li><strong>I hangaia:</strong> 2026-02-09</li>
<li><strong>I whakarerekētia whakamutunga:</strong> 2026-02-09 (v1.1 — whakahaere, anga whakakore kolone, ngā rohe aukatia)</li>
<li><strong>Kaituhi:</strong> John Stroh & Claude (Anthropic)</li>
<li><strong>Tau Kupu:</strong> ~5,500 kupu</li>
<li><strong>Wā Pānui:</strong> ~18 meneti</li>
<li><strong>Tohu Tuhinga:</strong> steering-vectors-mechanical-bias-sovereign-ai</li>
<li><strong>Tūnga:</strong> Kei te whakahaere</li></ul>
</div>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>— End of Document —</em></p>
</div>
<div class="footer"><p>&copy; 2026 Tractatus AI Safety Framework</p><p>https://agenticgovernance.digital</p></div>

View file

@ -1,11 +1,11 @@
<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>STEERING VECTORS AND MECHANICAL BIAS</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}ul,ol{margin-bottom:1rem;padding-left:1.5rem;line-height:1.75}li{margin-bottom:.5rem}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}em{font-style:italic}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}</style></head><body>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}ul,ol{margin-bottom:1rem;padding-left:1.5rem;line-height:1.75}li{margin-bottom:.5rem}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}em{font-style:italic}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}</style></head><body>
<div class="cover"><span class="badge">Academic Research Edition</span><h1>STEERING VECTORS AND MECHANICAL BIAS</h1><p class="sub">Inference-Time Debiasing for Sovereign Small Language Models</p><p class="tag">Research &amp; Theory &mdash; Strategic Quadrant</p><div class="meta"><p><strong>Authors: John Stroh &amp; Claude (Anthropic)</strong></p><p>Document Code: STO-RES-0009 | Version: 1.1 | February 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">This document was developed through human-AI collaboration. The authors believe this collaborative process is itself relevant to the argument: if humans and AI systems can work together to reason about AI governance, the frameworks they create may carry a legitimacy that neither could achieve alone.</div>
<section class="abstract"><h2>Abstract</h2>
<p>This paper investigates whether a class of biases in large language models operates at a sub-reasoning, representational level analogous to motor automaticity in human cognition, and whether steering vector techniques can intervene at this level during inference. We distinguish between <em>mechanical bias</em> (statistical patterns that fire at the embedding and early-layer representation level before deliberative processing begins) and <em>reasoning bias</em> (distortions that emerge through multi-step chain-of-thought reasoning). Drawing on empirical work in Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO), and Anthropic's sparse autoencoder feature steering, we assess the maturity of each technique and its applicability to sovereign small language models (SLMs) trained and served locally. We find that sovereign SLM deployments, specifically the Village Home AI platform using QLoRA-fine-tuned Llama 3.1/3.2 models, possess a structural advantage over API-mediated deployments: full access to model weights and activations enables steering vector extraction, injection, and evaluation that is architecturally impossible through commercial API endpoints. We propose a four-phase implementation path integrating steering vectors into the existing two-tier training architecture and Tractatus governance framework.</p>
<p>This paper investigates whether a class of biases in large language models operates at a sub-reasoning, representational level analogous to motor automaticity in human cognition, and whether steering vector techniques can intervene at this level during inference. We distinguish between <em>mechanical bias</em> (statistical patterns that fire at the embedding and early-layer representation level before deliberative processing begins) and <em>reasoning bias</em> (distortions that emerge through multi-step chain-of-thought reasoning). Drawing on empirical work in Contrastive Activation Addition (CAA), Representation Engineering (RepE), FairSteer, Direct Steering Optimization (DSO), and Anthropic's sparse autoencoder feature steering, we assess the maturity of each technique and its applicability to sovereign small language models (SLMs) trained and served locally. We find that sovereign SLM deployments, specifically the Village Home AI platform using QLoRA-fine-tuned Llama 3.1/3.2 models, possess a structural advantage over API-mediated deployments: full access to model weights and activations enables steering vector extraction, injection, and evaluation that is unavailable through commercial API endpoints. We propose a four-phase implementation path integrating steering vectors into the existing two-tier training architecture and Tractatus governance framework.</p>
</section>
<h2>1. Introduction: The Indicator-Wiper Problem</h2>
@ -113,8 +113,18 @@
<tr><td>Per-layer activation analysis</td><td>No</td><td>Yes</td></tr>
</tbody>
</table>
<p><strong>Revised text (v1.1):</strong> The original v1.0 described steering vector techniques as &ldquo;architecturally impossible&rdquo; through commercial API endpoints. The more precise formulation is: these techniques are <em>unavailable through standard commercial API access</em>, which provides no exposure to intermediate activations or model weights. See the editorial note below.</p>
<p>This table reveals that <strong>none of the steering vector techniques described in Section 3 are available to API-mediated deployments.</strong> An organisation using GPT-4 or Claude through their respective APIs cannot extract, inject, or calibrate steering vectors. They are limited to prompt-level interventions (system prompts, few-shot examples, Constitutional AI constraints) -- which, per our analysis in Section 2, may be ineffective against mechanical bias that operates below the reasoning layer.</p>
<div class="editorial-note">
<p class="note-title">Editorial Note &mdash; February 2026 (added post-publication)</p>
<p>Since the initial publication of this paper, a study by Radhakrishnan et al. (2026), published in <em>Science</em> on 19 February 2026, has demonstrated that recursive feature machine (RFM) algorithms can identify, extract, and manipulate representations of abstract concepts &mdash; including safety-relevant concepts such as &ldquo;anti-refusal&rdquo; &mdash; in some of the largest language models currently deployed. The MIT and University of California San Diego team demonstrated that these interventions could be applied to vision-language models at scale, overriding trained refusal behaviours and steering model outputs along conceptual dimensions that prompting alone cannot access.</p>
<p>This finding requires a precision revision to the claim in v1.0 that activation-level steering is &ldquo;architecturally impossible&rdquo; through commercial API endpoints. The more precise formulation is: these techniques are unavailable through standard commercial API access, which provides no exposure to intermediate activations or model weights. The Radhakrishnan et al. results were almost certainly obtained through institutional research access or open-weight models &mdash; a distinction the published paper does not make explicit but which is implied by its methodology.</p>
<p>More significantly, the MIT findings do not weaken the argument advanced in this paper; they substantially strengthen it. If RFM-based steering can override safety constraints in frontier models &mdash; as the anti-refusal demonstration makes plain &mdash; the governance question is no longer merely theoretical. The capacity to manipulate model behaviour at the representational level, below the threshold of deliberative reasoning, is now empirically confirmed at scale. This makes the question of who controls the steering not a speculative concern but an immediate one.</p>
<p>Frameworks such as Tractatus, designed to provide architectural enforcement of governance constraints over model behaviour, take on renewed urgency in this context. Sovereign deployment architectures that maintain full weight and activation access are uniquely positioned to implement, audit, and constrain steering interventions in ways that are structurally unavailable to API-dependent deployments. The governance gap documented in the table above is now a demonstrated risk surface rather than a theoretical vulnerability.</p>
<p class="added-ref"><strong>Added reference:</strong> Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</p>
</div>
<h3>4.2 The Village Home AI Platform</h3>
<p>The Village platform's Home AI system (Stroh, 2025-2026) is designed as a sovereign small language model (SLM) deployment with the following architecture:</p>
<ul>
@ -124,6 +134,7 @@
<li><strong>Training format:</strong> Alpaca/ShareGPT structured datasets</li>
<li><strong>Serving infrastructure:</strong> Local GPU (consumer-grade, 8-24GB VRAM)</li>
<li><strong>Governance integration:</strong> Tractatus framework services (BoundaryEnforcer, MetacognitiveVerifier)</li>
<li><strong>Security:</strong> Steering vectors and culturally-calibrated corrections are encrypted and stored separately from base model weights, protecting governed artefacts from unauthorised extraction or tampering.</li>
</ul>
<p>This architecture provides full access to model weights and activations. Every technique described in Section 3 is architecturally available. This is not a theoretical observation -- it is a concrete structural advantage that API-dependent deployments cannot replicate.</p>
@ -230,13 +241,17 @@
<p>The indicator-wiper analogy suggests a useful distinction between biases that operate at the representational level (mechanical, pre-cognitive, analogous to motor patterns) and biases that emerge through reasoning chains. If this distinction holds in transformer architectures -- and the mechanistic interpretability evidence supports it -- then a class of AI biases requires intervention at the activation level rather than the prompt level.</p>
<p>Steering vector techniques (CAA, RepE, FairSteer, DSO, sparse autoencoder feature steering) provide the theoretical and practical toolkit for such intervention. Critically, these techniques require full access to model weights and activations -- access that is available exclusively in sovereign local deployments and architecturally unavailable through commercial API endpoints.</p>
<p>The Village Home AI platform, with its QLoRA-fine-tuned Llama models, two-tier training architecture, and Tractatus governance integration, is structurally positioned to pioneer the application of steering vectors to cultural bias mitigation in community-serving AI. The proposed four-phase implementation path is conservative, empirically grounded, and designed to produce measurable results within a 16-week timeline.</p>
<p>The indicator-wiper problem is solvable. The driver eventually recalibrates. The question for sovereign AI is whether we can accelerate that recalibration -- not by telling the model to "be less biased" (the equivalent of verbal instruction), but by directly adjusting the representations that encode the bias (the equivalent of physical relocation of the indicator stalk).</p>
<p>The indicator-wiper problem is solvable. The driver eventually recalibrates. The question for sovereign AI is whether we can accelerate that recalibration -- not by telling the model to &ldquo;be less biased&rdquo; (the equivalent of verbal instruction), but by directly adjusting the representations that encode the bias (the equivalent of physical relocation of the indicator stalk).</p>
<p>Since the initial submission of this paper, empirical work by Radhakrishnan et al. (2026) has confirmed at scale what the mechanistic interpretability literature had previously suggested: abstract concepts, including safety-critical behavioural dispositions, are representationally encoded in large language models and are accessible to targeted manipulation through feature-level steering techniques. Critically, the same authors demonstrate that these techniques can override trained refusal behaviours &mdash; establishing that the capacity for representational-level model manipulation is now a demonstrated and accessible capability.</p>
<p>This finding transforms the governance stakes of the argument advanced in this paper. The structural advantage of sovereign deployment &mdash; full access to model weights and activations &mdash; is simultaneously an opportunity and a responsibility. It is an opportunity because it enables the culturally-grounded, community-governed debiasing that this paper proposes. It is a responsibility because that same access, in the absence of robust governance architecture, constitutes a risk surface that is entirely absent from API-mediated deployments. The question is not whether representational steering will be used; the Radhakrishnan et al. results make clear that it already is. The question is whether its use will be governed.</p>
<p>Frameworks such as Tractatus are not merely useful in this environment &mdash; they are necessary. Architectural enforcement of governance constraints, MetacognitiveVerifier auditing of steering vector provenance, and community-validated calibration of steering parameters represent the minimum viable governance response to a capability that is now empirically confirmed, publicly documented, and available to any actor with access to open-weight models. The development and adoption of such frameworks warrants immediate priority across the sovereign AI community.</p>
<h2>References</h2>
<div style="font-size:0.875rem">
<p>Elhage, N., et al. (2022). Toy Models of Superposition. Anthropic.</p>
<p>Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023.</p>
<p>Olsson, C., et al. (2022). In-context Learning and Induction Heads. Anthropic.</p>
<p>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</p>
<p>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</p>
<p>Stroh, J. (2025). Tractatus: Architectural Enforcement for AI Development Governance. Working Paper v0.1.</p>
<p>Stroh, J. &amp; Claude (2026). From Port Numbers to Value Systems: Pattern Recognition Bias Across AI Domains. STO-RES-0008.</p>
@ -247,10 +262,11 @@
<hr style="margin:2rem 0">
<h2>License</h2>
<p>Copyright 2026 John Stroh</p>
<p>Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at: <a href="http://www.apache.org/licenses/LICENSE-2.0">http://www.apache.org/licenses/LICENSE-2.0</a></p>
<p>Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.</p>
<h2>Licence</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>This work is licensed under the <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p>You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.</p>
<p><strong>Note:</strong> The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.</p>
<hr style="margin:3rem 0"><p style="text-align:center;color:#6b7280;font-size:.875rem"><em>&mdash; End of Document &mdash;</em></p>
</div>

View file

@ -1,6 +1,6 @@
<!DOCTYPE html><html lang="de"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>TAONGA-ZENTRIERTE STEUERUNGSGOVERNANCE</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}</style></head><body>
<div class="cover"><span class="badge">Akademische Forschungsausgabe</span><h1>TAONGA-ZENTRIERTE STEUERUNGSGOVERNANCE</h1><p class="sub">Polyzentrische Autoritaet fuer souveraene kleine Sprachmodelle</p><p class="tag">Indigene Datensouveraenitaet trifft auf KI-Governance</p><div class="meta"><p><strong>Die Autoren: John Stroh & Claude (Anthropic)</strong></p><p>Dokument-Code: STO-RES-0010 | Version: 0.1 ENTWURF | Februar 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}</style></head><body>
<div class="cover"><span class="badge">Akademische Forschungsausgabe</span><h1>TAONGA-ZENTRIERTE STEUERUNGSGOVERNANCE</h1><p class="sub">Polyzentrische Autoritaet fuer souveraene kleine Sprachmodelle</p><p class="tag">Indigene Datensouveraenitaet trifft auf KI-Governance</p><div class="meta"><p><strong>Die Autoren: John Stroh & Claude (Anthropic)</strong></p><p>Dokument-Code: STO-RES-0010 | Version: 0.2 ENTWURF | Februar 2026</p><p style="margin-top:2rem;font-style:italic">Tractatus AI Safety Framework</p><p style="font-size:.875rem">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Dieses Dokument wurde in Zusammenarbeit zwischen Mensch und KI entwickelt. Die in diesem Papier verwendeten Konzepte aus te ao Maori -- insbesondere taonga, tikanga, whakapapa, mana, tino rangatiratanga und kaitiakitanga -- sind komplexe, lebendige kulturelle Konzepte, die ueber das hinausgehen, was nicht-Maori-Autoren vollstaendig darstellen koennen. Dieses Papier ist ein Entwurf, der die Begutachtung und Validierung durch Maori erwartet.</div>
<h2>Zusammenfassung</h2>
@ -161,6 +161,14 @@ Es handelt sich nicht um ein Delegationsmodell (bei dem die Plattform den iwi Be
<p>Das polyzentrische Modell beseitigt diese Spannung nicht, sondern macht sie explizit und handhabbar:</p>
<ul><li><strong>Plattform-Sicherheitsgrundlinien</strong> stellen eine Untergrenze, keine Obergrenze dar. Sie kodieren weithin geteilte Verbote (z. B. Inhalte, die Gewalt, Ausbeutung oder Täuschung ermöglichen). Diese Grundregeln sind auf der Plattformebene nicht verhandelbar - sie gelten für alle Einsätze.</li><li>Die <strong>Kulturelle und wertorientierte Steuerung</strong> befindet sich oberhalb dieser Ebene. Verschiedene Behörden können innerhalb des Raums oberhalb der Sicherheitsgrundlagen unterschiedlich lenken.</li><li><strong>Konflikte zwischen Autoritäten</strong> werden durch Verhandlungen gelöst, nicht durch Hierarchie. Wenn ein iwi-Pack und eine Plattform-Baseline miteinander in Konflikt geraten, erfordert die Lösung einen Dialog zwischen den zuständigen Behörden - und nicht die einseitige Aufhebung durch eine der Parteien.</li></ul>
Die ehrliche Antwort ist, dass diese Spannung nicht vollständig durch die Architektur gelöst werden kann. Es handelt sich um ein politisches Problem, das politische Prozesse erfordert: Überlegungen, Verhandlungen und manchmal auch Meinungsverschiedenheiten. Die Aufgabe der Architektur ist es, diese Prozesse zu ermöglichen und sichtbar zu machen, nicht sie zu automatisieren.
<div class="editorial-note">
<p class="note-title">Anmerkung der Redaktion Februar 2026 (nach der Veröffentlichung hinzugefügt)</p>
<p>Seit der Erstveröffentlichung hat die Forschung von Radhakrishnan et al. (2026), veröffentlicht in Science am 19. Februar 2026, empirisch gezeigt, dass repräsentative Steuerungstechniken trainierte Sicherheitsverhalten in Grenzsprachenmodellen einschließlich Sicherheitsverweigerungen durch direkte Manipulation von Aktivierungsraumdarstellungen außer Kraft setzen können. Diese Erkenntnis erschwert die Annahme, dass Plattform-Sicherheitsgrundlagen eine strukturell robuste Basis darstellen. Wenn dieselbe Klasse von Techniken, die eine kulturelle Steuerung ermöglicht, grundsätzlich auch Sicherheitsbeschränkungen aufheben kann, dann ist die Robustheit der Basislinie eine Frage der Governance und nicht nur eine technische Frage.</p>
<p>Dies schwächt das in diesem Papier vorgeschlagene polyzentrische Modell nicht es stärkt es sogar. Eine Sicherheitsgrundlage, deren Integrität von der einseitigen Kontrolle eines einzelnen Plattformbetreibers abhängt, ist nach dieser Analyse genau die Art von Governance-Konzentration, die mit der polyzentrischen Architektur vermieden werden soll. Verteilte Autorität, explizite Herkunft und Audit-Kapazitäten auf Community-Ebene sind widerstandsfähigere Antworten auf dieses Risiko als eine zentralisierte Durchsetzung allein.</p>
<p>In der spezifischen Architektur der Village-Plattform werden Steuerungsvektoren und kulturell kalibrierte Korrekturen verschlüsselt und getrennt von den Gewichten des Basismodells gespeichert, wodurch das Risiko einer unbefugten Extraktion oder Manipulation von geregelten Artefakten erheblich verringert wird. Die Gewichte des Basis-Llama-Modells bleiben bewusst offen ein Merkmal des Open-Weight-Ökosystems im Allgemeinen und die zusammen mit der Veröffentlichung von Radhakrishnan et al. veröffentlichten RFM-Tools bedeuten, dass die Untersuchung von Darstellungen der Basisebene nun für Akteure mit ausreichenden Ressourcen unabhängig von einer Plattform zugänglich ist. Die Antwort der Governance auf diese Realität ist nicht die technische Abschottung, sondern eine transparente, rechenschaftspflichtige Verwaltung der Steuerungsschicht genau das, was das hier vorgeschlagene Taonga-Register und die Provenienzarchitektur bieten sollen.</p>
</div>
<h3>6.3 Verbindung zu Tino Rangatiratanga</h3>
<p>Tino Rangatiratanga - das Recht der Maori, über ihre eigenen Angelegenheiten zu bestimmen - ist keine politische Präferenz, der man durch eine flexiblere Plattform Rechnung tragen kann. Es handelt sich um einen Verfassungsgrundsatz (der in Te Tiriti o Waitangi, Artikel 2, verankert ist), der unabhängig von der Architektur der Plattform existiert.</p>
<p>Im Zusammenhang mit der KI-Steuerung:</p>
@ -201,14 +209,22 @@ Und einige positive Verpflichtungen:
<p>Das Blinkerwischer-Problem aus STO-RES-0009 ist immer noch die richtige Ausgangsmetapher: Einige Voreingenommenheiten werden ausgelöst, bevor die Deliberation einsetzt, und sie können nicht sofort behoben werden. Aber die Frage, wer den Blinker setzen darf - und wessen Fahrzeug es überhaupt ist - ist eine Governance-Frage, mit der sich dieses Papier zu befassen beginnt.</p>
<p>Es beginnt, aber es endet nicht. Der nächste Schritt ist nicht mehr Architektur. Es geht um Gespräche - mit Iwi-Governance-Gremien, mit Maori-Wissenschaftlern, mit Praktikern aus der Gemeinschaft - um festzustellen, ob diese Vorschläge den Menschen dienen, denen sie angeblich dienen, oder ob sie grundlegend überarbeitet oder ersetzt werden müssen.</p>
<hr>
<div class="editorial-note">
<p class="note-title">Anmerkung der Redaktion Februar 2026 (nach der Veröffentlichung hinzugefügt)</p>
<p>Die Veröffentlichung von Radhakrishnan et al. (2026) in Science bestätigt die Dringlichkeit der Governance, für die sich dieser Artikel ausspricht. Die nachgewiesene Fähigkeit, das Modellverhalten auf der Darstellungsebene zu manipulieren einschließlich der Außerkraftsetzung von Sicherheitsbeschränkungen macht deutlich, dass die Frage, wer die Steuerungsebene regelt, keine spekulative Frage für zukünftige KI-Systeme ist, sondern eine unmittelbare Herausforderung für die Governance der derzeit eingesetzten Systeme. Rahmenwerke, die diese Befugnis auf rechenschaftspflichtige, identifizierbare, in der Gemeinschaft verwurzelte Institutionen verteilen anstatt sie auf einen einzigen Plattformbetreiber zu konzentrieren sind eine angemessenere Antwort auf diese Realität als technische Sperren oder undurchsichtige Governance.</p>
<p>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</p>
<p>Das Begleitpapier STO-RES-0009 wurde auf Version 1.1 aktualisiert, um ein Präzisionsproblem in seinen API-Zugriffsansprüchen zu beheben, das durch dieselben Erkenntnisse aufgezeigt wurde. Leser sollten sich auf STO-RES-0009 v1.1 statt auf v1.0 beziehen. Das Kernargument beider Papiere bleibt unverändert; die Arbeit des MIT stärkt es eher, als dass sie es untergräbt.</p>
</div>
<h2>Referenzen</h2>
<ul><li>Carroll, S. R., et al. (2020). Die CARE-Prinzipien für indigene Datenverwaltung. <em>Data Science Journal</em>, 19(1), 43.</li><li>Kukutai, T. & Taylor, J. (Eds.) (2016). <em>Indigenous Data Sovereignty: Toward an Agenda</em>. ANU Press.</li><li>Ostrom, E. (1990). <em>Governing the Commons: The Evolution of Institutions for Collective Action</em>. Cambridge University Press.</li><li>Ostrom, E. (2010). Beyond Markets and States: Polycentric Governance of Complex Economic Systems. <em>American Economic Review</em>, 100(3), 641-672.</li><li>Rimsky, N., et al. (2023). Steuerung von Llama 2 durch kontrastive Aktivierungsaddition. arXiv:2312.06681.</li><li>Stroh, J. & Claude (2026). Steering Vectors and Mechanical Bias: Inference-Time Debiasing for Sovereign Small Language Models. STO-RES-0009 v1.1.</li><li>Te Mana Raraunga (2018). Principles of Maori Data Sovereignty. Te Mana Raraunga Charter.</li><li>Templeton, A., et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropisch.</li><li>Turner, A., et al. (2023). Aktivierungsaddition: Steering Language Models Without Optimization. arXiv:2308.10248.</li><li>Waitangi Tribunal (2011). <em>Ko Aotearoa Tenei: A Report into Claims Concerning New Zealand Law and Policy Affecting Maori Culture and Identity</em>. Te Ropu Whakamana i te Tiriti o Waitangi.</li><li>Zou, A., et al. (2023). Representation Engineering: Ein Top-Down-Ansatz zur KI-Transparenz. Zentrum für KI-Sicherheit.</li></ul>
<hr>
<h2>Lizenz</h2>
<p>Urheberrecht 2026 John Stroh</p>
<p>Lizenziert unter der Apache License, Version 2.0 (die "Lizenz"); Sie dürfen diese Datei nur in Übereinstimmung mit der Lizenz verwenden. Sie können eine Kopie der Lizenz erhalten unter:</p>
<p>http://www.apache.org/licenses/LICENSE-2.0</p>
<p>Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, wird Software, die unter der Lizenz vertrieben wird, auf einer "AS IS"-Basis vertrieben, OHNE GARANTIEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend. In der Lizenz finden Sie die spezifischen Bestimmungen zu den Rechten und Beschränkungen unter der Lizenz.</p>
<p>Copyright © 2026 John Stroh.</p>
<p>Dieses Werk ist lizenziert unter der <a href="https://creativecommons.org/licenses/by/4.0/deed.de">Creative Commons Namensnennung 4.0 International Lizenz (CC BY 4.0)</a>.</p>
<p>Es steht Ihnen frei, das Material zu teilen, zu kopieren, weiterzuverbreiten, anzupassen, zu remixen, zu transformieren und darauf aufzubauen, auch kommerziell, sofern Sie eine angemessene Quellenangabe machen, einen Link zur Lizenz angeben und kenntlich machen, ob Änderungen vorgenommen wurden.</p>
<p><strong>Hinweis:</strong> Der Quellcode des Tractatus AI Safety Framework ist separat unter der Apache License 2.0 lizenziert. Diese Creative-Commons-Lizenz gilt nur für den Text und die Abbildungen der Forschungsarbeit.</p>
<hr>
<h2>Dokument-Metadaten</h2>

View file

@ -1,6 +1,6 @@
<!DOCTYPE html><html lang="fr"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>GOUVERNANCE DE PILOTAGE CENTREE SUR LES TAONGA</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}.cover-tagline{margin-top:2rem;font-style:italic}.cover-url{font-size:.875rem}.hr-end{margin:3rem 0}.end-mark{text-align:center;color:#6b7280;font-size:.875rem}</style></head><body>
<div class="cover"><span class="badge">Edition de recherche academique</span><h1>GOUVERNANCE DE PILOTAGE CENTREE SUR LES TAONGA</h1><p class="sub">Autorite polycentrique pour les modeles linguistiques souverains de petite taille</p><p class="tag">La souverainete des donnees autochtones rencontre la gouvernance de l'IA</p><div class="meta"><p><strong>Les auteurs : John Stroh & Claude (Anthropic)</strong></p><p>Code du document : STO-RES-0010 | Version : 0.1 PROJET | Fevrier 2026</p><p class="cover-tagline">Tractatus AI Safety Framework</p><p class="cover-url">https://agenticgovernance.digital</p></div></div>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}.editorial-note .added-ref{font-style:italic;margin-top:1rem}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}.cover-tagline{margin-top:2rem;font-style:italic}.cover-url{font-size:.875rem}.hr-end{margin:3rem 0}.end-mark{text-align:center;color:#6b7280;font-size:.875rem}</style></head><body>
<div class="cover"><span class="badge">Edition de recherche academique</span><h1>GOUVERNANCE DE PILOTAGE CENTREE SUR LES TAONGA</h1><p class="sub">Autorite polycentrique pour les modeles linguistiques souverains de petite taille</p><p class="tag">La souverainete des donnees autochtones rencontre la gouvernance de l'IA</p><div class="meta"><p><strong>Les auteurs : John Stroh & Claude (Anthropic)</strong></p><p>Code du document : STO-RES-0010 | Version : 0.2 PROJET | Fevrier 2026</p><p class="cover-tagline">Tractatus AI Safety Framework</p><p class="cover-url">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="collab">Ce document a ete developpe dans le cadre d'une collaboration entre l'homme et l'IA. Les concepts de te ao Maori utilises dans ce document -- notamment taonga, tikanga, whakapapa, mana, tino rangatiratanga et kaitiakitanga -- sont des concepts culturels complexes et vivants qui depassent ce que des auteurs non-Maori peuvent pleinement representer. Ce document est un projet en attente de revision et de validation par des Maori.</div>
<h2>Résumé</h2>
@ -166,6 +166,14 @@ Il ne s'agit pas d'un modèle de délégation (où la plateforme accorde l'autor
<p>Le modèle polycentrique n'élimine pas cette tension - il la rend explicite et gérable :</p>
<ul><li>Les <strong>bases de sécurité de la plate-forme</strong> représentent un plancher et non un plafond. Elles codent des interdictions largement partagées (par exemple, les contenus qui facilitent la violence, l'exploitation ou la tromperie). Ces lignes de base ne sont pas négociables au niveau de la plateforme - tous les déploiements les intègrent.</li><li>L'orientation culturelle et fondée sur des valeurs** se situe au-dessus de ce niveau. Différentes autorités peuvent piloter différemment dans l'espace situé au-dessus de la ligne de base de sécurité.</li><li>Les conflits entre autorités** sont résolus par la négociation et non par la hiérarchie. En cas de conflit entre une meute d'iwis et une plate-forme de référence, la solution passe par un dialogue entre les autorités concernées, et non par une dérogation unilatérale de l'une ou l'autre des parties.</li></ul>
La réponse honnête est que cette tension ne peut pas être entièrement résolue par l'architecture. Il s'agit d'un problème politique qui nécessite des processus politiques : délibération, négociation et parfois désaccord. Le rôle de l'architecture est de rendre ces processus possibles et visibles, et non de les automatiser.
<div class="editorial-note">
<p class="note-title">Note éditoriale — février 2026 (ajoutée après publication)</p>
<p>Depuis la publication initiale, les recherches de Radhakrishnan et al. (2026), publiées dans Science le 19 février 2026, ont démontré empiriquement que les techniques de pilotage représentationnel peuvent outrepasser les comportements de sécurité entraînés dans les modèles linguistiques de pointe — y compris les refus de sécurité — par la manipulation directe des représentations de l'espace d'activation. Cette découverte complique l'hypothèse selon laquelle les bases de référence en matière de sécurité des plateformes constituent un socle structurellement solide. Si la même catégorie de techniques qui permet l'orientation culturelle peut en principe dissoudre les contraintes de sécurité, alors la robustesse de la base de référence est une question de gouvernance, et non pas simplement une question technique.</p>
<p>Cela n'affaiblit pas le modèle polycentrique proposé dans cet article, mais le renforce. Une base de référence en matière de sécurité dont l'intégrité dépend du contrôle unilatéral d'un seul opérateur de plateforme est, selon cette analyse, précisément le type de concentration de gouvernance que l'architecture polycentrique est conçue pour éviter. Une autorité distribuée, une provenance explicite et une capacité d'audit au niveau communautaire constituent des réponses plus résilientes à ce risque que la seule application centralisée.</p>
<p>Dans l'architecture spécifique de la plateforme Village, les vecteurs de pilotage et les corrections calibrées culturellement sont cryptés et stockés séparément des pondérations du modèle de base, ce qui réduit considérablement le risque d'extraction non autorisée ou de falsification des artefacts gouvernés. Les poids du modèle de base Llama restent ouverts de par leur conception — une caractéristique générale de l'écosystème à poids ouverts — et les outils RFM publiés parallèlement à l'article de Radhakrishnan et al. signifient que l'exploration des représentations de la couche de base est désormais accessible aux acteurs disposant de ressources suffisantes, indépendamment de toute plateforme. La réponse de la gouvernance à cette réalité n'est pas la fermeture technique, mais une gestion transparente et responsable de la couche de pilotage, ce que le registre taonga et l'architecture de provenance proposés ici sont précisément conçus pour fournir.</p>
</div>
<h3>6.3 Se connecter à Tino Rangatiratanga</h3>
<p>Tino rangatiratanga - le droit des Maoris à exercer leur autorité sur leurs propres affaires - n'est pas une préférence politique qui peut être prise en compte en rendant la plate-forme plus flexible. Il s'agit d'un principe constitutionnel (énoncé à l'article 2 de Te Tiriti o Waitangi) qui existe indépendamment de l'architecture de toute plate-forme.</p>
<p>Dans le contexte du pilotage de l'IA :</p>
@ -206,14 +214,22 @@ Et quelques obligations positives :
<p>Le problème de l'essuie-glace de la STO-RES-0009 est toujours la bonne métaphore de départ : certains biais se déclenchent avant que la délibération ne s'engage, et les correctifs rapides ne peuvent pas les atteindre. Mais la question de savoir qui peut déplacer la tige de l'indicateur - et à qui appartient le véhicule en premier lieu - est une question de gouvernance que ce document commence à aborder.</p>
<p>Il commence, mais ne finit pas. L'étape suivante n'est pas une architecture supplémentaire. Il s'agit de discuter - avec les organes de gouvernance des iwis, avec les universitaires maoris, avec les praticiens communautaires - pour déterminer si ces propositions servent les personnes qu'elles prétendent servir, ou si elles doivent être considérablement révisées ou remplacées.</p>
<hr>
<div class="editorial-note">
<p class="note-title">Note éditoriale — février 2026 (ajoutée après publication)</p>
<p>La publication de Radhakrishnan et al. (2026) dans Science confirme l'urgence de la gouvernance préconisée dans cet article. La capacité démontrée à manipuler le comportement des modèles au niveau de la représentation — y compris en contournant les contraintes de sécurité — établit que la question de savoir qui gouverne la couche de pilotage n'est pas une préoccupation spéculative pour les futurs systèmes d'IA, mais un défi immédiat de gouvernance pour ceux qui sont actuellement déployés. Les cadres qui répartissent cette autorité entre des institutions responsables, identifiables et ancrées dans la communauté — plutôt que de la concentrer entre les mains d'un seul opérateur de plateforme — constituent une réponse plus appropriée à cette réalité que le verrouillage technique ou l'opacité de la gouvernance.</p>
<p>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</p>
<p>Le document d'accompagnement STO-RES-0009 a été révisé en version 1.1 afin de corriger un problème de précision dans ses revendications d'accès à l'API, soulevé par les mêmes conclusions. Les lecteurs sont invités à se référer à la version 1.1 du document STO-RES-0009 plutôt qu'à la version 1.0. L'argument central des deux documents reste inchangé ; les travaux du MIT le renforcent plutôt que de le remettre en cause.</p>
</div>
<h2>Références</h2>
<ul><li>Carroll, S. R., et al. (2020). Les principes CARE pour la gouvernance des données indigènes. <em>Data Science Journal</em>, 19(1), 43.</li><li>Kukutai, T. & Taylor, J. (Eds.) (2016). <em>Souveraineté des données autochtones : Toward an Agenda</em>. ANU Press.</li><li>Ostrom, E. (1990). <em>Governing the Commons : The Evolution of Institutions for Collective Action</em>. Cambridge University Press.</li><li>Ostrom, E. (2010). Au-delà des marchés et des États : La gouvernance polycentrique des systèmes économiques complexes. *American Economic Review, 100(3), 641-672.</li><li>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</li><li>Stroh, J. & Claude (2026). Vecteurs de pilotage et biais mécanique : débiaisage en temps d'inférence pour les petits modèles de langage souverains. STO-RES-0009 v1.1.</li><li>Te Mana Raraunga (2018). Principes de souveraineté des données maories. Charte de Te Mana Raraunga.</li><li>Templeton, A., et al. (2024). Mise à l'échelle de la monosémanticité : Extraction de caractéristiques interprétables à partir du sonnet de Claude 3. Anthropic.</li><li>Turner, A., et al. (2023). Activation Addition : Steering Language Models Without Optimization. arXiv:2308.10248.</li><li>Tribunal de Waitangi (2011). <em>Ko Aotearoa Tenei : A Report into Claims Concerning New Zealand Law and Policy Affecting Maori Culture and Identity</em> (Rapport sur les plaintes concernant la loi et la politique néo-zélandaises affectant la culture et l'identité maories). Te Ropu Whakamana i te Tiriti o Waitangi.</li><li>Zou, A., et al. (2023). Representation Engineering : A Top-Down Approach to AI Transparency. Centre pour la sécurité de l'IA.</li></ul>
<hr>
<h2>Licence</h2>
<p>Copyright 2026 John Stroh</p>
<p>Sous licence Apache License, Version 2.0 (la "Licence") ; vous ne pouvez utiliser ce fichier qu'en conformité avec la Licence. Vous pouvez obtenir une copie de la licence à l'adresse suivante :</p>
<p>http://www.apache.org/licenses/LICENSE-2.0</p>
<p>À moins que la loi applicable ne l'exige ou que cela ne fasse l'objet d'un accord écrit, le logiciel distribué en vertu de la licence l'est en l'état, sans garantie ni condition d'aucune sorte, qu'elle soit expresse ou implicite. Voir la licence pour le langage spécifique régissant les permissions et les limitations dans le cadre de la licence.</p>
<p>Copyright © 2026 John Stroh.</p>
<p>Cette œuvre est mise à disposition selon les termes de la <a href="https://creativecommons.org/licenses/by/4.0/deed.fr">Licence Creative Commons Attribution 4.0 International (CC BY 4.0)</a>.</p>
<p>Vous êtes libre de partager, copier, redistribuer, adapter, remixer, transformer et créer à partir de ce matériel, y compris à des fins commerciales, à condition de fournir une attribution appropriée, de fournir un lien vers la licence et d'indiquer si des modifications ont été apportées.</p>
<p><strong>Note :</strong> Le code source du Tractatus AI Safety Framework est licencié séparément sous la Licence Apache 2.0. Cette licence Creative Commons s'applique uniquement au texte et aux figures du document de recherche.</p>
<hr>
<h2>Métadonnées du document</h2>

File diff suppressed because one or more lines are too long

View file

@ -1,6 +1,6 @@
<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width,initial-scale=1.0"><title>TAONGA-CENTRED STEERING GOVERNANCE</title>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}.draft-notice{background:#fef3c7;border:2px solid #f59e0b;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.draft-notice h3{color:#92400e;margin-top:0;margin-bottom:.75rem;font-size:1.1rem}.draft-notice p{color:#78350f;margin-bottom:.5rem;line-height:1.7}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;font-size:.85rem;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}ul,ol{margin-bottom:1rem;padding-left:1.5rem;line-height:1.75}li{margin-bottom:.5rem}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}em{font-style:italic}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}.cover-draft{margin-top:1rem;font-size:.9rem;color:#92400e;font-weight:600}.cover-tagline{margin-top:2rem;font-style:italic}.cover-url{font-size:.875rem}.refs{font-size:0.875rem}.hr-section{margin:2rem 0}.hr-end{margin:3rem 0}.end-mark{text-align:center;color:#6b7280;font-size:.875rem}</style></head><body>
<div class="cover"><span class="badge">Academic Research Edition</span><h1>TAONGA-CENTRED STEERING GOVERNANCE</h1><p class="sub">Polycentric Authority for Sovereign Small Language Models</p><p class="tag">Research &amp; Theory &mdash; Strategic Quadrant &mdash; Companion to STO-RES-0009</p><div class="meta"><p><strong>Authors: John Stroh &amp; Claude (Anthropic)</strong></p><p>Document Code: STO-RES-0010 | Version: 0.1 DRAFT | February 2026</p><p class="cover-draft">Draft Awaiting Indigenous Peer Review</p><p class="cover-tagline">Tractatus AI Safety Framework</p><p class="cover-url">https://agenticgovernance.digital</p></div></div>
<style>@page{margin:2cm;size:A4}*{box-sizing:border-box}body{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,sans-serif;font-size:11pt;line-height:1.6;color:#1f2937;margin:0;padding:0}.cover{page-break-after:always;display:flex;flex-direction:column;justify-content:center;align-items:center;min-height:80vh;text-align:center;border-bottom:3px solid #2563eb;padding-bottom:2cm}.cover h1{font-size:2.5rem;font-weight:700;color:#111827;margin-bottom:.5rem}.cover .sub{font-size:1.25rem;color:#4b5563;margin:0 0 .5rem}.cover .tag{font-size:1rem;font-weight:500;color:#10b981;margin:0 0 1.5rem}.cover .badge{display:inline-block;background:linear-gradient(135deg,#10b981,#059669);color:#fff;padding:.25rem .75rem;border-radius:9999px;font-size:.75rem;font-weight:600;text-transform:uppercase;letter-spacing:.05em;margin-bottom:1rem}.cover .meta{font-size:1rem;color:#6b7280;margin-top:2rem}.cover .meta p{margin:.5rem 0}.content{color:#374151;padding:0 1cm}.collab{background:#f0fdfa;border-left:4px solid #14b8a6;padding:1rem 1.5rem;margin:2rem 0;font-style:italic;color:#4b5563}.abstract{background:#fafafa;padding:1.5rem 2rem;border-radius:8px;margin:2rem 0}.draft-notice{background:#fef3c7;border:2px solid #f59e0b;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.draft-notice h3{color:#92400e;margin-top:0;margin-bottom:.75rem;font-size:1.1rem}.draft-notice p{color:#78350f;margin-bottom:.5rem;line-height:1.7}h2{font-size:1.5rem;font-weight:600;color:#111827;margin-top:1.75rem;margin-bottom:.875rem;border-bottom:1px solid #e5e7eb;padding-bottom:.375rem;page-break-after:avoid}h3{font-size:1.25rem;font-weight:600;color:#1f2937;margin-top:1.5rem;margin-bottom:.75rem;page-break-after:avoid}p{margin-bottom:1rem;line-height:1.75;orphans:3;widows:3}blockquote{border-left:4px solid #14b8a6;margin:1.5rem 0;padding:.875rem 1rem;color:#4b5563;background:#f9fafb;border-radius:.25rem;page-break-inside:avoid}table{width:100%;border-collapse:collapse;margin-bottom:1.25rem;font-size:.875rem;page-break-inside:avoid}.editorial-note{background:#eff6ff;border:2px solid #3b82f6;border-radius:8px;padding:1.5rem 2rem;margin:2rem 0;page-break-inside:avoid}.editorial-note .note-title{font-weight:700;color:#1e40af;margin-bottom:.75rem;font-size:1rem}.editorial-note p{margin-bottom:.75rem;line-height:1.7}th{background:#f3f4f6;border:1px solid #d1d5db;padding:.625rem .875rem;text-align:left;font-weight:600;color:#111827}td{border:1px solid #d1d5db;padding:.625rem .875rem;color:#374151}tbody tr:nth-child(even){background:#f9fafb}pre{background:#1f2937;color:#e5e7eb;padding:1.25rem;border-radius:8px;overflow-x:auto;margin:1.5rem 0;font-size:.85rem;page-break-inside:avoid}code{background:#f3f4f6;padding:.2em .4em;border-radius:4px;font-size:.9em}ul,ol{margin-bottom:1rem;padding-left:1.5rem;line-height:1.75}li{margin-bottom:.5rem}.footer{margin-top:3rem;padding-top:1.5rem;border-top:1px solid #e5e7eb;font-size:.875rem;color:#6b7280;text-align:center}a{color:#2563eb}strong{font-weight:600;color:#111827}em{font-style:italic}hr{border:none;border-top:1px solid #d1d5db;margin:1.5rem 0}.cover-draft{margin-top:1rem;font-size:.9rem;color:#92400e;font-weight:600}.cover-tagline{margin-top:2rem;font-style:italic}.cover-url{font-size:.875rem}.refs{font-size:0.875rem}.hr-section{margin:2rem 0}.hr-end{margin:3rem 0}.end-mark{text-align:center;color:#6b7280;font-size:.875rem}</style></head><body>
<div class="cover"><span class="badge">Academic Research Edition</span><h1>TAONGA-CENTRED STEERING GOVERNANCE</h1><p class="sub">Polycentric Authority for Sovereign Small Language Models</p><p class="tag">Research &amp; Theory &mdash; Strategic Quadrant &mdash; Companion to STO-RES-0009</p><div class="meta"><p><strong>Authors: John Stroh &amp; Claude (Anthropic)</strong></p><p>Document Code: STO-RES-0010 | Version: 0.2 DRAFT | February 2026</p><p class="cover-draft">Draft Awaiting Indigenous Peer Review</p><p class="cover-tagline">Tractatus AI Safety Framework</p><p class="cover-url">https://agenticgovernance.digital</p></div></div>
<div class="content">
<div class="draft-notice">
@ -259,7 +259,14 @@
<li><strong>Cultural and value-laden steering</strong> sits above this floor. Different authorities can steer differently within the space above the safety baseline.</li>
<li><strong>Conflicts between authorities</strong> are resolved through negotiation, not hierarchy. If an iwi pack and a platform baseline conflict, the resolution requires dialogue between the relevant authorities -- not unilateral override by either party.</li>
</ul>
<p>The honest answer is that this tension cannot be fully resolved by architecture. It is a political problem that requires political processes: deliberation, negotiation, and sometimes disagreement. The architecture's role is to make these processes possible and visible, not to automate them away.</p>
<p>The honest answer is that this tension cannot be fully resolved by architecture. It is a political problem that requires political processes: deliberation, negotiation, and sometimes disagreement. The architecture&rsquo;s role is to make these processes possible and visible, not to automate them away.</p>
<div class="editorial-note">
<p class="note-title">Editorial Note &mdash; February 2026 (added post-publication)</p>
<p>Since initial publication, research by Radhakrishnan et al. (2026), published in <em>Science</em> on 19 February 2026, has empirically demonstrated that representational steering techniques can override trained safety behaviours in frontier language models &mdash; including safety refusals &mdash; through direct manipulation of activation-space representations. This finding complicates the assumption that platform safety baselines constitute a structurally robust floor. If the same class of techniques that enables cultural steering can in principle dissolve safety constraints, then the baseline&rsquo;s robustness is a governance question, not merely a technical one.</p>
<p>This does not weaken the polycentric model proposed in this paper &mdash; it strengthens it. A safety baseline whose integrity depends on a single platform operator&rsquo;s unilateral control is, under this analysis, precisely the kind of governance concentration the polycentric architecture is designed to avoid. Distributed authority, explicit provenance, and community-level audit capacity are more resilient responses to this risk than centralised enforcement alone.</p>
<p>In the Village platform&rsquo;s specific architecture, steering vectors and culturally-calibrated corrections are encrypted and stored separately from the base model weights, materially reducing the risk of unauthorised extraction or tampering with governed artefacts. The base Llama model weights remain open by design &mdash; a characteristic of the open-weight ecosystem generally &mdash; and the RFM tooling published alongside the Radhakrishnan et al. paper means that probing base-layer representations is now accessible to well-resourced actors independently of any platform. The governance response to this reality is not technical closure but transparent, accountable stewardship of the steering layer &mdash; precisely what the taonga registry and provenance architecture proposed here is designed to provide.</p>
</div>
<h3>6.3 Connecting to Tino Rangatiratanga</h3>
<p>Tino rangatiratanga -- the right of Maori to exercise authority over their own affairs -- is not a policy preference that can be accommodated by making the platform more flexible. It is a constitutional principle (articulated in Te Tiriti o Waitangi, Article 2) that exists independently of any platform's architecture.</p>
@ -334,7 +341,13 @@
<p>Steering vectors are instruments of norm enforcement. Who defines the norms, through what process, and with what recourse for those subject to them -- these are political questions that cannot be answered by engineering alone.</p>
<p>The polycentric model proposed here -- co-equal steering authorities, taonga-centred registries, explicit provenance, and a right of non-participation -- is not the only possible answer. But it is an answer that takes seriously the proposition that sovereign AI should serve multiple sovereignties, not just one.</p>
<p>The indicator-wiper problem from STO-RES-0009 is still the right starting metaphor: some biases fire before deliberation engages, and prompt-level fixes cannot reach them. But the question of who gets to relocate the indicator stalk -- and whose vehicle it is in the first place -- is a governance question that this paper begins to address.</p>
<p>It begins, but does not finish. The next step is not more architecture. It is conversation -- with iwi governance bodies, with Maori scholars, with community practitioners -- to determine whether these proposals serve the people they claim to serve, or whether they need to be substantially revised or replaced.</p>
<p>It begins, but does not finish. The next step is not more architecture. It is conversation &mdash; with iwi governance bodies, with M&amacr;ori scholars, with community practitioners &mdash; to determine whether these proposals serve the people they claim to serve, or whether they need to be substantially revised or replaced.</p>
<div class="editorial-note">
<p class="note-title">Editorial Note &mdash; February 2026 (added post-publication)</p>
<p>The publication of Radhakrishnan et al. (2026) in <em>Science</em> confirms the governance urgency this paper argues for. The demonstrated capacity to manipulate model behaviour at the representational level &mdash; including overriding safety constraints &mdash; establishes that the question of who governs the steering layer is not a speculative concern for future AI systems but an immediate governance challenge in currently deployed ones. Frameworks that distribute that authority across accountable, identifiable, community-rooted institutions &mdash; rather than concentrating it in a single platform operator &mdash; are a more appropriate response to this reality than either technical lock-down or governance opacity.</p>
<p>The companion paper STO-RES-0009 has been revised to v1.1 to address a precision issue in its API access claims prompted by the same findings. Readers should reference STO-RES-0009 v1.1 rather than v1.0. The core argument of both papers is unchanged; the MIT work strengthens rather than undermines it.</p>
</div>
<h2>References</h2>
<div class="refs">
@ -342,6 +355,7 @@
<p>Kukutai, T. &amp; Taylor, J. (Eds.) (2016). <em>Indigenous Data Sovereignty: Toward an Agenda</em>. ANU Press.</p>
<p>Ostrom, E. (1990). <em>Governing the Commons: The Evolution of Institutions for Collective Action</em>. Cambridge University Press.</p>
<p>Ostrom, E. (2010). Beyond Markets and States: Polycentric Governance of Complex Economic Systems. <em>American Economic Review</em>, 100(3), 641-672.</p>
<p>Radhakrishnan, A., Beaglehole, D., Belkin, M., &amp; Boix-Adser&agrave;, E. (2026). Exposing biases, moods, personalities, and abstract concepts hidden in large language models. <em>Science.</em> Published 19 February 2026.</p>
<p>Rimsky, N., et al. (2023). Steering Llama 2 via Contrastive Activation Addition. arXiv:2312.06681.</p>
<p>Stroh, J. &amp; Claude (2026). Steering Vectors and Mechanical Bias: Inference-Time Debiasing for Sovereign Small Language Models. STO-RES-0009 v1.1.</p>
<p>Te Mana Raraunga (2018). Principles of Maori Data Sovereignty. Te Mana Raraunga Charter.</p>
@ -353,10 +367,11 @@
<hr class="hr-section">
<h2>License</h2>
<p>Copyright 2026 John Stroh</p>
<p>Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at: <a href="http://www.apache.org/licenses/LICENSE-2.0">http://www.apache.org/licenses/LICENSE-2.0</a></p>
<p>Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.</p>
<h2>Licence</h2>
<p>Copyright © 2026 John Stroh.</p>
<p>This work is licensed under the <a href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International Licence (CC BY 4.0)</a>.</p>
<p>You are free to share, copy, redistribute, adapt, remix, transform, and build upon this material for any purpose, including commercially, provided you give appropriate attribution, provide a link to the licence, and indicate if changes were made.</p>
<p><strong>Note:</strong> The Tractatus AI Safety Framework source code is separately licensed under the Apache License 2.0. This Creative Commons licence applies to the research paper text and figures only.</p>
<hr class="hr-end"><p class="end-mark"><em>&mdash; End of Document &mdash;</em></p>
</div>