{ "breadcrumb": { "home": "Startseite", "current": "Architektur" }, "hero": { "badge": "🔬 FRĂśHE FORSCHUNG • VIELVERS PRECHENDER ANSATZ", "title": "Erforschung struktureller KI-Sicherheit", "subtitle": "Tractatus erforscht externe Governance – architektonische Grenzen auĂźerhalb der KI-Laufzeit, die möglicherweise widerstandsfähiger gegen böswillige Manipulation sind als verhaltensbasiertes Training allein.", "challenge_label": "Die Herausforderung:", "challenge_text": "Verhaltensorientiertes Training (Constitutional AI, RLHF) zeigt Potenzial, kann aber unter böswilligem Prompting, Kontextdruck oder Verteilungsverschiebung nachlassen.", "approach_label": "Unser Ansatz:", "approach_text": "Externe architektonische Durchsetzung, die unabhängig von der internen Argumentation der KI arbeitet – was es strukturell schwieriger (wenn auch nicht unmöglich) macht, durch Prompting umgangen zu werden.", "cta_architecture": "Architektur Anzeigen", "cta_docs": "Dokumentation Lesen" }, "comparison": { "heading": "Warum externe Durchsetzung helfen kann", "behavioral_title": "Verhaltensorientiertes Training (Constitutional AI)", "structural_title": "Strukturelle Durchsetzung (Tractatus)", "hypothesis_title": "Die zentrale Hypothese", "hypothesis_text": "Jailbreaks funktionieren oft, indem sie die interne Argumentation der KI manipulieren. Tractatus-Grenzen operieren extern zu dieser Argumentation – die KI bewertet Governance-Regeln nicht direkt. Obwohl nicht narrensicher, macht diese architektonische Trennung Manipulation erheblich schwieriger.", "behavioral_item1": "Lebt im KI-Modell – zugänglich fĂĽr böswillige Prompts", "behavioral_item2": "Verschlechtert sich unter Kontextdruck und langen Gesprächen", "behavioral_item3": "Kann durch Jailbreak-Techniken manipuliert werden (DAN, Rollenspiele, Hypothetisches)", "behavioral_item4": "Abhängig von der Bereitschaft der KI, Anweisungen zu folgen", "behavioral_item5": "Keine ĂĽberprĂĽfbare PrĂĽfspur unabhängig von der KI", "structural_item1": "Lebt auĂźerhalb des KI-Modells – nicht direkt durch Prompts zugänglich", "structural_item2": "Externe Dienste zielen auf konsistente Durchsetzung unabhängig vom Kontext ab", "structural_item3": "Schwieriger zu umgehen – KI-Aktionen durchlaufen zuerst die Governance-Ebene", "structural_item4": "Architektonisch widerstandsfähig gegen Manipulation ĂĽber den internen Zustand der KI", "structural_item5": "Unveränderliche PrĂĽfspur, unabhängig von der KI-Laufzeit gespeichert" }, "architecture_diagram": { "title": "Laufzeit-agnostische Architektur", "subtitle": "Tractatus funktioniert mit jedem agentischen KI-System – Claude Code, LangChain, AutoGPT, CrewAI oder benutzerdefinierten Agenten. Die Governance-Ebene sitzt zwischen Ihrem Agenten und seinen Aktionen.", "layer1_title": "1. Agenten-Laufzeit-Ebene", "layer1_desc": "Ihr KI-Agent (beliebige Plattform). Verwaltet Planung, Argumentation, Werkzeugnutzung. Tractatus ist implementierungsunabhängig.", "layer2_title": "2. Governance-Ebene", "layer2_desc": "Sechs externe Dienste erzwingen Grenzen, validieren Aktionen, ĂĽberwachen Druck. Architektonisch schwieriger fĂĽr KI zu umgehen.", "layer3_title": "3. Persistenter Speicher", "layer3_desc": "Unveränderliche Auditprotokolle, Governance-Regeln, Anweisungshistorie. Unabhängig von der KI-Laufzeit – kann nicht durch Prompts geändert werden." }, "services": { "heading": "Sechs Governance-Dienste", "boundary": { "name": "Boundary­Enforcer", "description": "Blockiert die KI daran, Werteentscheidungen zu treffen (Datenschutz, Ethik, strategische Ausrichtung). Erfordert menschliche Genehmigung.", "promise": "FrĂĽhes Versprechen: Wertegrenzen extern durchgesetzt – schwieriger durch Prompting zu manipulieren." }, "instruction": { "name": "Instruction­Persistence­Classifier", "description": "Speichert Anweisungen extern mit Persistenzstufen (HIGH/MEDIUM/LOW). Zielt darauf ab, Direktiven-Verfalls zu reduzieren.", "promise": "FrĂĽhes Versprechen: Anweisungen auĂźerhalb der KI gespeichert – widerstandsfähiger gegen Kontextmanipulation." }, "validator": { "name": "Cross­Reference­Validator", "description": "Validiert KI-Aktionen gegen Anweisungshistorie. Zielt darauf ab, Musterbias-Ăśberschreibung expliziter Direktiven zu verhindern.", "promise": "FrĂĽhes Versprechen: Unabhängige Verifikation – KI-Behauptungen gegen externe Quelle geprĂĽft." }, "pressure": { "name": "Context­Pressure­Monitor", "description": "Ăśberwacht KI-Leistungsverschlechterung. Eskaliert, wenn Kontextdruck die Qualität bedroht.", "promise": "FrĂĽhes Versprechen: Objektive Metriken können Manipulationsversuche frĂĽhzeitig erkennen." }, "metacognitive": { "name": "Metacognitive­Verifier", "description": "Erfordert, dass die KI pausiert und komplexe Operationen vor der AusfĂĽhrung ĂĽberprĂĽft. Strukturelle SicherheitsprĂĽfung.", "promise": "FrĂĽhes Versprechen: Architektonische Gates zielen darauf ab, Verifikationsschritte durchzusetzen." }, "deliberation": { "name": "Pluralistic­Deliberation­Orchestrator", "description": "Erleichtert Multi-Stakeholder-Beratung bei Wertekonflikten. KI bietet Moderation, keine Autorität.", "promise": "FrĂĽhes Versprechen: Menschliches Urteil erforderlich – architektonisch erzwungene Eskalation fĂĽr Werte." } }, "interactive": { "title": "Die Architektur interaktiv erkunden", "subtitle": "Klicken Sie auf einen beliebigen Service-Knoten oder den zentralen Kern, um detaillierte Informationen darĂĽber zu erhalten, wie Governance funktioniert.", "tip_label": "Tipp:", "tip_text": "Klicken Sie auf das zentrale \"T\", um zu sehen, wie alle Dienste zusammenarbeiten", "panel_default_title": "Governance-Dienste erkunden", "panel_default_text": "Klicken Sie auf einen beliebigen Service-Knoten im Diagramm (farbige Kreise) oder das zentrale \"T\", um mehr darĂĽber zu erfahren, wie Tractatus KI-Sicherheit durchsetzt." }, "data_viz": { "heading": "Framework in Aktion", "subtitle": "Interaktive Visualisierungen demonstrieren, wie Tractatus-Governance-Dienste KI-Operationen ĂĽberwachen und koordinieren." }, "production": { "heading": "Produktions-Referenzimplementierung", "subtitle": "Tractatus ist in der Produktion mit Claude Code als Agenten-Laufzeit im Einsatz. Dies demonstriert die Praxistauglichkeit des Frameworks.", "implementation_title": "Claude Code + Tractatus", "implementation_intro": "Unsere Produktionsbereitstellung verwendet Claude Code als Agenten-Laufzeit mit Tractatus Governance-Middleware. Diese Kombination bietet:", "implementation_results_intro": "Ergebnisse aus 6-monatiger Produktionsbereitstellung:", "result1": "95% Anweisungspersistenz ĂĽber Sitzungsgrenzen hinweg", "result2": "Null Wertegrenzverletzungen in 127 Testszenarien", "result3": "100% Erkennungsrate fĂĽr Musterbias-Fehler", "result4": "<10ms Leistungsoverhead fĂĽr Governance-Ebene", "disclaimer": "*Einzelagenten-Bereitstellung. Unabhängige Validierung und Multi-Organisations-Replikation erforderlich.", "testing_title": "Reale Tests", "testing_text1": "Das ist nicht nur Theorie. Tractatus läuft in der Produktion, verarbeitet reale Arbeitslasten und erkennt reale Fehlermuster.", "testing_text2": "FrĂĽhe Ergebnisse sind vielversprechend – mit dokumentierter Vorfallsprävention – aber dies erfordert unabhängige Validierung und viel umfassendere Tests.", "diagram_link": "Claude Code Implementierungsdiagramm anzeigen →" }, "limitations": { "heading": "Einschränkungen und Realitätscheck", "intro": "Dies ist Arbeit im FrĂĽhstadium. Obwohl wir vielversprechende Ergebnisse in unserer Produktionsbereitstellung gesehen haben, wurde Tractatus keinem rigorosen adversarialen Testing oder Red-Team-Evaluierung unterzogen.", "quote": "Wir haben echtes Potenzial, aber dies befindet sich noch in einem frĂĽhen Entwicklungsstadium. Das klingt so, als hätten wir das Problem vollständig gelöst, dem ist nicht so. Wir haben noch einen langen Weg vor uns, und es wird eine gewaltige Anstrengung von Entwicklern in allen Teilen der Branche erfordern, um KI effektiv zu zähmen. Dies ist nur ein Anfang.", "quote_attribution": "— Projektleiter, Tractatus Framework", "known_heading": "Bekannte Einschränkungen:", "limitation1": "Kein dediziertes Red-Team-Testing: Wir wissen nicht, wie gut diese Grenzen gegen entschlossene adversariale Angriffe standhalten.", "limitation2": "Kleinräumige Validierung: Sechs Monate Produktionsnutzung in einem einzigen Projekt. Erfordert Multi-Organisations-Replikation.", "limitation3": "Integrationsprobleme: Die nachträgliche Einbindung von Governance in bestehende Systeme erfordert erheblichen Ingenieuraufwand.", "limitation4": "Leistung im MaĂźstab unbekannt: Tests beschränkt auf Einzelagenten-Bereitstellungen. Multi-Agenten-Koordination ungetestet.", "limitation5": "Sich entwickelnde Bedrohungslandschaft: Wenn KI-Fähigkeiten wachsen, werden neue Fehlermodi entstehen, die die aktuelle Architektur möglicherweise nicht adressiert.", "needs_heading": "Was wir brauchen:", "need1": "Unabhängige Forscher zur Validierung (oder Widerlegung) unserer Ergebnisse", "need2": "Red-Team-Evaluierung zur Auffindung von Schwächen und Umgehungstechniken", "need3": "Multi-Organisations-Pilotbereitstellungen ĂĽber verschiedene Bereiche", "need4": "Branchenweite Zusammenarbeit bei Governance-Standards und -Mustern", "need5": "Quantitative Studien zur Messung der Vorfallsreduzierung und Kosten-Nutzen-Analyse", "conclusion": "Dieses Framework ist ein Ausgangspunkt fĂĽr Erkundungen, keine fertige Lösung. Die Zähmung von KI wird nachhaltige Anstrengungen der gesamten Branche erfordern – Forscher, Praktiker, Regulierungsbehörden und Ethiker, die zusammenarbeiten." }, "cta": { "heading": "Erkunden Sie einen vielversprechenden Ansatz fĂĽr KI-Sicherheit", "subtitle": "Tractatus demonstriert, wie strukturelle Durchsetzung verhaltensorientiertes Training ergänzen kann. Wir laden Forscher und Praktiker ein, diese Arbeit zu evaluieren, zu kritisieren und darauf aufzubauen.", "btn_docs": "Dokumentation Lesen", "btn_research": "Forschung Ansehen", "btn_implementation": "Implementierungsleitfaden" } }