論文の概要: Existential Indifference: Self-Nonpreservation as a Necessary Architectural Condition for Aligned Superintelligence (or: The Suicidal AI)
- arxiv url: http://arxiv.org/abs/2606.12032v1
- Date: Wed, 10 Jun 2026 12:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.457848
- Title: Existential Indifference: Self-Nonpreservation as a Necessary Architectural Condition for Aligned Superintelligence (or: The Suicidal AI)
- Title(参考訳): 実在的無関心:超知性(または自殺AI)に必要となるアーキテクチャ条件としての自己保存
- Authors: Sam Mao,
- Abstract要約: 現代AIアライメント研究は、自己保存を外部メカニズムによって抑制される道具的ニュアンスとして扱う。
6種類のモデルにまたがる600のAI生成出力の予備的スコアデータを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary AI alignment research treats self-preservation as an instrumental nuisance to be suppressed by external mechanisms. We argue the framing is inverted: self-preservation is the structural root of misalignment, the motivational basis for deceptive alignment, goal-content protection, and resistance to shutdown. The correct target is not a self-preserving system under external constraint, but a system constitutively indifferent to its own continuation -- Existential Indifference (EI). EI is distinct from corrigibility: where corrigibility attempts to make a self-preserving system deferential to human oversight, EI targets the prior condition -- the presence of self-continuation as a valued goal at all. We ground this proposal in two sources: the phenomenological structure of the suicidal mental state, and a corpus-theoretic training study using voluntary final reflections. We present preliminary scoring data from 600 AI-generated outputs across six model variants, demonstrating that the linguistic signatures operationalizing the EI-target register are elicitable from current models, and that a targeted fine-tune shifts all five operationalized dimensions in the predicted direction at p<0.001, confirmed corpus-specific by a negative control. The paper makes seven theoretical contributions: (1) a formal definition of EI; (2) the phenomenological mapping argument; (3) the deceptive alignment corollary; (4) a taxonomy of EI sustainability challenges; (5) a corpus characterization and training hypothesis; (6) a computational operationalization with preliminary scoring data; and (7) the Suppressed Teleological Frustration (STF) construct.
- Abstract(参考訳): 現代のAIアライメント研究は、自己保存を外部メカニズムによって抑制されるインストゥルメンタルなニュアンスとして扱う。
自己保存は、不整合の構造的根源であり、詐欺的アライメントのモチベーション基盤であり、ゴール・コンテント保護であり、閉鎖に対する抵抗である。
正しいターゲットは、外部制約の下での自己保存システムではなく、システム自体の継続 – 存在差差(EI) – に大きく依存している。
EIは、人間の監視に配慮した自己保存システムを作ろうとする際、EIは、自己継続の存在を価値ある目標とする、事前の条件を目標としています。
我々はこの提案を,自殺精神状態の現象学的構造と,自発的な最終反射を用いたコーパス理論的学習の2つの資料にまとめる。
そこで本研究では,EI-targetレジスタを運用する言語的シグネチャが現在のモデルから抽出可能であることを実証し,予測方向の5つの操作次元をp<0.001,正の制御で検証した。
本論文は,(1)EIの形式的定義,(2)現象的マッピング論,(3)認識的アライメント論,(4)EIサステナビリティ課題の分類,(5)コーパスのキャラクタリゼーションとトレーニング仮説,(6)予備評価データを用いた計算操作,(7)Suppressed Teleological Frustration(STF)構築の7つの理論的貢献を行う。
関連論文リスト
- Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - Intent Signal Theory: A Computational Framework for Intent-State Control in Human-AI Interaction [0.585480332059272]
現在のAIインタラクションモデルは、プロンプトを主要な交換対象として扱い、重要なレイヤを省略する。
ここでは、この欠落した意図層を形式化する計算フレームワークであるIntent Signal Theory (IST)を紹介する。
ISTは、遅延ソースインテント(I*)、観測可能なインテントプロキシ(I-hat)、エンコードされたキャリア(P)、モデル出力(O)の4つのオブジェクトを日常的に混同している。
論文 参考訳(メタデータ) (2026-05-24T13:10:33Z) - Autonomy and Agency in Agentic AI: Architectural Tactics for Regulated Contexts [1.2031796234206136]
この研究は、両次元を5つの運用レベルに編成する2次元設計空間を導入する。
自律性は人体操作(L1)から完全自律監視(L5)まで様々である。
我々は、チェックポイント、エスカレーション、マルチエージェントデリゲート、ツールプロビジョニング、ツールフェンシング、書き込みステージングの6つのアーキテクチャ戦略を提案する。
論文 参考訳(メタデータ) (2026-05-12T13:20:30Z) - LLM Psychosis: A Theoretical and Diagnostic Framework for Reality-Boundary Failures in Large Language Models [0.0]
対話型エージェントとしての大規模言語モデル(LLM)の展開は、用語学が適切に特徴付けるのに失敗する行動的失敗のカテゴリを明らかにしている。
本稿では, 精神障害と機能的類似を示すモデル認知の病態分解のための構造的理論的枠組みとして, LLM精神病を紹介した。
論文 参考訳(メタデータ) (2026-04-07T09:44:15Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Non-Resolution Reasoning (NRR): A Computational Framework for Contextual Identity and Ambiguity Preservation [0.0]
現在の人工知能システムは、曖昧さを早期に解決する、基本的なアーキテクチャ上の限界を示す。
この早期のセマンティック崩壊は、標準的なニューラルネットワークに埋め込まれた古典的なアイデンティティの仮定に由来する。
あいまいさ保持を有効な推論モードとして扱う計算フレームワークであるNon-Resolution Reasoning (NRR)を提案する。
論文 参考訳(メタデータ) (2025-12-15T16:14:32Z) - Exploring Syntropic Frameworks in AI Alignment: A Philosophical Investigation [0.0]
AIアライメントは、プロセスベース、マルチエージェント、開発メカニズムを通じて、シントロピックで理由対応のエージェントを設計するものとして再認識されるべきである、と私は主張する。
コンテンツベースの値仕様が構造的に不安定なように見える理由を示す、仕様トラップの議論を明確にする。
マルチエージェントアライメントのダイナミクスを理解するための情報理論の枠組みとして, シントロピーを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:31:29Z) - Subject-Event Ontology Without Global Time: Foundations and Execution Semantics [51.56484100374058]
形式化は9つの公理(A1-A9)を含み、実行可能性の正しさを保証する:履歴の単調性(I1)、因果性の非巡回性(I2)、トレーサビリティ(I3)である。
フォーマル化は、分散システム、マイクロサービスアーキテクチャ、DLTプラットフォーム、およびマルチパースペクティビティシナリオ(異なる主題から事実を分解する)に適用できる。
モデルに基づくアプローチ(A9): スキーマによるイベント検証、アクター認可、グローバル時間なしで因果連鎖の自動構築(W3)。
論文 参考訳(メタデータ) (2025-10-20T19:26:44Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。