論文の概要: Constitutional Value Potentials: reading and steering internal priority margins in language models
- arxiv url: http://arxiv.org/abs/2606.15420v1
- Date: Sat, 13 Jun 2026 18:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.560873
- Title: Constitutional Value Potentials: reading and steering internal priority margins in language models
- Title(参考訳): 構成的価値ポテンシャル : 言語モデルにおける内的優先利益率の読み取りと操り方
- Authors: Tong Che, Rui Wu,
- Abstract要約: コンスティチューションは、言語モデルに何を価値とすべきかを伝えるが、それが価値があるかどうかはほとんど教えてくれない。
我々は、この仲裁が、構造化されたマージン読み出しにおけるアクティベーションから読み取ることができることを示す。
憲法条項は、マージンが正であることの主張となり、1つのモニターがそうでないときにフラグをスコアする。
- 参考スコア(独自算出の注目度): 7.4804012268124085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A constitution tells a language model what to value, but little tells us whether it does. Adherence is judged from outputs, and output evidence is most fragile on value conflicts, where what matters is not which value a model mentions but which one it is willing to sacrifice. We provide evidence that this arbitration can be read from activations in a structured margin readout. We introduce Constitutional Value Potentials (CVP). For each value we learn a scalar potential from the hidden state: an internal pressure to preserve that value, supervised not by the prompt but by an independent judge's verdict on which value the model's own response actually preserved. The signed difference of two potentials is a priority margin. A constitutional clause becomes the claim that a margin stays positive, and a single monitor score flags when it does not. The monitor predicts conflict violations with AUROC up to 0.95, beats a strong hidden-state probe, and generalizes to held-out synthetic conflicts across three Qwen2.5 scales. The signal appears as the answer begins, from the prompt tail and first response token. Read this early, the same signal reveals whether an adversarial priority hack has actually pushed the model toward a violation, rather than only whether the prompt looks adversarial. The same directions also support intervention tests: under selected steering settings, moving along a value direction shifts judged trade-offs in the intended direction. Together, these results suggest that some constitution-relevant priorities are accessible as activation-space margins, rather than only as output behavior.
- Abstract(参考訳): コンスティチューションは、言語モデルに何を価値とすべきかを伝えるが、それが価値があるかどうかはほとんど教えてくれない。
一貫性はアウトプットから判断され、アウトプットのエビデンスは、どの価値に言及するかではなく、どれを犠牲にするかという、価値の衝突に対して最も脆弱である。
我々は、この仲裁が、構造化されたマージン読み出しにおけるアクティベーションから読み取ることができることを示す。
憲法価値ポテンシャル(CVP)を紹介する。
各値に対して、隠れた状態からスカラーポテンシャルを学ぶ:その値を保存する内部圧力は、プロンプトではなく、モデル自身の応答が実際に保存されている値に関する独立した裁判官の判断によって監督される。
2つのポテンシャルの符号付き差は優先利得である。
憲法条項は、マージンが正であることの主張となり、1つのモニターがそうでないときにフラグをスコアする。
このモニターはAUROCとの衝突を最大0.95まで予測し、強い隠れ状態のプローブを打ち負かし、Qwen2.5スケールの3つの合成競合を抑えるよう一般化する。
シグナルは、応答開始時に、プロンプトテールと最初の応答トークンから現れる。
これを読んで、同じシグナルが、相手の優先的ハックが、プロンプトが敵のように見えるかどうかだけでなく、実際にモデルに違反を仕掛けたかどうかを明らかにします。
選択されたステアリング設定の下で、値方向に沿って移動することで、判断されたトレードオフを意図された方向にシフトする。
これらの結果は、出力の振舞いだけでなく、アクティベーション空間のマージンとして、いくつかの構成関連優先事項がアクセス可能であることを示唆している。
関連論文リスト
- Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration [3.450547277166974]
LLMの信頼性校正は、トークン確率スコアと言語的信頼の2つの信号を比較することで評価されることが多い。
我々は、動詞化-vs-token比較を定義する測度軸を変化させる。
両信頼性信号はプロトコルに依存した行動測定として扱うべきである。
論文 参考訳(メタデータ) (2026-05-26T23:03:38Z) - The Endogeneity of Miscalibration: Impossibility and Escape in Scored Reporting [2.3698341511302443]
自律エージェントからの真実の報告を排除することは、スケーラブルなAI監視における中核的な問題である。
プリンシパルは、厳密に適切なスコアリングルールを使用してエージェントのレポートをスコアリングするが、エージェントはまた、非正確チャンネルを通じてレポートの恩恵を受ける。
我々の主な成果は内在性であり、プリンシパルの最適監視は必ずしもスクリーンタイプに非ファイン承認関数を使用する。
論文 参考訳(メタデータ) (2026-05-08T12:42:28Z) - C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought Explanations [60.27156500679296]
系統的な推論連鎖の摂動とデリバリートーンの操作による道徳シナリオにおけるCoT(Chain-of-Thought)の説明の役割について検討した。
1) 利用者は, 根拠に欠陥がある場合でも, 信頼感を保ち, 結果合意を信頼する傾向がみられた。
これらの結果は、CoTの説明が同時に明確化と誤解を招き、視覚的信頼よりも精査と批判的思考を奨励する説明を提供するNLPシステムの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-15T02:38:49Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。