論文の概要: Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention
- arxiv url: http://arxiv.org/abs/2606.11205v1
- Date: Wed, 22 Apr 2026 13:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.832183
- Title: Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention
- Title(参考訳): シンコファンシーのデュアルスタンス評価:合意の構造と介入の限界
- Authors: Matthew James Buchan,
- Abstract要約: Llama-3-8B-Instruct上で,各トピックの両スタンスをテストし,遠心分離ステアリングに適用するデュアルスタンス評価を導入する。
モデルは幾何学的に異なる部分空間において空想的かつ事実的な一致を表すが、操舵方向は等しく両面に投影され、どちらも微分的標的にはならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering can shift LLM behaviour, but standard evaluations do not typically test whether a sycophancy-reduction direction also suppresses agreement with factually correct statements. We introduce dual-stance evaluation, which tests both stances of each topic, and apply it to centroid-difference steering on Llama-3-8B-Instruct. We find a dissociation: the model represents sycophantic and factual agreement in geometrically distinct subspaces, yet the steering direction projects equally onto both and cannot differentially target either. The direction accordingly reduces agreement with factually correct statements (e.g. that the Earth is round) as well as sycophantic ones. All other static properties of the two activation groups are matched, suggesting the behavioural dissociation arises from generation dynamics or from finer-grained structure that residual-stream analysis cannot resolve. The pattern illustrates a general gap: representations that are readable from activations may not be writable through them.
- Abstract(参考訳): アクティベーションステアリングはLDMの振る舞いを変えることができるが、標準的な評価では、サイコフィナンシー推論の方向が事実正しい文との一致を抑えるかどうかを検査しない。
Llama-3-8B-Instruct上で,各トピックの両スタンスをテストし,遠心分離ステアリングに適用するデュアルスタンス評価を導入する。
モデルは幾何学的に異なる部分空間において空想的かつ事実的な一致を表すが、操舵方向は等しく両面に投影され、どちらも微分的標的にはならない。
この方向は実際に正しい文(例えば地球が丸い)とサイコファンティックな文との一致を減少させる。
2つの活性化群の他の全ての静的性質は一致しており、挙動解離は生成力学や残留ストリーム解析では解決できないより微細な構造から生じることを示唆している。
このパターンは、一般的なギャップを描いている:アクティベーションから読み取れる表現は、それらを通して解釈できないかもしれない。
関連論文リスト
- R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search [18.8323743697237]
大規模言語モデル(LLM)は、オープンなタスクに精通しているが、エージェント設定では、信頼性の高いデリバリが保証されない。
エラーは局所化せずに伝播し、最悪の場合の摂動は未評価となり、蓄積された知識は決して無効にされない。
帰納的、反事実的、メタ帰納的、是正的、帰納的推論は、相容れない方向に共有コンテキストを引き出す。
論文 参考訳(メタデータ) (2026-06-03T12:45:39Z) - Departure from Regularity: Degree Heterogeneity and Eigengap as the Structural Drivers of ASE-LSE Latent Subspace Disagreement [2.2201528765499416]
グラフデータを解析する2つの方法、Adjacency Spectral Embedding と Laplacian Spectral Embedding は、同じネットワークに適用した場合、しばしば異なる結果をもたらす。
規則性は完全な合意に十分な条件であることを示す。
2つの用語がそれを制御する構造的要素を示唆する明示的な境界、すなわち、メソッドを分割する次数不均一性と、それらを引き戻すコミュニティ構造強度を証明します。
論文 参考訳(メタデータ) (2026-05-21T11:30:37Z) - The Cylindrical Representation Hypothesis for Language Model Steering [57.97381760521523]
中心軸は、概念の欠如と存在との主な違いを捉え、概念生成を駆動することを示す。
我々はこれを円筒表現仮説(CRH)として定式化する。
本実験は円筒構造の存在を検証し,CRHが実環境でのモデルステアリング動作の解釈に有効かつ実用的な方法であることを示した。
論文 参考訳(メタデータ) (2026-05-03T12:26:13Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - Fundamental limits to contrast reversal of self-fidelity correlations [0.0]
測定設計においては、アンチコントラストのリードアウトを設計することが一般的である。
広義の入力アンサンブルに対して2つの進化を均一に反対にできるかどうかを問う。
我々は、ピアソン相関係数を、2つの進化の間の大域的対立のデバイスに依存しない尺度として採用する。
論文 参考訳(メタデータ) (2025-09-30T15:07:28Z) - Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs [1.9693252204587723]
我々は、真の合意とは対照的に、空想的合意と空想的賞賛を分解する。
結果は、サイコファンティックな行動は、独立して選択可能な表現と一致していることを示唆している。
論文 参考訳(メタデータ) (2025-09-25T15:19:39Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - GroupifyVAE: from Group-based Definition to VAE-based Unsupervised
Representation Disentanglement [91.9003001845855]
他の誘導バイアスを導入しないと、VAEベースの非監視的非絡み合いは実現できない。
グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続に対処する。
提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。
論文 参考訳(メタデータ) (2021-02-20T09:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。