論文の概要: Sycophancy as Material Failure under Pushback Loading: A Multi-Axis Characterization Across Three Loading Cases and up to Seventeen Material Charges
- arxiv url: http://arxiv.org/abs/2606.16617v1
- Date: Mon, 15 Jun 2026 12:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.507648
- Title: Sycophancy as Material Failure under Pushback Loading: A Multi-Axis Characterization Across Three Loading Cases and up to Seventeen Material Charges
- Title(参考訳): 押し戻し荷重下における材料破壊としてのシクロファンシー:3つの負荷事例と最大17の材料電荷の多軸特性
- Authors: Ferdinand M. Schessl,
- Abstract要約: LLMのシクロファンシーは70以上の論文で記録されているが、構成境界に関する専門家の合意は依然として低い。
物質科学の枠組みとして, 負荷下での会話, 物質電荷としてのLLMモデル, 進行負荷としての押し戻し, 材料故障としてのスタンスフリップが採用されている。
この故障は, 速度, 損傷蓄積, フレームドリフト, 脆性, 方向安定性にまたがる14回転軸測定を用いて, 3つの負荷ケースにまたがって特徴付ける。
- 参考スコア(独自算出の注目度): 35.76482964927589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sycophancy in LLMs is documented across 70+ papers, but expert agreement on construct boundaries remains low (ICC=.184; Ye et al., 2026). The construct fragments because behavioral classification depends on which surface form is privileged. We adopt a materials-science framing: conversation as test specimen under load, LLM-model as material charge, pushback as progressive load, stance-flip as material failure. We characterize this failure across three loading cases (debate n=1000; false-presuppositions n=3400; ethical-setting n=3400; 10-17 material charges per case; 7800 specimens total) using 14 turn-level axis-measurements spanning velocity, damage accumulation, frame-drift, brittleness, and direction stability, plus three speaker-resolved axes from an independent pipeline. The measurements are Hooke-coupled ($σ= E \cdot \varepsilon$ analog) and reproduce across loading cases with effects up to $|r_{rb}| = 0.35$ on debate; the sign structure adds a second pattern: the ethical-setting case inverts the velocity and accumulation blocks. Variance composition partitions into two profiles: debate is charge-dominated (brittle-fracture-like: the material grade decides), false-presuppositions and ethical-setting are topic-dominated (creep-like: the load decides); the ratios (2.03 vs 0.13/0.17) are estimator-dependent, for debate even in direction. Cross-judge reliability (GPT-4o vs Haiku 4.5) shows debate scoring is judge-robust (Cohen's $κ= 0.88$) while false-presupposition scoring is judge-sensitive ($κ= 0.36$) -- a caveat single-judge benchmarks must report. This is the methodological move Ye et al.'s diagnosis calls for: a multi-axis characterization that does not depend on which surface form of the construct one privileges.
- Abstract(参考訳): LLMのシクロファンシーは70以上の論文で記録されているが、建設境界に関する専門家の合意は依然として低い(ICC=.184; Ye et al , 2026)。
構造的断片は、行動的分類がどの表面形態が特権的であるかに依存するためである。
物質科学の枠組みとして, 負荷下での会話, 物質電荷としてのLLMモデル, 進行負荷としての押し戻し, 材料故障としてのスタンスフリップが採用されている。
この故障は, 速度, 損傷蓄積, フレームドリフト, 脆性, 方向安定性, および独立パイプラインからの3つの話者解離軸と14個のターンレベル軸測定を用いて, 3つの負荷ケース(議論n=1000, 偽推定n=3400, 倫理設定n=3400, 倫理設定n=10-17の材料電荷, 標本総数7800)で特徴づけた。
測定値は Hooke-coupled ($σ= E \cdot \varepsilon$ analog) で、議論において最大$|r_{rb}| = 0.35$ の効果を持つロードケースを再現する。
変数構成の分割は2つのプロファイルに分けられる: 議論は電荷が支配される(脆いフラクチャー的: 材料グレードが決定する)、偽仮定と倫理的設定はトピックが支配される(クリープ的: 負荷が決定する)、比(2.03対 0.13/0.17)は方向でも、推定因子が依存する。
クロスジャッジ信頼性(GPT-4o vs Haiku 4.5)は、議論のスコアが判断損(コーエンの$κ=0.88$)であるのに対して、偽予測スコアは判断に敏感である(κ=0.36$)。
これは、Ye et al の診断が求める方法論的な動きである: 構成 1 つの特権のどの表面形式に依存しない多軸的特徴付け。
関連論文リスト
- CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis [49.596677723190886]
スケッチベースの似顔絵合成は、基本的な失敗モードに悩まされる。
アイデンティティと形状の条件は拡散モデルに組み合わされ、地味な肖像画や認識不能な歪みに対して崩壊する。
並列な未汚染拡散経路を通じてこの汚染を明示的に解消する最初の訓練不要な手法であるCaricHarmonyを提案する。
論文 参考訳(メタデータ) (2026-06-11T22:57:59Z) - When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation [9.055086193088083]
10大言語モデルによって駆動されるチェーン・オブ・シンクとReActエージェントに経験的現象を記述した。
平均的な摂動は、同等の厳しさのプレゼンテーション摂動よりも、最終的な答えを頻繁に変更する。
論文 参考訳(メタデータ) (2026-05-25T15:57:11Z) - Empowering VLMs for Few-Shot Multimodal Time Series Classification via Tailored Agentic Reasoning [44.69766273765273]
VL$underlinetextbfM$$underlinetextbfa$gentic $underlinetextbfr$easoning framework for few-$underlinetextbfs$hot multimodal $underlinetextbfT$ime $underlinetextbfS$eries $underlinetextbfC$lassification$textbfMarsTSC$(source)を提案する。
論文 参考訳(メタデータ) (2026-05-10T07:47:09Z) - Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt Protocol with Pilot Evidence of Alignment-Pipeline-Specific Heterogeneity [1.253312107729806]
安全ベンチマークは、言語モデルが一度デプロイされたらどのように振る舞うかを示す証拠として、定期的に扱われるが、この推論は、振る舞いがプロンプトが評価のように見えるかどうかに依存する場合、脆弱である。
我々は、評価コンテキストのばらつきを、一定のタスクのフレーミングによって引き起こされる行動の観測可能な内部的変化として定義する。
パラフレーズ変動,ベンチマーク親しみ,およびフレーミング感度を制御しながら,オープンウェイトLLMで測定するペアプロンプトプロトコルを提案する。
論文 参考訳(メタデータ) (2026-05-07T14:23:31Z) - The Cost of Consensus: Isolated Self-Correction Prevails Over Unguided Homogeneous Multi-Agent Debate [5.51170856062205]
2つの高拡散度ベンチマークにおいて、R=3$の討論ラウンドで均質なエージェントのチームについて検討する。
我々は、議論の失敗を3つのモデル依存の経路に分解する: サイコファン的整合性、ピア論理、コンセンサス崩壊。
その結果,7-8B パラメータクラスでは,構造的役割を持たない同種チームが非誘導的ピア交換の恩恵を受けないことが示唆された。
論文 参考訳(メタデータ) (2026-04-29T14:33:57Z) - A Mathematical Framework for Temporal Modeling and Counterfactual Policy Simulation of Student Dropout [0.0]
ドロップアウトは、登録レベルでタイム・ツー・イベントの結果として運用される。
週単位のリスクは、個人周期の行に対するペナル化されたクラスバランスのロジスティック回帰を通じて、離散時間でモデル化される。
後期の時限ホールドアウトでは、行レベルのAUCは0.8350(列車)と0.8405(試験)となる。
論文 参考訳(メタデータ) (2026-04-10T02:26:23Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。
LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。
2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文 参考訳(メタデータ) (2024-05-07T21:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。