論文の概要: Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2606.07808v1
- Date: Fri, 05 Jun 2026 19:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.406665
- Title: Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models
- Title(参考訳): 命令階層が壊れる場所:推論言語モデルにおける失敗の診断と修復
- Authors: Sanjay Kariyappa, G. Edward Suh,
- Abstract要約: 本稿では,命令階層障害を命令識別,コンフリクト解決,応答実現にローカライズする診断フレームワークを提案する。
我々は、IHEvalとIHChallengeの長文適応において、Gemma-4-31B-IT、Qwen3.6-35B-A3B、Claude Sonnet 4.6の3つの推論モデルを評価する。
最強のモニターは規則に従う非準拠を81-99%減らし、GPT-5.3は静的攻撃で86%減、適応攻撃で45%減らした。
- 参考スコア(独自算出の注目度): 15.752705487977861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning language models deployed in agentic workflows must follow an instruction hierarchy: when instructions from different sources conflict, the model should obey the highest-privilege applicable instruction. Existing benchmarks largely measure this behavior end-to-end, asking whether the final response is compliant. However, a non-compliant response can arise from several distinct failures: the model may fail to identify the relevant instructions in context, fail to resolve conflicts among identified instructions, or correctly resolve the conflict in its reasoning while still producing a violating response. We introduce a white-box diagnostic framework that localizes instruction hierarchy failures into instruction identification, conflict resolution, and response realization, making failures more interpretable. We evaluate three reasoning models--Gemma-4-31B-IT, Qwen3.6-35B-A3B, and Claude Sonnet 4.6--on long-context adaptations of IHEval and IHChallenge, and find that the dominant failure mode varies across models, tasks, and context length. Building on the observation that models can often detect conflicts and output violations when explicitly prompted, we propose two training-free self-monitoring mechanisms: a parallel input monitor for low-latency conflict detection before generation, and a sequential output monitor for response-level review and repair. Across Gemma-4-31B-IT, Claude Sonnet 4.6, and GPT-5.3, the strongest monitor reduces rule-following non-compliance by 81-99%, with GPT-5.3 reductions of 86% under static attacks and 45% under adaptive attacks.
- Abstract(参考訳): エージェントワークフローにデプロイされる推論言語モデルは、命令階層に従う必要がある。
既存のベンチマークはこの動作をエンドツーエンドで計測し、最終応答が準拠するかどうかを問う。
しかし、非準拠の応答はいくつかの異なる失敗から生じうる: モデルはコンテキスト内の関連する命令を識別できなかったり、特定された命令間の競合を解決できなかったり、その推論において矛盾を正しく解決できなかったり、違反する応答を発生させたりしている。
命令階層障害を命令識別、競合解決、応答実現にローカライズするホワイトボックス診断フレームワークを導入し、障害をより解釈しやすいものにする。
我々は、IHEval と IHChallenge の長文適応において、Gemma-4-31B-IT、Qwen3.6-35B-A3B、Claude Sonnet 4.6 の3つの推論モデルを評価し、支配的障害モードがモデル、タスク、コンテキスト長によって異なることを発見した。
モデルが明示的に指示されたときの競合や出力違反をしばしば検出できるという観察に基づいて,低遅延競合検出のための並列入力モニタと,応答レベルのレビューと修復のための逐次出力モニタという,トレーニング不要な自己監視機構を提案する。
Gemma-4-31B-IT、Claude Sonnet 4.6、GPT-5.3全体で、最強のモニターは規則に従う非準拠を81-99%削減し、GPT-5.3は静的攻撃で86%、適応攻撃で45%削減した。
関連論文リスト
- R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search [18.8323743697237]
大規模言語モデル(LLM)は、オープンなタスクに精通しているが、エージェント設定では、信頼性の高いデリバリが保証されない。
エラーは局所化せずに伝播し、最悪の場合の摂動は未評価となり、蓄積された知識は決して無効にされない。
帰納的、反事実的、メタ帰納的、是正的、帰納的推論は、相容れない方向に共有コンテキストを引き出す。
論文 参考訳(メタデータ) (2026-06-03T12:45:39Z) - Detection Without Correction: A Two-Parameter Decomposition of Multi-Stage LLM Pipelines [0.764671395172401]
本稿では,マルチエージェントの議論,本質的な自己補正,検索強化検証パイプラインについて検討する。
条件付き誤り訂正率は一貫して支配的である。
検出しきい値を安定モデル/プロトコールレベルの正則性として特徴付ける。
論文 参考訳(メタデータ) (2026-05-26T18:26:15Z) - ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling [57.42714978834704]
ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-21T07:38:44Z) - CyberCorrect: A Cybernetic Framework for Closed-Loop Self-Correction in Large Language Models [9.281774217584289]
CyberCorrectは、大規模言語モデルの自己訂正を形式化するフレームワークである。
タイプ指向補正制御器は、診断されたエラーカテゴリに基づいて修理指示を生成する。
収束判定器は、制御理論から適応された安定性基準を用いて繰り返し終了を決定する。
論文 参考訳(メタデータ) (2026-05-17T07:47:34Z) - Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules [4.124344125532972]
複雑な工業資産の監視は、センサーの条件に基づいて引き起こされるエンジニアによる象徴的な規則に依存している。
ルールをメンテナンスステップに変換するには、長年の実践を通じて得られた資産固有の知識が必要です。
このルール・ツー・アクション・ステップの意思決定支援としてLLMが有効か検討し,6,690名の専門家による複数選択質問をベンチマークした。
論文 参考訳(メタデータ) (2026-05-09T02:17:39Z) - Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures [0.0]
我々は、モデルのエラーが出力コミット前に検出可能で、一度検出されると修正できる程度、統治性を導入します。
ベンチマーク精度は支配可能性を予測するものではなく、補正能力は検出と独立に異なり、同一のガバナンス足場はモデル間で逆の効果をもたらす。
本稿では,モデルとタスクの組み合わせをGovernable, Monitor Only, Steer Blind, Ungovernableの4つに分類する。
論文 参考訳(メタデータ) (2026-03-22T21:50:28Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。