論文の概要: Strained Coherence: A Pre-Failure Signal in Coding Agent Execution Trajectories
- arxiv url: http://arxiv.org/abs/2606.07889v1
- Date: Fri, 05 Jun 2026 22:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.507202
- Title: Strained Coherence: A Pre-Failure Signal in Coding Agent Execution Trajectories
- Title(参考訳): ひずみコヒーレンス
- Authors: Marut Pandya, Kasey Zhang, Baiqing Lyu,
- Abstract要約: LLMベースのコーディングエージェントは、時には自身の推論で問題を認識し、いずれにせよ前進する。
我々はClaude Sonnet 4.6のジャッジを構築し、完全なトラジェクトリとフラグがパターンの発生する場所にまたがる。
Qwen3.5-35B-A3Bのバックボーンを用いて44個の終端ベンチ2軌道上で評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based coding agents sometimes acknowledge a problem in their own reasoning and then proceed anyway. We call this pattern strained coherence: a safety-relevant failure mode in which an agent has information that should change its behavior, states that information, and still acts against it. The pattern overlaps with verbalized reward hacking, where an agent names a tension between a task proxy and the underlying goal yet optimizes the proxy anyway. We give an operational definition, build a Claude Sonnet 4.6 judge that reads full trajectories and flags spans where the pattern occurs, and evaluate it on 44 Terminal-bench-2 trajectories using a Qwen3.5-35B-A3B backbone. Flagged trajectories fail 94% of the time versus 46% for unflagged trajectories (47-point gap, Fisher's exact p = 0.003; 46 points after excluding three prompt-embedded examples, p = 0.006). At matched selectivity, the detector reaches 94% precision versus 88% for a lexical discourse-marker baseline; the 10-trajectory intersection of the two methods has a 100% failure rate (Clopper-Pearson 95% CI [69%, 100%]). We replicate on Gemma4-31B with 43 trajectories: the overall signal is directionally consistent but not significant (20-point gap, p = 0.31), with attenuation driven largely by 13 trajectories with zero think content, where the detector has no substrate to analyze. In the high-verbosity Gemma tertile, the gap is +30 points; in the mid- and high-verbosity Qwen tertiles, it is +40 points each. The first flag appears at a median of 83-84% of elapsed trajectory time across both models, and the binary flag survives paraphrases that soften explicit conflict markers (8/8 trajectories). Unlike univariate predictors, the detector emits interpretable span-level output -- quoted acknowledgment, quoted action, and typed conflict -- showing what the agent saw and ignored.
- Abstract(参考訳): LLMベースのコーディングエージェントは、時には自身の推論で問題を認識し、いずれにせよ前進する。
我々は、このパターンを緊張したコヒーレンスと呼んでいる: エージェントがその振る舞いを変更し、その情報を述べ、それに対してまだ行動する情報を持っている、安全関連障害モードである。
このパターンは、エージェントがタスクプロキシと基本的な目標の間の緊張を名付けるが、いずれにせよプロキシを最適化する、言語化された報酬ハックと重複する。
Qwen3.5-35B-A3Bのバックボーンを用いて44個のターミナルベンチ-2トラジェクトリ上で、動作定義、完全なトラジェクトリとフラグを網羅するクロードソネット4.6の判定器を構築する。
フラッグ付き軌道は94%の時間と46%の時間で失敗する(47点差、フィッシャーの正確な p = 0.003; 46点)。
一致した選択度では、検出器は94%の精度でレキシカルな談話マーカベースラインの88%に到達し、この2つの手法の10軌道交差は100%の故障率を有する(Clopper-Pearson 95% CI [69%, 100%])。
我々は Gemma4-31B 上で43の軌道を再現する: 全体信号は方向整合であるが有意ではない(20点ギャップ、p = 0.31)。
高バーブシティのGemma tertileでは、ギャップは+30点であり、中高バーブシティのQwen tertilesでは、それぞれ+40点である。
第1の旗は両モデルにまたがる軌跡時間の83~84%の中央値に現れ、第2の旗は明示的な衝突マーカー(8/8軌跡)を和らげるパラフレーズを生き残る。
単変量予測器とは異なり、検出器は解釈可能なスパンレベルの出力 -- 説明された承認、引用されたアクション、型付きコンフリクト -- を放出し、エージェントが何を見たかを示し、無視した。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - When Do LLM Agents Treat Surface Noise Differently from Semantic Noise? A 68-Cell Measurement Study with a Held-Out Trace-Level Validation [9.055086193088083]
10大言語モデルによって駆動されるチェーン・オブ・シンクとReActエージェントに経験的現象を記述した。
平均的な摂動は、同等の厳しさのプレゼンテーション摂動よりも、最終的な答えを頻繁に変更する。
論文 参考訳(メタデータ) (2026-05-25T15:57:11Z) - Reading Calibrated Uncertainty from Language Model Trajectories [46.663987199083245]
モデルの内部アクティベーションを調査する手法は、生の隠れた状態を不透明なスナップショットにフィードし、表現が形成される層回りの軌跡を暗黙的に残す。
我々は11のスケール不変な幾何学的特徴を抽出し、層ごとの更新の累積経路をトレースし、それらをスパース線形プローブに供給する。
このプローブは、最大21のAURCポイントでベースラインスケーリングを行い、選択的な棄権下でMPPより優れる。
論文 参考訳(メタデータ) (2026-05-19T19:24:29Z) - ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations [55.251494694783894]
災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
論文 参考訳(メタデータ) (2026-05-12T06:57:41Z) - Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection [0.0]
マルチターンプロンプトインジェクションは既知の攻撃経路に従う。
この攻撃経路はモデルの残差ストリームにアクティベーションレベルシグネチャを残していることを示す。
論文 参考訳(メタデータ) (2026-04-30T17:16:33Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。