論文の概要: Operadic consistency: a label-free signal for compositional reasoning failures in LLMs
- arxiv url: http://arxiv.org/abs/2606.13649v1
- Date: Thu, 11 Jun 2026 17:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.969146
- Title: Operadic consistency: a label-free signal for compositional reasoning failures in LLMs
- Title(参考訳): 操作整合性:LPMにおける合成推論障害に対するラベルフリー信号
- Authors: Nathaniel Bottman, Yinhong Liu, Kyle Richardson,
- Abstract要約: 我々は、このアイデアを操作整合性(OC)として、要求ごとの信号としてインスタンス化する。
OCは各データセットの精度と強く相関している。
モデル自身の思考連鎖から分解が抽出される5つのフロンティア思考モデルにおいて、同じ同コスト比較は正の選択的予測点推定リフトを与える。
- 参考スコア(独自算出の注目度): 11.547457355495903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting LLM reasoning failures at inference time without ground-truth labels has motivated a wide range of confidence baselines, including self-consistency, semantic entropy, and P(True), built on within-question sampling and self-evaluation. Operad theory, the formalism for systems built by iterated substitution, suggests a complementary diagnostic: a model's direct answer to a compositional query should agree with the answer it produces by composing a stated decomposition of the same query. We instantiate this idea as operadic consistency (OC), a per-question signal. Across twelve instruction-tuned LLMs (4B to 671B parameters, open-weights and closed-source) on four multi-hop QA datasets, OC is strongly correlated with accuracy on every dataset (Pearson $r \in [0.86, 0.94]$, all $p \leq 0.0004$), and is the only signal we evaluate with $r \geq 0.85$ uniformly across all four datasets. Chain-of-thought self-consistency (CoT-SC; Wang et al., 2023) matches OC on HotpotQA and DROP ($r = 0.93, 0.87$) but drops to $r \approx 0.45$ on MuSiQue and StrategyQA. At the per-question level, OC contributes information beyond CoT-SC and semantic entropy on every dataset (cluster-robust $p \leq 10^{-16}$ for the OC coefficient), and the conclusion is robust to additionally controlling for constructed decomposition-aware baselines ($p \leq 10^{-13}$). The same signal yields selective-prediction improvements (accuracy at fixed coverage) over a tuned CoT-SC baseline at the equal-cost $K = 3$ budget (AUARC lifts of +0.086 to +0.096 and AUROC lifts of +0.092 to +0.164; 95% CIs exclude zero on every cell). On five frontier thinking models, where the decomposition is extracted from the model's own chain of thought, the same equal-cost comparison gives positive selective-prediction point-estimate lift on all 16 (dataset, budget, metric) cells tested, with 95% CIs excluding zero on 12 of the 16.
- Abstract(参考訳): 地平線ラベルのない推論時間におけるLLM推論失敗の検出は, 自己整合性, セマンティックエントロピー, P(True) など, 広範囲な信頼ベースラインを動機付けている。
反復置換によって構築されたシステムのための形式主義である演算理論は、補完的な診断を示唆している: 構成的クエリに対するモデルの直接応答は、同じクエリの記述された分解を構成することで、モデルが生成する答えと一致すべきである。
私たちはこのアイデアを,要求毎の信号であるオペラティック一貫性(OC)としてインスタンス化する。
4つのマルチホップQAデータセット上での12の命令調整LDM(4Bから671Bパラメータ、オープンウェイト、クローズドソース)のうち、OCはすべてのデータセット(Pearson $r \in [0.86, 0.94]$, all $p \leq 0.0004$)の精度と強く相関しており、4つのデータセットで$r \geq 0.85$で評価した唯一の信号である。
CoT-SC, Wang et al , 2023) は OC on HotpotQA と DROP ($r = 0.93, 0.87$) にマッチするが、 MuSiQue と StrategyQA では $r \approx 0.45$ に低下する。
問合せレベルでは、OCは、すべてのデータセットにCoT-SCを超える情報と意味エントロピー(クラスタローバスの$p \leq 10^{-16}$)を提供し、その結論は、構築された分解対応ベースライン(p \leq 10^{-13}$)に対する追加制御に堅牢である。
同じ信号は、調整されたCoT-SCベースラインに対して、同じコストの$K = 3$の予算(AUARCリフトは+0.086から+0.096、AUROCリフトは+0.092から+0.164、95%CIはすべてのセルでゼロである)で選択予測の改善(固定範囲での精度)をもたらす。
モデル自身の思考連鎖から分解が抽出される5つのフロンティア思考モデルにおいて、同じコスト比較が16の細胞(データセット、予算、計量)全てに対して正の選択的予測点推定リフトを与え、16の12の細胞のうちゼロを除く95%のCIを除いた。
関連論文リスト
- Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding [4.738949927143789]
LLMエージェントシステムは、コンポーネント(計画、ツール、メモリ、自己回帰、検索)を積み重ねて構築される
We run a full factorial experiment on all 25=32 subsets of five components on HotpotQA and GSM8K with Llama-3.1-8B/70B conditions。
シングルツールエージェントのHotpotQAは、All-Inを32%上回る(F1 0.233 vs 0.177, p23)。
以上の結果から,最大装備エージェントは相互作用認識分析によりサブセット選択に置き換えるべきであることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T06:01:43Z) - Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。
クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。
我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-05T14:16:47Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。