論文の概要: Quantum-Inspired Trace-Augmented Evidence Selection for Reasoning over Structured Hypothesis Spaces
- arxiv url: http://arxiv.org/abs/2606.06941v1
- Date: Fri, 05 Jun 2026 06:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.58587
- Title: Quantum-Inspired Trace-Augmented Evidence Selection for Reasoning over Structured Hypothesis Spaces
- Title(参考訳): 構造的仮説空間上の推論のための量子インスパイアされたトレース拡張エビデンス選択
- Authors: Laura Wynter, Nirvik Sahoo, Paul Griffin,
- Abstract要約: 大規模言語モデル (LLMs) は、法律のようなエビデンスに強い専門分野において脆弱なままである。
EP-HUBOは複数のCoTトレースを小さな局所モデルで生成し、断片を仮説ごとのエビデンスプールに解析し、品質由来の重み付きプール毎の高次非制約バイナリ最適化を解決し、フロンティアモデルに1問1の偏見呼び出しを委譲する。
- 参考スコア(独自算出の注目度): 3.080533334837387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now solve a wide range of expert-level exams at or above human level, yet remain brittle on specialised, evidence-intensive domains such as law. On these tasks, errors arise not only from gaps in world knowledge but also from subtle distinctions between pieces of evidence and inconsistent use of supporting evidence. The most common aggregator over sampled chain-of-thought (CoT) traces, majority vote, returns the most popular answer regardless of whether its evidence is actually strongest. We propose to treat the selection of CoT reasoning fragments into a set of evidence as an explicit combinatorial optimisation problem, allowing well-supported but minority hypotheses to override noisy majorities, and to evaluate the approach on legal-reasoning benchmarks that are particularly sensitive to evidence quality. We introduce EP-HUBO (Evidence Pool Higher-Order Binary Optimisation), which generates multiple CoT traces with a small local model, parses fragments into per-hypothesis evidence pools, solves a higher-order unconstrained binary optimisation per pool with quality-derived weights (relevance, specificity, distinctiveness), and delegates a single adjudication call per question to a frontier model. We evaluate EP-HUBO on two evidence-intensive legal benchmarks using both simulated annealing on classical hardware and the Dirac-3 photonic entropy-quantum machine from Quantum Computing Inc. HUBO-style optimisation gives a principled way to aggregate reasoning fragments while preserving minority-but-correct hypotheses, and is most valuable in low-contamination domains where frontier models have not already absorbed the benchmark material.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在、人間レベル以上の幅広い専門家レベルの試験を解決しているが、法律のような専門化されたエビデンス集約の領域では脆弱である。
これらのタスクでは、エラーは世界の知識のギャップだけでなく、証拠の断片間の微妙な区別や、証拠の一貫性のない使用からも生じる。
サンプルチェーン・オブ・ソート(CoT)に対する最も一般的なアグリゲータは、その証拠が実際に最強かどうかに関わらず、過半数の投票で最も人気のある回答を返す。
我々は,CoT推論フラグメントの選択を明示的な組合せ最適化問題として扱うことで,ノイズの多い多数派を十分に支持するが少数派の仮説を克服し,特に証拠品質に敏感な法推論ベンチマークに対するアプローチを評価することを提案する。
EP-HUBO (Evidence Pool Higher-Order Binary Optimisation) を導入し、小さな局所モデルで複数のCoTトレースを生成し、断片を仮説ごとのエビデンスプールに解析し、高品質な重み(関連性、特異性、特異性)を持つプール毎の高次非制約バイナリ最適化を解決し、フロンティアモデルに1問ずつ1つの偏見呼び出しを委譲する。
我々は,古典ハードウェア上での擬似アニーリングと量子コンピューティングのDirac-3フォトニックエントロピー量子マシンを用いて,EP-HUBOを2つのエビデンス集約法ベンチマークで評価した。
HUBOスタイルの最適化は、少数だが正しい仮説を保ちながら推論の断片を集約する原則的な方法であり、フロンティアモデルがまだベンチマーク資料を吸収していない低汚染領域において最も有用である。
関連論文リスト
- Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization [59.20570719781289]
マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに強力な能力を示す。
既存のトレーニングベースの手法では、応答レベルの直接選好最適化(DPO)を通じて幻覚を緩和し、CoT(Chain-of-Thought)と最終回答をモノリシックな出力として扱い、協調的に最適化する。
我々は、応答生成条件としてCoTをモデル化し、異なるCoT条件下で同じ好みの回答を優先し、応答支持型推論連鎖アライメントを促進するReasoning-Conditioned Direct Preference Optimization (RC-DPO) を導出する。
論文 参考訳(メタデータ) (2026-05-27T03:27:23Z) - ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models [3.463914032107119]
グループ相対政策最適化(GRPO)は一般にすべてのトークンに対して一様でシーケンスレベルの利点を割り当てる。
本稿では,最適化の焦点を粗いシーケンスからきめ細かいトークンダイナミクスに移行するエントロピー制御ポリシ最適化(ERPO)を提案する。
論文 参考訳(メタデータ) (2026-03-30T09:20:25Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Experimental Evidence-Based Sub-Rayleigh Source Discrimination [33.683963082460515]
本研究では,相対的信念比に基づくベイズ的エビデンスに基づく推論フレームワークを提案し,空間モードデマルチプレクシング(SPADE)を用いた1点と2点の非コヒーレントな光点源の識別に応用する。
本手法は,データに含まれる情報のみに依拠し,確率モデルと事前の信念を介し,すべての仮定が入力されるという,アドホックな統計構造を回避する。
論文 参考訳(メタデータ) (2026-01-20T13:49:34Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - General bounds on the quality of Bayesian coresets [13.497835690074151]
この研究は、KL(Kulback-Leibler)上の一般上界と下界を示す。
下限は、コアセット近似の質に関する基本的な制限を得るために適用される。
上界は最近のサブサンプル最適化手法の性能解析に使用される。
論文 参考訳(メタデータ) (2024-05-20T04:46:14Z) - Fundamental Limits of Testing the Independence of Irrelevant
Alternatives in Discrete Choice [9.13127392774573]
MNL(Multinomial Logit)モデルとIIA(Independent of Irrelevant Alternatives)モデルが最も広く使われているツールである。
最低ケース誤差が低いIIAの一般的なテストは、選択問題の代替案の数で指数関数的に多くのサンプルを必要とすることを示す。
我々の下限は構造に依存しており、最適化の潜在的な原因として、特定の選択集合の集合で起こりうる違反にIIAのテストを制限すると、より悲観的でない構造に依存した下限が得られる。
論文 参考訳(メタデータ) (2020-01-20T10:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。