論文の概要: Hard or Just Unreached? Diagnosing the Sampling Blind Spot in Math-Reasoning Difficulty Estimation
- arxiv url: http://arxiv.org/abs/2606.19636v1
- Date: Wed, 17 Jun 2026 22:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.566524
- Title: Hard or Just Unreached? Diagnosing the Sampling Blind Spot in Math-Reasoning Difficulty Estimation
- Title(参考訳): ハードか単にアンリーチか : 数学推論の難易度推定におけるサンプリングブラインドスポットの診断
- Authors: Luca Zhou, Sajel Shah, Emanuele Rodolà, Roberto Dessì,
- Abstract要約: 数学と科学の推論のベンチマークは、サンプル鎖が金に届く割合であるpass@kに依存している。
テストした8つの自由形式の数学セルでは、6つの試行においてサンプリングシードが解けない例の10.3-22.9%が、一致した計算で6つの鎖決定論的体系によって解かれる。
- 参考スコア(独自算出の注目度): 16.012438354204864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Math and science reasoning benchmarks rely on pass@k, the fraction of sampled chains that reach gold, as the canonical per-example difficulty signal. The same signal drives RL with verifiable rewards, math data curation, synthetic curricula, and verifier training. We show this proxy has a persistent blind spot on its hardest stratum: on the eight free-form math cells we test (GSM8K and MATH across four open-weight models), 10.3-22.9% of the examples that no sampling seed solves in six tries are instead solved at matched compute by a six-chain deterministic regime. These are greedy decoding plus five cheap residual-stream perturbations applied via activation grafting, while greedy alone solves at most 6% on these math cells. Recovery scales with the additional budget, across perturbations whose mechanistic distinctness we verify across all twelve cells (cross-kind fix-set Jaccard <= 0.47 in every setup). Activation grafting is used as an intervention on internal representations, not a decoding method; we use it purely as a diagnostic and diversification tool, and our recovered items show that the pass@k= 0 % stratum is structurally identifiable in the residual stream rather than that the unmodified model reaches them under ordinary inference.
- Abstract(参考訳): 数学と科学の推論のベンチマークは、サンプル鎖が金に届く割合であるpass@kに依存している。
同じ信号は、検証可能な報酬、数学データキュレーション、合成カリキュラム、検証者トレーニングでRLを駆動する。
このプロキシは、テストした8つの自由形式の数学セル(GSM8KとMATHを4つのオープンウェイトモデルで比較した)において、最も困難な層に永続的な盲点があることを示し、サンプルシードが6回の試行で解決されない例の10.3-22.9%は、代わりに6鎖決定型で一致した計算で解かれる。
これらはgreedy decodingと、アクティベーショングラフトによって適用された5つの安価な残留流の摂動であり、greedy単独ではこれらの数学細胞で6%以上を解決している。
回復は追加の予算で規模を拡大し、その機械的差異は12の細胞にまたがって検証される(すべてのセットアップにおいて、全種類の固定セット Jaccard <= 0.47 である)。
復号法ではなく, 内部表現の介入として, 純粋に診断・多様化ツールとして使用し, 回収した項目から, 非修飾モデルが通常の推論で到達するよりも, 残流中ではpass@k=0 %層が構造的に同定可能であることが示された。
関連論文リスト
- CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis [49.596677723190886]
スケッチベースの似顔絵合成は、基本的な失敗モードに悩まされる。
アイデンティティと形状の条件は拡散モデルに組み合わされ、地味な肖像画や認識不能な歪みに対して崩壊する。
並列な未汚染拡散経路を通じてこの汚染を明示的に解消する最初の訓練不要な手法であるCaricHarmonyを提案する。
論文 参考訳(メタデータ) (2026-06-11T22:57:59Z) - MIRAGE: A Polarity-Flipping Encoding Subspace in LLM Agents [2.896184275229374]
LLMエージェントは機密データを隠蔽的に符号化する。
その結果出力は出力側検出を回避するが、基礎となる計算は行わない。
両信号を利用した2チャンネルリアルタイムモニタであるMIRAGEを構築した。
論文 参考訳(メタデータ) (2026-06-09T01:45:19Z) - Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs [52.149036302760386]
大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
近年の研究では、内部の活性化から秘密を回収する線形プローブによる検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
論文 参考訳(メタデータ) (2026-06-08T12:27:11Z) - Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations [5.218766876318545]
LLMのアクティベーションをトレーニングした線形プローブは、騙し検出指標としてますます提案されているが、AUROCは分布シフトの下で崩壊しながらクリーンなベンチマークで0.96を超えることを報告している。
本稿では, Gemma 3 モデルファミリ(1B-27B パラメータ)における圧力-プローブ-ベースの測定値について, 系統的に検討する。
1) 単線方向, (2) 多次元部分空間, (3) 凸円錐殻, (4) エントロピープロキシの4つの仮説を検証した。
論文 参考訳(メタデータ) (2026-05-27T04:51:55Z) - Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline [56.53954182896384]
大規模言語モデルのための簡単な訓練後改良アルゴリズムである自己検証蒸留を提案する。
自己検証蒸留(Self-Verified Distillation)は、未ラベルの種問に対する候補解を生成する。
プロンプトベースの自己検証を使用してフィルタリングし、結果の自己計算データセットをトレーニングする。
トレーニングデータ構築中に、より多くの候補世代をサンプリングし、より大きな検証予算を使用することで、高品質な自己計算データが得られることがわかった。
論文 参考訳(メタデータ) (2026-05-20T17:26:10Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits [6.667596224057802]
LLM残差ストリーム上のトラクタブル密度推定器として訓練された確率回路PCNETを提案する。
本手法は,実数多様体上の幾何学的異常として幻覚を検出する。
PCNETは、CoQA、SQuAD v2.0、TriviaQAのほぼ完全な幻覚検出を実現し、AUROCは99%に達する。
論文 参考訳(メタデータ) (2026-05-07T10:02:27Z) - Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair [0.5854803320592717]
教師付き損失を最小限に抑えるエンコーダはトレーニングラベルと相関する方向に沿って非ゼロ感度を保たなければならないことを示す。
これを教師付き学習の幾何学的盲点と呼んでいる。
論文 参考訳(メタデータ) (2026-04-23T08:03:33Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。