論文の概要: Mat-Pref: Verifiable-Reward Training Improves Compositional Reasoning in Inorganic Materials
- arxiv url: http://arxiv.org/abs/2606.21830v1
- Date: Sat, 20 Jun 2026 01:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:52:31.594849
- Title: Mat-Pref: Verifiable-Reward Training Improves Compositional Reasoning in Inorganic Materials
- Title(参考訳): Mat-Pref: 無機材料の組成推論を改善する検証リワードトレーニング
- Authors: Sarrah R. Mikhail Leung, Taehan Kim, Jeongbin Park,
- Abstract要約: Mat-Prefは、11の無機構造体ファミリーにわたる10,837のイオン置換質問のベンチマークである。
4つのゼロショットフロンティアモデルは、すべての分割において33-54%の範囲に留まっており、スケールだけでは、このタスク要求の合成化学的理由を解決していないことを確認している。
- 参考スコア(独自算出の注目度): 2.102846336724103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has driven rapid progress in mathematical and code reasoning, but when extended to science, existing benchmarks do not decompose what generalizes: do gains reflect structural transfer, property transfer, or memorization? We introduce Mat-Pref, a benchmark of 10,837 ionic-substitution questions across 11 inorganic structure families, grounded in density functional theory calculations from the Materials Project, with three evaluation splits that isolate in-distribution performance, generalization to entirely held-out structure families, and cross-property transfer: applying band-gap reasoning to hosts seen during training only through formation-energy supervision. Four zero-shot frontier models (70-671B parameters) remain in the 33-54% range on every split, confirming that scale alone does not resolve the compositional chemical reasoning this task demands. A two-stage pipeline of supervised fine-tuning followed by Group Relative Policy Optimization (GRPO) lifts Qwen3-8B to 65.2% in-distribution and 71.6% on held-out families, exceeding zero-shot Qwen3-235B by over 20 percentage points on both structural-generalization splits. Self-consistency sampling shows that the SFT policy can already produce correct answers but cannot reliably surface them as the modal response; GRPO reshapes the distribution so that correct answers become modal rather than merely reachable, and this sharper commitment is visible mechanistically: logit lens analysis reveals a ${\sim}$20pp advantage in answer crystallization at the critical decision layer. We formalize this observation as a distractor-permutation consistency metric under which GRPO narrows the gap between lenient scoring (at least one permutation correct) and strict scoring (all permutations correct) from 24.0 to 14.3 percentage points.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、数学的およびコード推論の急速な進歩をもたらしたが、科学に拡張された場合、既存のベンチマークは一般化するものを分解しない。
本研究では,11種類の無機構造体を対象とした10,837個のイオン置換質問のベンチマークであるMat-Prefを紹介する。
4つのゼロショットフロンティアモデル(70-671Bパラメータ)は、各分割ごとに33-54%の範囲に留まっており、スケールだけでは、このタスク要求の合成化学的理由を解決できないことを確認している。
監督された微調整の2段階のパイプラインに続き、グループ相対政策最適化(GRPO)はQwen3-8Bを65.2%に引き上げ、保留家族の71.6%をゼロショットのQwen3-235Bを20ポイント以上上回った。
自己整合性サンプリング(Self-Consistency sample)は、SFTポリシーが既に正しい回答を生成できるが、それらをモーダル応答として確実に表すことはできないことを示している; GRPOは、正しい回答が単に到達可能ではなく、モジュラーになるように分布を再認識し、この鋭いコミットメントは機械的に可視である:ロジットレンズ解析は、臨界決定層での回答の結晶化において${\sim}$20ppの利点を示す。
我々は、この観測を、GRPOが寛大なスコア(少なくとも1つの順応正)と厳密なスコア(全ての順応正)のギャップを24.0から14.3ポイントに狭めるような、散逸-順応整合度尺度として定式化する。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Not All Flips Are Conformity: Decomposing Stance Convergence in Multi-Agent LLM Debate [5.650336594658653]
従来の解答フリップは, 自発的不安定性, 姿勢による適合性, 推論による説得の3つのメカニズムを混同している。
我々の3ソース分解フレームワークは、制御された対策条件によってそれぞれを分離する。
論文 参考訳(メタデータ) (2026-05-30T17:41:11Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models [31.422773877490613]
推論 LLM (Reasoning LLMs) はチェーン・オブ・ソート・ジェネレーションを通じて強力な多段階推論を実現する。
RLMの大きなモデルサイズと長いデコードタイムのアウトプットは、リソース制約のある設定にデプロイするのにコストがかかり、不適当である。
我々は、構造化されたプルーニングフレームワークであるRESPを紹介し、プルーニング決定とモデルの推論力学を一致させる。
論文 参考訳(メタデータ) (2025-12-01T20:27:05Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。