論文の概要: StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling
- arxiv url: http://arxiv.org/abs/2606.15197v2
- Date: Thu, 18 Jun 2026 04:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.512413
- Title: StarOR: Synergizing Tree Search and Test-Time Reinforcement Learning for Optimization Modeling
- Title(参考訳): StarOR:最適化モデリングのための木探索とテスト時間強化学習の同期化
- Authors: Jiajun Li, Yu Ding, Shisi Guan, Ran Hou, Wanyuan Wang,
- Abstract要約: 本稿では,MCTSとTest-Time Reinforcement Learningを結合した探索適応フレームワークであるStarORを提案する。
StarORはモデリングプロセスを4段階に分解し、各非終端ノードでGRPOを介して一時的なLoRAアダプタを更新する。
5つのベンチマークで実験したところ、StarORは4Bバックボーンでも最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 13.71352763893512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization modeling is inherently hierarchical, requiring a precise sequence of symbolic commitments. Traditional learning-based automated optimization modeling methods improve modeling policies through large-scale annotated or curated training data, but are costly to adapt to new problem distributions. Meanwhile, one-shot generation remains brittle in hierarchical modeling, where early symbolic errors can propagate into invalid formulations. Test-time scaling offers a promising alternative by enabling structural exploration with additional instance-level computation; however, existing search-based methods typically rely on a fixed policy, causing repeated rollouts to inherit similar modeling biases and providing limited credit assignment for intermediate decisions. To address these limitations, we propose StarOR, a synergistic search-and-adaptation framework that couples MCTS with Test-Time Reinforcement Learning for optimization modeling. StarOR decomposes the modeling process into four stages and updates a transient LoRA adapter via GRPO at each non-terminal node. By using MCTS-generated siblings as local comparison sets, StarOR transforms search-time exploration into instance-specific policy refinement. Moreover, an unsupervised multi-faceted reward system provides fine-grained feedback for intermediate formulation decisions without ground-truth labels. Experiments across five optimization benchmarks show that StarOR achieves state-of-the-art performance even with a 4B backbone, outperforming existing methods and the frontier LLMs.
- Abstract(参考訳): 最適化モデリングは本質的に階層的であり、記号的コミットメントの正確なシーケンスを必要とする。
従来の学習に基づく自動最適化モデリング手法は、大規模アノテートまたはキュレートされたトレーニングデータを通じてモデリングポリシーを改善するが、新しい問題分布に適応するにはコストがかかる。
一方、一発生成は階層的モデリングでは不安定であり、初期の記号的誤りは無効な定式化へと伝播する。
テストタイムスケーリングは、追加のインスタンスレベルの計算で構造的な探索を可能にすることで、有望な代替手段を提供するが、既存の検索ベースのメソッドは通常、固定されたポリシーに依存し、繰り返しロールアウトが同様のモデリングバイアスを継承し、中間的な決定に対して限定的なクレジット割り当てを提供する。
本稿では,MCTS と Test-Time Reinforcement Learning を併用した最適化モデルである StarOR を提案する。
StarORはモデリングプロセスを4段階に分解し、各非終端ノードでGRPOを介して一時的なLoRAアダプタを更新する。
MCTS生成の兄弟姉妹を局所比較集合として使用することにより、StarORは検索時間探索をインスタンス固有のポリシー改善に変換する。
さらに、教師なしの多面報酬システムでは、基調ラベルを使わずに中間定式化決定に対してきめ細かいフィードバックを提供する。
5つの最適化ベンチマークで実験したところ、StarORは4Bバックボーンでも最先端のパフォーマンスを達成し、既存のメソッドやフロンティアLSMよりも優れていた。
関連論文リスト
- Efficient Test-time Inference for Generative Planning Models [2.993222488868623]
従来のOpen-Closed List (OCL) 検索の修正版は、そのような効率的な推論手順を提供する。
本アルゴリズムは,中間状態からの高速ロールアウトを行う生成モデルと,候補推論経路に優先順位をつけるモデルという,学習した2つのコンポーネントを相乗化する。
論文 参考訳(メタデータ) (2026-05-30T08:46:44Z) - Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Matching Markets Meet LLMs: Algorithmic Reasoning with Ranked Preferences [12.277072346419748]
私たちは、リソース割り当てやライドシェアリングといったアプリケーションを支える中核的なフレームワークであるマッチング市場について研究しています。
我々は、嗜好に基づく推論タスクの階層構造に基づいて、いくつかの最先端モデルを評価する。
驚くべきことに、先進的な推論を持つトップパフォーマンスモデルでさえ、大きな市場の不安定性を解決するのに苦労している。
論文 参考訳(メタデータ) (2025-06-04T21:51:15Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。