論文の概要: AIR: Adaptive Interleaved Reasoning with Code in MLLMs
- arxiv url: http://arxiv.org/abs/2606.23678v1
- Date: Mon, 22 Jun 2026 17:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:12:18.633449
- Title: AIR: Adaptive Interleaved Reasoning with Code in MLLMs
- Title(参考訳): AIR: MLLMのコードによる適応的インターリーブ推論
- Authors: Cong Han, Xiaohan Lan, Haibo Qiu, Yujie Zhong,
- Abstract要約: マルチモーダル言語モデル(MLLM)を強化するためのコードとのインターリーブ推論は、重要な研究フロンティアとなっている。
本稿では、コード強化複素数値タスクにおける強化学習訓練により、適応的インターリーブ推論機能を有するMLLMを増強する。
実験により,グループ制約付き報酬関数を用いた強化学習の学習後,評価ベンチマークにおいて平均6.1ポイント(pp)の性能向上が示された。
- 参考スコア(独自算出の注目度): 26.910280225921934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the paradigm shift initiated by OpenAI o3, interleaved reasoning with code to enhance multimodal large language models (MLLMs) has become a pivotal research frontier. The existing literature focuses primarily on tool-use within vision-perception tasks. However, such approaches typically rely on predefined heuristics for visual manipulation and are inherently incapable of addressing numerical computation problems due to their exclusive focus on visual operations. This paper empowers MLLMs with adaptive interleaved reasoning capabilities through extended reinforcement learning training on code-augmented complex numerical computation tasks. To this end, we propose a comprehensive three-component solution consisting of: a two-stage cold-start data construction pipeline, data filtering strategies for RL dataset curation, and an adaptive tool-invocation strategy leveraging a group-constrained reward function for interleaved reasoning trajectories. Extensive experiments demonstrate that after Reinforcement Learning training with the group-constrained reward function, performance improves by an average of 6.1 percentage points (pp) on evaluation benchmarks. Specifically, the accuracy for interleaved reasoning samples increases by 9.9 pp, and the overall success rate of tool-use exceeds 95%. Our data and code are available at: https://github.com/CongHan0808/AIR.git.
- Abstract(参考訳): OpenAI o3のパラダイムシフトに続いて、マルチモーダルな大規模言語モデル(MLLM)を強化するためのコードとのインターリーブによる推論が、重要な研究フロンティアとなっている。
既存の文献は主に視覚知覚タスクにおけるツール使用に焦点を当てている。
しかし、このようなアプローチは一般的に、視覚操作に事前定義されたヒューリスティックに依存しており、視覚操作にのみ焦点をあてたため、本質的に数値計算の問題に対処することができない。
本稿では,コード拡張された複素数値計算タスクにおける強化学習トレーニングを通じて,適応的インターリーブ推論機能を備えたMLLMの強化を行う。
そこで本研究では,2段階のコールドスタートデータ構築パイプライン,RLデータセットキュレーションのためのデータフィルタリング戦略,グループ制約付き報酬関数を利用した適応的ツール起動戦略,からなる総合的な3成分ソリューションを提案する。
集団制約付き報酬関数を用いた強化学習訓練の結果,評価ベンチマークでは,平均6.1ポイント (pp) の性能が向上した。
具体的には、インターリーブされた推論サンプルの精度は9.9ppで増加し、ツールユースの全体的な成功率は95%を超えている。
私たちのデータとコードは、https://github.com/CongHan0808/AIR.git.comで利用可能です。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。