論文の概要: IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents
- arxiv url: http://arxiv.org/abs/2606.11652v1
- Date: Wed, 10 Jun 2026 04:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.294556
- Title: IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents
- Title(参考訳): IAPO:小型マルチモーダルエージェントにおけるツール利用のための入力属性対応ポリシー最適化
- Authors: Yifan Yang, Zhen Zhang, Jiayi Tian, Liyan Tan, Zheng Zhang,
- Abstract要約: 本稿では,小言語モデル(SLM)におけるツールコール能力向上のための強化学習法について検討する。
入力成分間の帰属関係をより強力な教師の帰属関係と整合させることにより,マルチモーダルSLMにおけるツール利用を改善するためのRLアルゴリズムであるIAPOを提案する。
Qwen2.5-VL-3B実験の結果,提案手法は既存の視覚ツールの使用状況と比較して,6つのテストセットの平均3%の視覚的質問応答精度を向上させる。
- 参考スコア(独自算出の注目度): 12.019312046941396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates reinforcement learning (RL) methods for improving tool-calling capabilities in multimodal small language model (SLM) agents. While existing works have explored various reward designs to improve agentic tool-calling ability, these approaches face inherent limitations for SLM training, especially under multimodal scenarios. First, many existing methods evaluate tool use correctness through exact matching against certain ground-truth or predefined formats. However, this assumption is often unsuitable for multimodal tasks, where multiple tool use paths may be valid and annotated tool trajectories are typically unavailable. Second, such sparse and brittle binary rewards provide little guidance on how to improve the underlying decision process, making them particularly difficult for multimodal SLM to learn from. To address these issues, we propose Input Attribution-Aware Policy Optimization (IAPO), an RL algorithm for improving tool use in multimodal SLM by aligning the model's attribution across input components with that of a stronger teacher. Experiments on Qwen2.5-VL-3B show that the proposed method improves visual question answering accuracy by an average of 3% across six test sets compared with existing visual tool use work, by helping the model attend to the most relevant input evidence.
- Abstract(参考訳): 本稿では,マルチモーダル小言語モデル(SLM)エージェントにおけるツールコール能力向上のための強化学習手法について検討する。
既存の研究では、エージェントツール呼び出し能力を改善するための様々な報酬設計が検討されているが、これらのアプローチは、特にマルチモーダルシナリオにおいて、SLMトレーニングに固有の制限に直面している。
まず、既存の多くの手法は、特定の基礎構造や事前定義されたフォーマットとの正確なマッチングを通じて、ツール使用の正確性を評価する。
しかし、この仮定はマルチモーダルタスクには適さないことが多く、複数のツールの使用経路が有効であり、注釈付きツールの軌跡は通常利用できない。
第二に、このような疎結合で不安定なバイナリ報酬は、根底にある意思決定プロセスを改善するためのガイダンスをほとんど提供しないため、マルチモーダルSLMでは特に学習が困難である。
これらの問題に対処するために,入力属性認識ポリシー最適化 (IAPO) を提案する。このアルゴリズムは,入力コンポーネント間の帰属関係を,より強い教師の帰属関係と整合させることにより,マルチモーダルSLMにおけるツール使用率を改善するためのRLアルゴリズムである。
Qwen2.5-VL-3B実験の結果,提案手法は既存の視覚ツールの使用状況と比較して,6つのテストセットの平均3%の視覚的質問応答精度を向上させる。
関連論文リスト
- RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models [57.15854852525046]
オープンワールドマルチモーダルツール選択のための新しいフレームワークであるRaTA-Toolを紹介する。
提案手法により,MLLMはマルチモーダルクエリを構造化されたタスク記述に変換し,次に最も適切なツールを検索することができる。
タスク記述とツール選択の整合性をさらに向上するため、好みに基づく最適化段階を取り入れた。
論文 参考訳(メタデータ) (2026-04-16T12:47:09Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - PORTool: Tool-Use LLM Training with Rewarded Tree [11.154654446183455]
本稿では,ツール利用のLLMにおいて,正しい解答を得られる様々な軌跡を探索する強化学習法を提案する。
異なる軌跡をまたいだ共有ステップは同じ報酬を受け取り、同じフォークの下の異なるステップは異なる報酬を受け取る。
実験では17のツールを使用してユーザクエリに対処し、時間に敏感なトピックと時間に変化しないトピックの両方をカバーする。
論文 参考訳(メタデータ) (2025-10-29T23:28:53Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。