論文の概要: AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.14694v2
- Date: Mon, 15 Jun 2026 16:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.310231
- Title: AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
- Title(参考訳): AdaSR: 階層的相対的ポリシー最適化による適応的ストリーミング推論
- Authors: Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen,
- Abstract要約: AdaSRは適応的なストリーミング推論フレームワークで、入力ストリーミング中にモデルを推論し、ストリームが完了すると最終的な検討を行うことができる。
HRPOは、フォーマット、正確性、適応的な思考報酬を統合し、有効な推論プロトコルを適用し、最終的なタスク性能を保持し、遅延対応の計算割り当てを促進する。
実験により、AdaSRは教師付き微調整ベースラインと比較して、推論精度、計算効率、ストリーミングレイテンシのバランスが良くなった。
- 参考スコア(独自算出の注目度): 12.363024790235158
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and models must reason, update, and respond under partial observations. Recent streaming reasoning methods allow models to think while reading, but they largely rely on supervised imitation of pre-constructed trajectories, which limits their flexibility. In this paper, we propose AdaSR, an adaptive streaming reasoning framework that enables models to reason during input streaming and perform final deliberation once the stream is complete, learning when to think, and how much computation to allocate across different stages. To optimize this hierarchical reasoning process, we introduce Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming reasoning and deep reasoning phases, providing more fine-grained advantage assignment instead of uniformly distributing a single sequence-level advantage over all tokens. HRPO integrates format, accuracy, and adaptive thinking rewards to enforce valid reasoning protocols, preserve final task performance, and encourage latency-aware computation allocation. Experiments show that AdaSR achieves a better balance among reasoning accuracy, computational efficiency, and streaming latency compared with supervised fine-tuning baseline. We release our code at https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
- Abstract(参考訳): 大規模な推論モデルは、通常、読み取りの概念的なパラダイムに従い、完全な入力を観察し、静的なコンテキストを推論し、答えを生成する。
しかし、多くの実世界のシナリオは本質的に動的であり、例えばオーディオやビデオストリームでは、情報が連続的なストリームとして到着し、モデルは部分的な観察の下で推論、更新、応答をしなければならない。
近年のストリーミング推論手法では、モデルを読みながら考えることができるが、事前に構築された軌道の教師付き模倣に大きく依存しており、柔軟性が制限されている。
本稿では,AdaSRを提案する。AdaSRは,入力ストリーミング中にモデルを推論し,ストリームが完了すると最終的な検討を行い,いつ考えるべきか,どの段階にまたがってどのくらいの計算を割り当てるかを学習する,適応型ストリーミング推論フレームワークである。
この階層的推論プロセスを最適化するために、階層的相対的ポリシー最適化(HRPO)を導入し、すべてのトークンに対して単一シーケンスレベルの優位性を均一に分散する代わりに、よりきめ細やかな優位性を与える。
HRPOは、フォーマット、正確性、適応的な思考報酬を統合し、有効な推論プロトコルを適用し、最終的なタスク性能を保持し、遅延対応の計算割り当てを促進する。
実験により、AdaSRは教師付き微調整ベースラインと比較して、推論精度、計算効率、ストリーミングレイテンシのバランスが良くなった。
コードをhttps://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSRでリリースします。
関連論文リスト
- Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization [59.20570719781289]
マルチモーダル大規模推論モデルは推論パラダイムを導入し、複雑な視覚言語タスクに強力な能力を示す。
既存のトレーニングベースの手法では、応答レベルの直接選好最適化(DPO)を通じて幻覚を緩和し、CoT(Chain-of-Thought)と最終回答をモノリシックな出力として扱い、協調的に最適化する。
我々は、応答生成条件としてCoTをモデル化し、異なるCoT条件下で同じ好みの回答を優先し、応答支持型推論連鎖アライメントを促進するReasoning-Conditioned Direct Preference Optimization (RC-DPO) を導出する。
論文 参考訳(メタデータ) (2026-05-27T03:27:23Z) - StreamPro: From Reactive Perception to Proactive Decision-Making in Streaming Video [53.82672457255517]
プロアクティブなストリーミングビデオ理解には、ビデオストリームを継続的に処理し、応答すべきタイミングを決定するモデルが必要である。
既存のベンチマークは、明確な証拠が現れた後にのみ応答がトリガーされる"シー・ザ・アンサー"パラダイムに大きく従っている。
StreamProは、パーセプション理解、テンポラル推論、プロアクティブエージェンシーの3つの相補的な視点からストリーミングモデルを評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T05:01:15Z) - Thinking in Streaming Video [30.61790766076081]
ThinkStreamは、Watch-Think-Speakパラダイムに基づいた、ビデオ推論をストリーミングするためのフレームワークである。
Reasoning-Compressed Streaming Memory (RCSM) は、中間的推論トレースをコンパクトなセマンティックメモリとして扱う。
複数のストリーミングビデオベンチマークの実験では、ThinkStreamが既存のオンラインビデオモデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-03-13T12:33:36Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - StreamingThinker: Large Language Models Can Think While Reading [14.54868327561777]
大規模言語モデル(LLM)は思考の連鎖(CoT)推論において顕著な能力を示した。
読みながら考えることの人間の認知に触発され,まず LLM のためのテキストテキストbfstreaming 思考パラダイムを設計する。
このパラダイムをTextitStreamingThinkerでインスタンス化します。
論文 参考訳(メタデータ) (2025-10-20T07:27:37Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。