論文の概要: Native Active Perception as Reasoning for Omni-Modal Understanding
- arxiv url: http://arxiv.org/abs/2606.19341v1
- Date: Wed, 17 Jun 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.308432
- Title: Native Active Perception as Reasoning for Omni-Modal Understanding
- Title(参考訳): Omni-Modal 理解のための推論としてのネイティブアクティブ・パーセプション
- Authors: Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng,
- Abstract要約: 我々は,OmniAgentをPOMDPに基づく反復的観察-判断サイクルとして定式化するために提案する。
OmniAgentはオンデマンドアクションを実行し、音声視覚キューを永続的なテキストメモリに選択的に蒸留する。
我々は,OmniAgentがオープンソースモデル間の最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 96.19360756363501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Passive models for long video understanding typically rely on a "watch-it-all" paradigm, processing frames uniformly regardless of query difficulty, causing computational cost to grow with video duration. Although interactive frameworks have emerged, they often rely on global pre-scanning, and their context cost still scales with video length. We propose OmniAgent, the first native omni-modal agent that formulates video understanding as a POMDP-based iterative Observation-Thought-Action cycle. OmniAgent executes on-demand actions to selectively distill audio-visual cues into a persistent textual memory, effectively decoupling reasoning complexity from raw video duration. To operationalize this, we introduce (1) Agentic Supervised Fine-Tuning to bootstrap native active perception via best-of-N trajectory synthesis with dual-stage quality control, and (2) Agentic Reinforcement Learning with TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), which leverages turn-level entropy to steer credit assignment toward pivotal discovery turns. Crucially, OmniAgent exhibits positive test-time scaling, where performance improves as the number of reasoning turns increases, validating the efficacy of active perception. Empirical results across ten benchmarks (e.g., VideoMME, LVBench) demonstrate that OmniAgent achieves state-of-the-art performance among open-source models. Notably, on LVBench, our 7B agent outperforms the 10$\times$ larger Qwen2.5-VL-72B (50.5% vs. 47.3%).
- Abstract(参考訳): 長いビデオ理解のためのパッシブモデルは、典型的には「すべてを見る」パラダイムに依存し、クエリの難しさに関わらずフレームを均一に処理し、ビデオの持続時間とともに計算コストが増大する。
インタラクティブなフレームワークが登場したが、多くの場合、グローバルな事前スキャンに依存しており、そのコンテキストコストはビデオの長さとともにスケールする。
OmniAgentは,POMDPをベースとした反復観察行動サイクルとしてビデオ理解を定式化するための,最初のネイティブオムニモーダルエージェントである。
OmniAgentはオンデマンドアクションを実行し、音声視覚キューを永続的なテキストメモリに選択的に蒸留し、生のビデオ時間から推論の複雑さを効果的に分離する。
そこで本研究では,(1)N軌道の最適合成によるネイティブな能動知覚をブートストラップするエージェント監視ファインタニング,(2)TAURAを用いたエージェント強化学習(Turn-aware Adaptive Uncertainty Rescaled Advantage)を紹介する。
重要なことに、OmniAgentは肯定的なテストタイムスケーリングを示し、推論の数が増えるにつれてパフォーマンスが向上し、アクティブな知覚の有効性が検証される。
10ベンチマーク(例: VideoMME, LVBench)の実証結果は,OmniAgentがオープンソースモデルで最先端のパフォーマンスを達成したことを示している。
特にLVBenchでは、我々の7Bエージェントは10$\times$より大きなQwen2.5-VL-72B(50.5%対47.3%)を上回っている。
関連論文リスト
- MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction [76.4461698685681]
Mini-o 4.5は、人間レベルのリアルタイムストリーミングインタラクションに向けた最新の取り組みです。
Omni-CPMは、オムニモードの知覚と出力を共有時間軸に沿って整列する統合ストリーミングフレームワークである。
合計9Bパラメータで、Mini-o 4.5は視力計算能力においてGemini 2.5 Flashにアプローチし、最先端のオープンな計算性能を提供する。
論文 参考訳(メタデータ) (2026-04-30T04:05:43Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - EVA: Efficient Reinforcement Learning for End-to-End Video Agent [28.603844837930225]
エンド・ツー・エンド・ビデオ・エージェントのための効率的な強化学習フレームワークであるEVAを提案する。
EVAは、何を見るか、いつ見るか、どのように見るかを自律的に決定し、クエリ駆動で効率的なビデオ理解を実現する。
論文 参考訳(メタデータ) (2026-03-24T08:06:29Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - TIR-Flow: Active Video Search and Reasoning with Frozen VLMs [13.783722086940074]
大規模ビデオ言語モデル(Video-LLM)は、認識の著しい進歩を達成しているが、その推論能力はボトルネックのままである。
TIR-Flowは受動処理からアクティブなビデオ検索と推論にパラダイムをシフトする新しいフレームワークであり、追加のデータやパラメータの更新は不要である。
論文 参考訳(メタデータ) (2026-01-07T13:54:44Z) - OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-29T17:59:05Z) - VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文 参考訳(メタデータ) (2025-09-25T12:46:46Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。