論文の概要: CogniRoute: Learning to Route Social Evidence in Omni-Modal Models
- arxiv url: http://arxiv.org/abs/2606.20970v1
- Date: Thu, 18 Jun 2026 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:30:11.986833
- Title: CogniRoute: Learning to Route Social Evidence in Omni-Modal Models
- Title(参考訳): CogniRoute:Omni-Modal Modelにおける社会的エビデンスを学習する
- Authors: Yifan Shen, Pei Tian, Xinzhuo Li, Bowen Fang, Shujun Xia, Bingxuan Li, Ana Jojic, Wenming Ye, Xu Cao, James Matthew Rehg, Ismini Lourentzou,
- Abstract要約: 社会オムニ推論のためのMixture-of-ExpertsフレームワークであるCogniRouteを紹介する。
トレーニングと評価を支援するために,118K構造化トレーニング例を用いた診断ソーシャルビデオQAリソースであるOmniSocialBenchを構築した。
CogniRouteはOmniSocialBenchで平均59.38%の精度を達成し、最強のプロプライエタリベースラインを15.33ポイント、最強のオープンソースオムニベースラインを26.77ポイント改善している。
- 参考スコア(独自算出の注目度): 17.95400335206455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal models can ingest video, audio, and text, but unified access to multiple modalities does not guarantee that a model uses the right evidence. This gap is especially pronounced in social video question answering, where the answer may hinge on a gesture, vocal tone, temporal cue, or mismatch between what is said and what is visually expressed. We introduce CogniRoute, a schema-guided Mixture-of-Experts framework for social omni reasoning. CogniRoute uses a training-only cognitive schema that factorizes each example by cross-modal relation, reasoning demand, and temporal scope, and aligns global routing signatures with this structure during supervised fine-tuning. We further introduce route-aware reinforcement learning, which jointly optimizes token generation and expert allocation using rewards for answer correctness, modality-consistent reasoning, and cognitive temporal grounding. To support training and evaluation, we construct OmniSocialBench, a diagnostic social video QA resource with 118K structured training examples, grounded reasoning traces, schema labels, temporal evidence spans, and a manually verified evaluation split. CogniRoute achieves 59.38\% average accuracy on OmniSocialBench, improving over the strongest proprietary baseline by 15.33 percentage points and the strongest open-source omni baseline by 26.77 points, with the largest gains on questions requiring audio-visual coordination, conflict resolution, and temporally grounded social inference.
- Abstract(参考訳): オムニモーダルモデルはビデオ、オーディオ、テキストを取り込みうるが、複数のモダリティへの統一されたアクセスは、モデルが正しいエビデンスを使用することを保証しない。
このギャップはソーシャルビデオの質問応答において特に顕著であり、答えはジェスチャー、発声音、時間的キュー、あるいは言葉と視覚的に表現されるものの間のミスマッチにヒンジされることがある。
ソーシャルオムニ推論のためのスキーマ誘導型Mixture-of-ExpertsフレームワークであるCogniRouteを紹介する。
CogniRouteはトレーニング専用の認知スキーマを使用して、各サンプルを相互関係、要求の推論、時間的スコープによって分解し、教師付き微調整中にグローバルルーティングシグネチャとこの構造を整列する。
さらに,回答の正しさ,モダリティの整合性推論,認知的時間的根拠を用いたトークン生成とエキスパートアロケーションを共同で最適化する経路認識強化学習を導入する。
トレーニングと評価を支援するため,OmniSocialBench,118K構造化トレーニング例,根拠付き推論トレース,スキーマラベル,時間的エビデンスス,手作業による評価分割を備えたソーシャルビデオQAリソースを構築した。
CogniRouteはOmniSocialBench上で平均59.38\%の精度を達成し、最強のプロプライエタリベースラインを15.33ポイント、最強のオープンソースベースラインを26.77ポイント改善した。
関連論文リスト
- MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models [62.05118198431989]
非同期のフル音声モデルは、AI停止のフルタイムの対話性と自然な性質によって区別される。
本フレームワークは,外部情報における知識要求型対話クエリと接地応答の同定を可能にする。
本設計では,再学習を伴わないプラグ・アンド・プレイ検索手法をサポートし,アウト・オブ・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー・ツー
論文 参考訳(メタデータ) (2026-04-14T16:17:52Z) - OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering [53.30273345137238]
我々は、時間的順序付けプロキシタスクに基づいて構築された汎用的な自己教師型フレームワークであるOmniJigsawを提案する。
クロスモーダル統合を強制するために、ジョイントモダリティ統合、サンプルレベルモダリティ選択、クリップレベルモダリティマスキングが使用される。
両モードのショートカット現象'を共同モダリティ統合で明らかにし,細粒度クリップレベルのモダリティマスキングがこの問題を緩和することを示した。
論文 参考訳(メタデータ) (2026-04-09T13:09:40Z) - Odin: Multi-Signal Graph Intelligence for Autonomous Discovery in Knowledge Graphs [0.0]
我々は,有意義なパターンを自律的に発見するための,最初の生産展開型グラフインテリジェンスエンジンであるOdinを紹介する。
Odin氏は、事前の実績を維持することなく、グラフを探索する。
当社のアプローチは完全なトレーサビリティを維持しています -- 規制産業にとって重要な要件です。
論文 参考訳(メタデータ) (2026-03-03T15:34:02Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [1.5599296461516985]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。
RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。
実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文 参考訳(メタデータ) (2025-05-21T14:33:36Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Reinforcement Learning for Autonomous Driving with Latent State
Inference and Spatial-Temporal Relationships [46.965260791099986]
強化学習フレームワークにおける潜伏状態の明示的に推測と空間的時間的関係の符号化は,この課題に対処する上で有効であることを示す。
我々は、強化学習者と教師付き学習者を組み合わせた枠組みにより、他の運転者の潜伏状態に関する事前知識を符号化する。
提案手法は,最先端のベースラインアプローチと比較して,T区間のナビゲーションにおける性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-11-09T08:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。