論文の概要: UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
- arxiv url: http://arxiv.org/abs/2606.20559v1
- Date: Thu, 18 Jun 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.054554
- Title: UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
- Title(参考訳): UNIEGO:一貫したビデオ表現学習のためのメディエーターとしてのプロキシ
- Authors: Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan Das,
- Abstract要約: UNIEGOは、エゴ・エゴの視点、RGB、深さ、骨格のモダリティにまたがる9人の教師と4つの基礎モデルで訓練された統合型エゴセントリック・エンコーダである。
構造化されたプロキシによる知識伝達は、より豊かで差別的なエゴセントリックな表現をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 20.624929008039402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric video understanding is inherently limited by the narrow perspective of wearable cameras: a single viewpoint, a single modality, a single model cannot capture the full richness of human action. We argue that a truly expressive egocentric representation must subsume complementary knowledge across viewpoints, modalities, and foundation model representations, yet remain deployable from egocentric video alone. To this end, we introduce a hierarchical multi-teacher distillation framework that produces UNIEGO, a unified egocentric encoder trained with nine teachers spanning ego-exo viewpoints, RGB, depth, and skeleton modalities, and four foundation models. Rather than distilling directly from heterogeneous teachers whose incompatible architectures and feature geometries induce conflicting gradients, our framework interposes a layer of representation-specific Proxy models that translate diverse teacher knowledge into a homogeneous egocentric space. A second distillation stage, Selective Proxy Distillation (SPD), then adaptively selects, for each training sample, the subset of proxies that are both correct and confident, distilling exclusively from reliable supervision and suppressing erroneous signals. SPD is further stabilized by initializing UNIEGO as a learned convex combination of proxy parameters, placing the unified model in a well-conditioned region of the loss landscape before distillation begins. UNIEGO achieves state-of-the-art performance across three egocentric video understanding tasks - action recognition, video retrieval, and action segmentation on three challenging ego-exo benchmarks, outperforming naive multi-teacher distillation baselines and demonstrating that structured, proxy-mediated knowledge transfer yields richer and more discriminative egocentric representations.
- Abstract(参考訳): 単一の視点、単一のモダリティ、単一のモデルは人間の行動の完全な豊かさを捉えることができない。
我々は、真に表現力のある自我中心表現は、視点、モダリティ、基礎モデル表現の相補的な知識をサブサプリメントしなければならないが、自我中心の動画だけでは展開できないと論じる。
そこで我々は,UNIEGOを生産する階層型多教師蒸留フレームワークを導入する。UNIEGOは,エゴ・エゴの視点,RGB,深さ,骨格のモダリティ,および4つの基礎モデルにまたがる,9人の教師によって訓練された統合型エゴセントリック・エンコーダである。
非互換なアーキテクチャと特徴幾何学が相反する勾配を誘導する異種教員から直接蒸留するのではなく、我々のフレームワークは、多様な教師の知識を同種自我中心の空間に翻訳する表現特化プロキシモデルの層を介する。
第2の蒸留段階である選択プロキシ蒸留(Selective Proxy Distillation、SPD)は、各トレーニングサンプルに対して、正確かつ確実なプロキシのサブセットを適応的に選択し、信頼性の高い監視からのみ蒸留し、誤った信号を抑制する。
SPDはさらに、UNIEGOをパラメータの学習凸結合として初期化し、蒸留開始前のロスランドスケープの良条件領域に統一モデルを配置することで安定化する。
UNIEGOは、3つのエゴセントリックなビデオ理解タスク(アクション認識、ビデオ検索、アクションセグメンテーション)で最先端のパフォーマンスを達成する。
関連論文リスト
- Divide, Deliberate, Decide: A Multi-Agent Framework for Fine-Grained Egocentric Action Recognition [86.4487145812318]
エゴセントリックビデオにおけるきめ細かいアクション認識はビジョンランゲージモデルでは難しい。
完全ローカルでゼロショットのマルチエージェントフレームワークであるDivide, Deliberate, Decideを提案する。
実験により,本手法はベースライン上でのゼロショット動作認識性能を肯定的に向上することが示された。
論文 参考訳(メタデータ) (2026-06-16T07:31:27Z) - Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation [0.0]
基礎モデルは地球観測 (EO) を変えつつあるが、EOセンサーとモダリティの多様性により、単一の普遍モデルが非現実的である。
マルチスペクトル画像のための二重教育用コントラスト蒸留フレームワークを提案する。
提案手法はマルチスペクトル教師と光学的VFM教師を組み合わせることで,コヒーレントなクロスモーダル表現学習を実現する。
論文 参考訳(メタデータ) (2026-02-23T14:09:01Z) - Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。