論文の概要: Divide, Deliberate, Decide: A Multi-Agent Framework for Fine-Grained Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2606.17627v1
- Date: Tue, 16 Jun 2026 07:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.33409
- Title: Divide, Deliberate, Decide: A Multi-Agent Framework for Fine-Grained Egocentric Action Recognition
- Title(参考訳): Divide, Deliberate, Decide: 細粒度エゴセントリックな行動認識のためのマルチエージェントフレームワーク
- Authors: Alessandro Sottovia, Alessandro Torcinovich, Oswald Lanz,
- Abstract要約: エゴセントリックビデオにおけるきめ細かいアクション認識はビジョンランゲージモデルでは難しい。
完全ローカルでゼロショットのマルチエージェントフレームワークであるDivide, Deliberate, Decideを提案する。
実験により,本手法はベースライン上でのゼロショット動作認識性能を肯定的に向上することが示された。
- 参考スコア(独自算出の注目度): 86.4487145812318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained action recognition in egocentric video is challenging for Vision-Language Models (VLMs): actions often differ only in small visual cues, and a single model tends to be biased toward a subset of these cues. We propose Divide, Deliberate, Decide, a fully-local, zero-shot multi-agent framework in which (i) a VLM orchestrator chunks the video and proposes a top-k candidate label list per segment, (ii) an ensemble of heterogeneous VLM specialists, drawn from different open model families, engages in a structured deliberation that includes a peer-consultation round of questions, and (iii) agent rankings are aggregated with a Borda count and the orchestrator re-ranks its own prediction in light of the specialists' evidence. The entire pipeline runs locally with no fine-tuning. Experiments show that our method positively improves zero-shot action recognition performance over the baseline, highlighting the influence of a heterogeneous deliberation step, showing that the gain stems from decorrelated model priors rather than from additional compute.
- Abstract(参考訳): ビジョン・ランゲージ・モデル(VLM: Vision-Language Models)では、細粒度なアクション認識は困難である: アクションは小さな視覚的キューでのみ異なり、単一のモデルはこれらのキューのサブセットに偏りがちである。
完全ローカルでゼロショットのマルチエージェントフレームワークであるDivide, Deliberate, Decideを提案する。
i)VLMオーケストレータがビデオをチャンクし、セグメント毎にトップk候補ラベルリストを提案する。
二 異質なVLMスペシャリストの集まりで、異なるオープンモデルファミリーから作成され、質問のピアコンスルテーションラウンドを含む構造化された審議に従事し、
三 エージェントのランキングをボルダ数で集計し、専門家の証拠に照らして、オーケストレータが自身の予測を再ランク付けする。
パイプライン全体は、微調整なしでローカルに実行される。
実験により,提案手法はベースライン上でのゼロショット動作認識性能を肯定的に向上し,不均一な検討段階の影響を強調した。
関連論文リスト
- Beyond Majority Voting: Agreement-Based Clustering to Model Annotator Perspectives in Subjective NLP Tasks [39.645768996277184]
アノテーションの分解は、NLPデータセットの開発において一般的な現象である。
本稿では,アノテータ間の不一致をモデル化するための合意に基づくクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-11T04:04:03Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。