論文の概要: FactCheck: Feasibility-aware Long-term Action Anticipation with Multi-agent Collaboration
- arxiv url: http://arxiv.org/abs/2606.14778v1
- Date: Wed, 10 Jun 2026 06:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.143385
- Title: FactCheck: Feasibility-aware Long-term Action Anticipation with Multi-agent Collaboration
- Title(参考訳): FactCheck:マルチエージェントコラボレーションによる実現可能性を考慮した長期行動予測
- Authors: Rui Cao, Jiannong Cao, Bo Yuan, Zhiyuan Wen, Mingjin Zhang,
- Abstract要約: 長期的な行動予測は、部分的に観察されたビデオから、将来の動詞の行動の順序を予測することを目的としている。
本稿では,FactCheckを提案する。FactCheckは,クローズドループ "Observe-Plan-Verify" 機構によって実現可能性を向上させる新しいマルチエージェント協調フレームワークである。
本研究は,行動認識,行動予測,行動検証のループを効果的に閉鎖する,実現可能性を考慮した長期的行動予測のための新たなパラダイムを確立する。
- 参考スコア(独自算出の注目度): 29.089100270702613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term action anticipation (LTA) aims to predict an ordered sequence of future verb-noun actions from a partially observed video. While this task serves as the foundation for embodied intelligence, anticipating physically feasible long-term actions remains a critical challenge. Existing methods, which operate in an open-loop manner, often hallucinate non-existent objects, violate object affordances, or disregard object states, as they lack explicit mechanisms to verify action feasibility against the physical environment. To address this, we propose FactCheck, a novel multi-agent collaboration framework that improves feasibility through a closed-loop "Observe-Plan-Verify" mechanism. FactCheck decomposes the complex LTA task into specialized roles: an Observer that recognizes historical actions from video observations and constructs a dual-form structured memory, comprising a History Action Abstract that captures high-level human intentions and environmental status, and a History Action Graph that encodes object states and temporal dependencies; a Planner that generates draft future actions conditioned on both low-level historical actions and high-level History Action Abstract; and a Verifier that rigorously validates the draft against the History Action Graph and refines infeasible actions. Extensive experiments on the EPIC-Kitchens-55 and EGTEA Gaze+ benchmarks demonstrate that FactCheck consistently outperforms state-of-the-art methods. Our work establishes a new paradigm for feasibility-aware long-term action anticipation, effectively closing the loop of action recognition, action prediction and action verification.
- Abstract(参考訳): 長期的行動予測(LTA)は、部分的に観察されたビデオから、将来の動詞の行動の順序を予測することを目的としている。
このタスクは、インテリジェンスを具現化する基盤として機能するが、物理的に実現可能な長期的な行動を予測することは、依然として重要な課題である。
既存の手法はオープンループ方式で動作し、しばしば既存の物体を幻覚させ、物体の余裕を侵害したり、物体の状態を無視したりする。
そこで我々は,FactCheckを提案する。FactCheckは,クローズドループ "Observe-Plan-Verify" 機構によって実現可能性を向上させる新しいマルチエージェント協調フレームワークである。
FactCheckは、複雑なLTAタスクを特殊な役割に分解する: ビデオ観察から歴史的なアクションを認識し、ハイレベルな人間の意図と環境状態をキャプチャするヒストリアクション抽象(History Action Abstract)と、オブジェクトの状態と時間的依存関係を符号化するヒストリアクショングラフ(History Action Graph)、低レベルなヒストリアクションとハイレベルなヒストリアクション抽象(High-level History Action Abstract)の両方で条件付けられた将来のアクションを生成するプランナー、そして、ヒストリアクショングラフ(History Action Graph)に対するドラフトを厳格に検証し、実行不可能なアクションを洗練する検証器(Verifier)。
EPIC-Kitchens-55 と EGTEA Gaze+ ベンチマークの大規模な実験は、FactCheck が最先端の手法を一貫して上回っていることを示している。
本研究は,行動認識,行動予測,行動検証のループを効果的に閉鎖する,実現可能性を考慮した長期的行動予測のための新たなパラダイムを確立する。
関連論文リスト
- VeriSpace: Spatially Grounded Action Verification for Vision-Language-Action Models [19.75611749501909]
VLA(Vision-Ground-action)モデルは、ロボット操作に強く期待されている。
しかし、テスト時の信頼性は、ワンショットアクション予測によって制限されている。
VLAシステムにおけるテスト時動作選択のための3D対応検証器であるVeriSpaceを提案する。
論文 参考訳(メタデータ) (2026-06-09T08:31:59Z) - Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models [101.44987067974999]
Coarse-to-Controlは計画実行VLAで、アクション・ツー・ケンの領域で計画を導入する。
アクション・ツー・ケイン・プランニングは直接アクション・ジェネレーションよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2026-06-05T10:01:37Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning [97.29507133345766]
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。
様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-01-14T18:59:59Z) - BEAC: Imitating Complex Exploration and Task-oriented Behaviors for Invisible Object Nonprehensile Manipulation [9.453992660558256]
本稿では,BEAC(Belief Exploration-Action Cloning)と呼ばれる新しい模倣学習フレームワークを提案する。
提案手法は, ユーザの認知負荷を低減しつつ, タスク性能, より高いモード, 行動予測精度を達成した。
論文 参考訳(メタデータ) (2025-03-21T02:26:14Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Task and Motion Planning for Execution in the Real [24.01204729304763]
この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。
実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。
提案したフレームワークを評価するために,40の実ロボット試験とモチベーション実証を行った。
その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。
論文 参考訳(メタデータ) (2024-06-05T22:30:40Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Expected Eligibility Traces [31.942254205913798]
期待されたトレースは、現在の状態に先行する可能性のある状態やアクションを更新することを可能にする。
ブートストラップと同様のメカニズムにより,即時と期待されたトレースを円滑に補間する方法を提供する。
論文 参考訳(メタデータ) (2020-07-03T17:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。