論文の概要: WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
- arxiv url: http://arxiv.org/abs/2606.18847v1
- Date: Wed, 17 Jun 2026 09:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.086448
- Title: WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
- Title(参考訳): WorldLines: 長期にわたるステートフルなエージェントのベンチマークとモデリング
- Authors: Yehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen,
- Abstract要約: エージェントはユーザールーチン、世界状態、過去のインタラクションを記憶しなければならない。
WorldLinesは、長期住宅支援のためのプロジェクト主導のベンチマークである。
ObsMemは、可視性対応メモリを維持するオブザーバベースのメモリフレームワークである。
- 参考スコア(独自算出の注目度): 40.34620948403284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task execution without testing long-term memory use in dynamic environments. We introduce WorldLines, a project-driven benchmark for long-horizon embodied household assistance. It constructs temporally extended household traces with dialogues, actions, execution feedback, object and device state changes, and converts them into evidence-linked samples for Memory QA and Embodied Task Planning. We further propose ObsMem, an observer-grounded memory framework that maintains visibility-aware memories and action-native state trails for state-aware decisions. Experiments reveal persistent challenges in partial observability, overwritten world states, and translating long-term memory into embodied plans, while ObsMem offers a stronger reference architecture for this setting.
- Abstract(参考訳): 実家の長期にわたって人間を助けるために、エンボディエージェントはユーザールーチン、世界状態、過去のインタラクションを思い出さなければならない。
既存の長期メモリベンチマークは、言語中心の検索と質問応答を主に評価する一方、実施されたベンチマークは、動的環境での長期メモリ使用をテストすることなく、短時間のタスク実行に重点を置いていることが多い。
我々は、長期住宅支援のためのプロジェクト主導のベンチマークであるWorldLinesを紹介した。
対話、アクション、実行フィードバック、オブジェクトとデバイスの状態の変化で時間的に拡張された家庭用トレースを構築し、メモリQAとEmbodied Task Planningのためのエビデンスリンクされたサンプルに変換する。
さらに、可視性を考慮したメモリと状態認識のためのアクションネイティブなステートパスを維持するオブザーバ基底メモリフレームワークであるObsMemを提案する。
実験では、部分的な可観測性、オーバーライトされた世界状態、長期記憶を具体化された計画に変換するという永続的な課題が示され、ObsMemはこの設定に対してより強力な参照アーキテクチャを提供する。
関連論文リスト
- WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction [72.1620416874118]
マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。
既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。
マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
論文 参考訳(メタデータ) (2026-05-28T04:27:20Z) - MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios [33.8882826707344]
MemGroundは、リッチでゲーミフィケーションされたインタラクティブシナリオを基盤とした、厳格な長期メモリベンチマークである。
メモリ利用と行動軌跡の両方を包括的に定量化するために,多次元計量スイートを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:57:39Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。