論文の概要: StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance
- arxiv url: http://arxiv.org/abs/2606.14571v1
- Date: Fri, 12 Jun 2026 15:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.966972
- Title: StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance
- Title(参考訳): StreamMemBench: エージェントメモリのストリーミング評価
- Authors: Guanming Liu, Yuqi Ren, Hansu Gu, Peng Zhang, Weihang Wang, Jiahao Liu, Ning Gu, Tun Lu,
- Abstract要約: StreamMemBenchはストリーミングベンチマークで、EgoLifeストリームからアンロックされた各エビデンスの周りに2ステップのタスクシーケンスを構築する。
証拠を診断する4つの指標は、リコール、初期証拠の使用、フィードバックの取り込み、そして後続の再利用である。
- 参考スコア(独自算出の注目度): 35.37934027048538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central role of personal-agent memory is to turn stored information and prior interactions into future-oriented assistance. In daily use, useful cues come from what the agent observes and how the user interacts with the agent, and the agent must carry them forward from the current request to similar future tasks. Existing memory benchmarks usually test dialogue recall or task improvement in isolation, leaving the trajectory from streaming observations to later assistance largely untested. We introduce StreamMemBench, a streaming benchmark that constructs a two-step task sequence around each evidence anchor from EgoLife egocentric streams. The initial task tests evidence use, while the follow-up task tests whether feedback and interaction experience are reused. Four metrics diagnose evidence recall, initial evidence use, feedback incorporation, and follow-up reuse. Experiments with eight memory systems across two backbones show that current systems often fail to use observed evidence or turn feedback into reliable follow-up behavior, even when evidence is stored or feedback is incorporated locally. StreamMemBench is publicly available at https://github.com/landian60/StreamMemBench.
- Abstract(参考訳): パーソナルエージェントメモリの中心的な役割は、記憶されている情報と事前のインタラクションを未来指向のアシストに変えることである。
日常的な使用では、エージェントが観察するものと、ユーザがエージェントとどのように相互作用するかから有用な手がかりが得られ、エージェントはそれらを現在の要求から同様の将来のタスクに転送しなければならない。
既存のメモリベンチマークは、通常、対話のリコールやタスクの改善を個別にテストし、ストリーミング観測からの軌道は後にほとんどテストされていない。
ストリーミングベンチマークであるStreamMemBenchを導入し、EgoLifeのエゴセントリックストリームからアンロックされた各エビデンスを取り巻く2ステップのタスクシーケンスを構築する。
最初のタスクテストはエビデンスを使用し、フォローアップタスクテストはフィードバックとインタラクションエクスペリエンスが再利用されているかどうかを確認します。
証拠を診断する4つの指標は、リコール、初期証拠の使用、フィードバックの取り込み、そして後続の再利用である。
2つのバックボーンをまたいだ8つのメモリシステムによる実験では、現在のシステムは観察されたエビデンスを使用していないことや、証拠が保存されたり、フィードバックがローカルに組み込まれたりしても、フィードバックを信頼できるフォローアップ行動に変えることがしばしばある。
StreamMemBenchはhttps://github.com/landian60/StreamMemBench.comで公開されている。
関連論文リスト
- AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents [30.801952443449633]
継続的な学習は、エージェントが一連のタスクに再利用可能な経験を蓄積し、時間とともに改善し、無関係な経験からの干渉を避けることを期待する。
ほとんどの取り組みは、長いコンテキストの会話やドキュメントに対する検索と推論に重点を置いているが、最近の長命適応ベンチマークは、しばしば単純なタスクストリームに依存している。
本稿では、制御されたタスクストリームと転送利得のメトリクスに着目した連続学習エージェントのための評価フレームワークAgentCLを提案する。
論文 参考訳(メタデータ) (2026-06-01T16:32:59Z) - WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction [72.1620416874118]
マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。
既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。
マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
論文 参考訳(メタデータ) (2026-05-28T04:27:20Z) - LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues [80.29362825271768]
LongMemEval-V2は、メモリシステムが、カスタマイズされた環境で知識のある同僚になるために必要な経験を得るのに役立つかどうかを評価するためのベンチマークである。
LME-V2には、Webエージェントの5つのコアメモリ能力をカバーする451の質問が含まれている。
AgentRunbook-Rは生の状態観察,イベント,戦略ノートのための知識プールを備えた,効率的なRAGベースのメモリであり,AgentRunbook-Cはトラジェクトリをファイルとして格納し,コードエージェントを起動して,拡張サンドボックスに証拠を収集する。
論文 参考訳(メタデータ) (2026-05-12T17:59:34Z) - Mem-W: Latent Memory-Native GUI Agents [50.87647372904382]
本稿では,メモリをエージェントの連続的コンテキストの一部として扱う,潜在メモリネイティブなGUIエージェントであるMem-Wを紹介する。
4つのWebおよびモバイルナビゲーションベンチマークで、Mem-Wはさまざまなバックボーンとメモリ拡張ベースラインを一貫して改善している。
論文 参考訳(メタデータ) (2026-05-10T04:31:23Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文 参考訳(メタデータ) (2026-01-13T06:22:32Z) - KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions [13.246922338917601]
我々は、長文の自伝的物語から構築された公開リリース可能なベンチマークであるBenchNameを紹介する。
BenchNameは各物語をフラッシュバック対応のタイムアンコールストリームに再構成し、エビデンスにリンクされた質問でモデルを評価する。
論文 参考訳(メタデータ) (2026-01-08T09:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。