Fugu-MT 論文翻訳(概要): H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

論文の概要: H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

arxiv url: http://arxiv.org/abs/2606.09461v1
Date: Mon, 08 Jun 2026 13:17:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:07.084627
Title: H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions
Title（参考訳）: H2HMem:人間と人間のインタラクションにおけるエージェントのためのマルチモーダルメモリベンチマーク
Authors: Shiping Zhu, Yibo Yang, Zhengyang Wang, Tiancheng Shen, Dandan Guo, Ming-Hsuan Yang,
Abstract要約: H2HMemは、複雑な人間と人間の相互作用におけるメモリ能力を評価するための、ヒューマン・ツー・ヒューマン・マルチモーダルメモリベンチマークである。 H2HMemには、ダイアディックとマルチパーティの会話とマルチモーダルな情報ストリームが含まれており、メモリリコール、推論、アプリケーションという3つの次元に沿ってエージェントを評価する。
参考スコア（独自算出の注目度）: 60.50162125179037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model agents are increasingly deployed in human-human interaction settings, such as meeting assistants and clinical documentation systems, where they must observe conversations and retain information for downstream queries. Unlike traditional human-assistant settings, these environments are inherently multimodal, involve complex discourse phenomena such as anaphora and deixis, and contain asynchronous or conflicting information from multiple participants. However, existing memory benchmarks largely focus on single-user, text-only interactions, failing to capture these challenges. To address this gap, we introduce H2HMem, a Human-to-Human Multimodal Memory Benchmark for evaluating memory capabilities in complex human-human interactions. H2HMem includes both dyadic and multi-party conversations with multimodal information streams, and evaluates agents along three dimensions: memory recall, reasoning, and application. Experiments with advanced agents reveal substantial limitations in constructing, retaining, and utilizing memories across modalities, participants, and sessions, highlighting substantial room for improvement in next-generation LLM agents.
Abstract（参考訳）: 大規模な言語モデルエージェントは、ミーティングアシスタントや臨床ドキュメントシステムなど、人間と人間のインタラクション設定にますます多くデプロイされ、会話を観察し、下流のクエリの情報を保持する必要がある。従来のヒューマン・アシスタント・セッティングとは異なり、これらの環境は本質的にマルチモーダルであり、アナフォラやデキシスのような複雑な談話現象を伴い、複数の参加者からの非同期または矛盾する情報を含んでいる。しかし、既存のメモリベンチマークは、主にシングルユーザー、テキストのみのインタラクションに焦点を当てており、これらの課題を捉えていない。このギャップに対処するために,H2HMem,Human-to-Human Multimodal Memory Benchmarkを導入する。 H2HMemには、ダイアディックとマルチパーティの会話とマルチモーダルな情報ストリームが含まれており、メモリリコール、推論、アプリケーションという3つの次元に沿ってエージェントを評価する。先進的なエージェントを用いた実験では、モダリティ、参加者、セッションにわたる記憶の構築、保持、利用において、かなりの制限が示され、次世代のLDMエージェントの改善の余地が浮かび上がっている。

関連論文リスト

Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory [54.947805187562274]
動的時間的進化と長期コヒーレンスを示す多様な相互作用シナリオにまたがる現実的な対話を導入する。その結果得られたベンチマークは、7つの調査タイプにまたがる挑戦的な質問と回答のペアを含んでいる。現在研究されている27の重要な記憶特性のうち、少なくとも1つを同定する。
論文参考訳（メタデータ） (2026-05-29T09:51:22Z)
Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions [17.9008221917999]
POLARは、長期のユーザインタラクションに対してパーソナライズされたエンボディエージェントのための、メモリ拡張フレームワークである。実施タスクを実行するために、POLARは関連するメモリを取得して現在の要求を解釈し、タスクの実行をガイドする。提案したメモリ機構は,事前のインタラクションに蓄積した情報をより効果的に活用することにより,性能を継続的に向上することを示す。
論文参考訳（メタデータ） (2026-05-25T18:27:27Z)
EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文参考訳（メタデータ） (2026-01-07T03:14:42Z)
HiMeS: Hippocampus-inspired Memory System for Personalized AI Assistants [7.477189210398971]
短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。短期記憶と長期記憶を融合したAI補助アーキテクチャであるHiMeSを提案する。
論文参考訳（メタデータ） (2026-01-06T05:05:50Z)
Human vs. Agent in Task-Oriented Conversations [22.743152820695588]
本研究は,大規模言語モデル(LLM)を模擬したユーザとタスク指向の対話における人間ユーザとの体系的比較を行った最初の事例である。本分析により,問題解決手法における2つのユーザタイプ間の行動的差異が明らかとなった。
論文参考訳（メタデータ） (2025-09-22T11:30:39Z)
Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations [1.8896253910986929]
MeMo Corpusは参加者のメモリ保持レポートに注釈を付けた最初のデータセットである。検証された振る舞いと知覚の計測、オーディオ、ビデオ、マルチモーダルアノテーションを統合する。本稿では,知的システム開発のための対話型メモリモデリングにおける今後の研究の道を開くことを目的とする。
論文参考訳（メタデータ） (2024-09-07T16:09:36Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。