Fugu-MT 論文翻訳(概要): Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

論文の概要: Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

arxiv url: http://arxiv.org/abs/2606.09900v1
Date: Fri, 05 Jun 2026 11:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.030656
Title: Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History
Title（参考訳）: 文脈の少ない,より正確な - リーン検索コンテキストがフルヒストリに匹敵する,LLMエージェントのための双方向メモリエンジン
Authors: Liuyin Wang,
Abstract要約: Engramは、バイテンポラルデータモデル上のデュアルプロセスメモリエンジンである。高速書き込みパスは、クリティカルパスにLSMなしでエピソードを付加する。ハイブリッドリードパスは、密度、語彙、グラフ、および電流/セイレンス信号を融合する。
参考スコア（独自算出の注目度）: 2.5401434059780468
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-term memory is the missing layer for LLM agents: across sessions they forget, and the common workaround -- replaying the whole history into the prompt -- is expensive, slow, and, as distractors accumulate, less accurate. Most memory systems win on cost or latency but still lose to the full-context baseline on accuracy, and benchmark numbers are reported on inconsistent, non-reproducible harnesses, so one system appears at wildly different scores across sources. We present Engram, an open-source, dual-process memory engine on a bi-temporal data model. A fast write path appends lossless episodes with no LLM on the critical path; an asynchronous path extracts atomic (subject, predicate, object) facts, builds a bi-temporal knowledge graph, and resolves contradictions without an LLM call per fact -- invalidating, never deleting, so every fact keeps provenance and a supersession chain. A hybrid read path fuses dense, lexical, graph, and recency/salience signals, applies a point-in-time ("as-of") filter, and assembles a compact, provenance-tagged context. On the full 500-question LongMemEval_S, graded by the official category-specific judge, Engram's lean configuration -- answering from a ~9.6k-token retrieved slice, never the full history -- scores 83.6% vs. 73.2% for full-context (+10.4 points, McNemar p < 10^-6) at ~8x fewer tokens (9.6k vs. 79k), with 0/500 errored. The gain needs a hybrid read path: facts alone lose recall, while facts plus retrieved chunks recover detail. We also contribute a neutral, in-repo evaluation harness with the official judge baked in and the full-context baseline in every table, publish the raw per-question logs, and document the measurement-integrity pitfalls (truncation, home-grown judges, full-history leaks) that silently distort memory benchmarks. Every number ships with a command to reproduce it.
Abstract（参考訳）: 長期記憶は、LLMエージェントにとって欠落するレイヤである。セッション間では、忘れられ、一般的な回避策 -- 履歴全体をプロンプトに再生する -- は、高価で、遅く、邪魔者が蓄積するにつれて、正確性が低下する。ほとんどのメモリシステムはコストやレイテンシで勝利するが、それでも精度ではフルコンテキストのベースラインに負け、ベンチマーク番号は一貫性のない再現不可能なハーネスで報告されている。本稿では,双方向データモデルに基づくオープンソースのデュアルプロセスメモリエンジンであるEngramを紹介する。非同期パスは、アトミック(オブジェクト、述語、オブジェクト)の事実を抽出し、バイテンポラルな知識グラフを構築し、実際のLSMコールなしで矛盾を解決します。ハイブリッドリードパスは、密度、語彙、グラフ、電流/セーランス信号と融合し、ポイント・イン・タイム("as-of")フィルタを適用し、コンパクトで証明タグ付きコンテキストを組み立てる。公式のカテゴリー別審査員によってランク付けされた全500問のLongMemEval_Sでは、エングラムのリーン構成 -- ~9.6kから取得したスライスから答える – 完全な歴史ではない -- は83.6%対73.2%で、全文(+10.4ポイント、マクネマール p < 10^-6)は~8倍少ないトークン(9.6k対.79k)で、0/500エラーとなる。事実だけでリコールが失われ、事実と取得されたチャンクが詳細を回復する。また、各テーブルに記入された公式の裁判官と全文のベースラインを組み込んだ中立的かつレポな評価ハーネスを提供し、生の問合せログを公開し、メモリベンチマークを静かに歪ませる計測統合の落とし穴(トランケーション、自家製の審査員、フルヒストリーリーク)を文書化する。すべての数値は、それを再現するコマンドを伴って出荷される。

関連論文リスト

Eywa: Provenance-Grounded Long-Term Memory for AI Agents [0.0]
既存のメモリシステムは、情報源の証拠、抽出された事実、検索されたコンテキスト、そして応答ポリシーを1つの不透明なプロンプトパスに分解する。私たちはEywaを紹介します。Eywaは、信念以前の証拠を中心に構築された、証明済みのメモリアーキテクチャです。
論文参考訳（メタデータ） (2026-05-29T02:56:35Z)
WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction [72.1620416874118]
マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
論文参考訳（メタデータ） (2026-05-28T04:27:20Z)
Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory [88.81430082035617]
LLMエージェントは、蓄積された対話履歴を忠実に保存し、効率的に検索し、深く推論できるメモリシステムを必要とする。本稿では,ソース識別子に固定された生の対話セグメントを含む3つの共存表現の粒度を格納するTriMemを提案する。
論文参考訳（メタデータ） (2026-05-19T15:05:06Z)
Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations [15.537674351419234]
デプロイされたエージェントに対するコンテキスト操作攻撃は、このギャップを積極的に活用する。明示的な依存性グラフを保持するランタイム検証器でそれをクローズします。継続がサポートされるかどうかを確認することは、グラフウォークに還元され、リトラクションは同じグラフを通して、サポートを失う結論を正確に宣言する。
論文参考訳（メタデータ） (2026-05-13T22:54:16Z)
MEME: Multi-entity & Evolving Memory Evaluation [76.57263966646404]
MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。 3つの記憶パラダイムにまたがる6つの記憶システムの評価。デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
論文参考訳（メタデータ） (2026-05-12T17:55:10Z)
WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems [0.0]
我々は17のRepLiQAドメイン間のコンパイルギャップを特徴付ける(6,800の質問)。本稿では,このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCERを提案する。全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。
論文参考訳（メタデータ） (2026-05-08T00:25:16Z)
WorldDB: A Vector Graph-of-Worlds Memory Engine with Ontology-Aware Write-Time Reconciliation [0.0]
WorldDBは3つのコミットメントに基づいて構築されたメモリエンジンである。 (i) 各ノードは世界であり、 (ii) ノードはコンテンツに適応し不変であり、 (iii) エッジは書き込み時プログラムである。 LongMemEval-s (500の質問、115kの会話スタック)では、応答子としてClaude Opus 4.7とWorldDBが96.40%、タスク平均精度97.11%を達成した。
論文参考訳（メタデータ） (2026-04-20T16:30:53Z)
Selective Memory for Artificial Intelligence: Write-Time Gating with Hierarchical Archiving [0.0]
パラメトリックアプローチは、選択的な更新を前に、知識を重みに圧縮する。合成サリエンススコアを用いて、入ってくる知識オブジェクトをフィルタリングする書き込み時間ゲーティングを導入する。
論文参考訳（メタデータ） (2026-03-16T23:06:44Z)
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文参考訳（メタデータ） (2025-11-26T18:55:08Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。