論文の概要: User as Code: Executable Memory for Personalized Agents
- arxiv url: http://arxiv.org/abs/2606.16707v1
- Date: Mon, 15 Jun 2026 13:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.580187
- Title: User as Code: Executable Memory for Personalized Agents
- Title(参考訳): コードとしてのユーザ: パーソナライズされたエージェントのための実行可能なメモリ
- Authors: Bojie Li,
- Abstract要約: パーソナライズされたAIエージェントには、ユーザメモリ — ユーザが誰であるかの永続的なモデルが必要です。
ユーザメモリは実行可能でなければならない、と私たちは主張する。
ユーザ・アズ・コード(UaC)は,ユーザのエージェントのモデルが生きたソフトウェアプロジェクトであるパラダイムである。
- 参考スコア(独自算出の注目度): 0.3951796994513004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A personalized AI agent needs a user memory: a persistent model of who the user is, built across many conversations and consulted on each new one. Today this memory is almost always stored as unstructured text, a knowledge graph, or a flat store of facts, and consulted by retrieval -- fetching the entries most similar to the current request. Such "bag-of-facts" memory recalls individual facts well, but because storing a fact and acting on it are separate steps, it struggles to resolve contradictions, aggregate over many records, or enforce rules. We argue that user memory should instead be executable. We introduce User as Code (UaC), a paradigm in which an agent's model of a user is a living software project: typed Python objects hold the user's state and ordinary Python functions encode the rules that govern it, so representing and reasoning about the user happen in one medium an interpreter can run. The enabling mechanism is a two-phase pipeline: an append-only log that never discards a fact, periodically checkpointed into typed code. This changes what memory can do. On standard long-term conversation benchmarks, UaC matches both a full-context upper bound and the strongest prior memory systems on recall (78.8% on LOCOMO). Its advantage emerges where representation matters most. On aggregate questions over a user's history -- "how many international trips did I take last year?" -- retrieval-based memory collapses (6-43%) while UaC stays near-perfect (99%), because the answer is a one-line computation over typed state rather than a search over text. And because its rules execute deterministically whenever the state changes, UaC can surface unsolicited, safety-critical alerts -- such as a newly prescribed drug that conflicts with an allergy recorded months earlier -- a capability query-driven memory cannot provide.
- Abstract(参考訳): パーソナライズされたAIエージェントには、ユーザメモリ — ユーザが誰であるかの永続的なモデル — が必要です。
今日では、このメモリは、ほとんど常に構造化されていないテキスト、知識グラフ、あるいは事実の平らなストアとして保存され、検索によって参照される -- 現在の要求に最もよく似たエントリを取得する。
このような「バグ・オブ・ファクト」記憶は個々の事実をよく思い出させるが、事実を保存してその上に作用させることは別のステップであるため、矛盾を解消したり、多くのレコードを集約したり、規則を強制したりするのに苦労する。
ユーザメモリは実行可能でなければならない、と私たちは主張する。
タイプされたPythonオブジェクトはユーザの状態を保持し、通常のPython関数はそれを管理するルールをエンコードするので、インタプリタが実行可能な1つの媒体でユーザを表現し、推論する。
有効化メカニズムは2フェーズのパイプラインで、型付きコードに定期的にチェックポイントされた事実を決して破棄しない追加専用ログである。
これはメモリができることを変える。
標準的な長期会話ベンチマークでは、UaCはフルコンテキストの上限とリコール時の最強のメモリシステム(LOCOMOの78.8%)にマッチする。
その利点は表現が最も重要となるところに現れる。
UaCはテキストを検索するのではなく、タイプされた状態に対する1行の計算であるので、UaCはほぼ完璧(99%)である。
また、状況が変わるたびにルールが決定的に実行されるため、UaCは、数ヶ月前に記録されたアレルギーと対立する新規に処方された薬物など、無言で安全に重要な警告を発生させることができる。
関連論文リスト
- Beyond Similarity: Trustworthy Memory Search for Personal AI Agents [25.265839311088516]
個人AIエージェントにおける信頼境界としてのメモリ探索について検討する。
MemGateは、信頼性の高いメモリ検索のための軽量でデプロイ可能なメモリプラグインである。
論文 参考訳(メタデータ) (2026-06-04T11:54:29Z) - SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents [38.778004697710855]
本稿では,長期にわたるAIエージェントにおける微粒なリレーショナルメモリ識別のためのベンチマークであるSubtleMemoryを紹介する。
我々は,6つのスタンドアロンメモリシステム,ネイティブメモリモジュールを持つ2つのClawスタイルエージェント,プラグインメモリモジュールを持つ3つのClawスタイルエージェントを評価した。
論文 参考訳(メタデータ) (2026-06-04T06:43:11Z) - WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction [72.1620416874118]
マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。
既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。
マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
論文 参考訳(メタデータ) (2026-05-28T04:27:20Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents [38.52713500119118]
Memoraは、数週間から数ヶ月のユーザ会話にまたがる長期メモリベンチマークです。
ベンチマークでは、記憶、推論、レコメンデーションの3つのメモリグラウンドタスクを評価している。
FAMA(Forgetting-Aware Memory Accuracy)は、古いメモリや無効メモリへの依存を罰するメトリクスである。
論文 参考訳(メタデータ) (2026-04-21T21:31:01Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - OP-Bench: Benchmarking Over-Personalization for Memory-Augmented Personalized Conversational Agents [55.27061195244624]
オーバーパーソナライゼーションを3つのタイプに分類する。
エージェントは不要な場合でも、ユーザメモリを取得およびオーバーアタッチする傾向があります。
我々の研究は、メモリ拡張対話システムにおいて、より制御可能で適切なパーソナライズに向けた最初の一歩を踏み出した。
論文 参考訳(メタデータ) (2026-01-20T08:27:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。