論文の概要: Latent Personal Memory: Represent personal memory as dynamic soft prompts
- arxiv url: http://arxiv.org/abs/2606.20911v1
- Date: Thu, 18 Jun 2026 20:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:01:40.727592
- Title: Latent Personal Memory: Represent personal memory as dynamic soft prompts
- Title(参考訳): 潜時記憶 : 動的ソフトプロンプトとしての個人記憶の表現
- Authors: Debrup Das, Avinash Amballa, Yashas Malur Saidutta, Vijay Srinivasan, Vivek Kulkarni, Srinivas Chappidi,
- Abstract要約: 我々は,N潜在スロットのコンパクトかつ永続的な行列として,ユーザ固有の履歴を表すフレームワークであるLatent Personal Memory(LPM)を提案する。
我々は,Qwen3-1.7B,4B,8BのバックボーンにまたがるPersonaMem v1およびLoCOMOベンチマークのLPMを評価する。
- 参考スコア(独自算出の注目度): 11.127821259791178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing large language models (LLMs) requires encoding long-term, user-specific behavioral patterns in a way that is computationally efficient, scalable, and compatible with a frozen base model. We present Latent Personal Memory (LPM), a scalable framework that represents user-specific history as a compact, persistent matrix of N latent slots, that are interpretable. A shared cross-attention projection network maps these slots into dynamic, input-conditioned soft prompts that are prepended to the input of a frozen LLM. We evaluate LPM on PersonaMem v1 and LoCOMO benchmarks across Qwen3-1.7B, 4B, and 8B backbones. Results demonstrate that LPM outperforms LoRA and Prompt Tuning by up to 8.8% and 54.4% in overall accuracy respectively on PersonaMem v1, while reducing KV-cache usage by over 64x. On LoCoMo, LPM matches LoRA accuracy with 120x fewer trainable parameters. We also show that the efficiency of LPM grows with context length and outperforms full-context at 128K context length.
- Abstract(参考訳): 大規模言語モデル(LLM)をパーソナライズするには、計算効率が良く、スケーラブルで、凍結ベースモデルと互換性のある、長期的なユーザ固有の行動パターンを符号化する必要がある。
我々は,N個の潜在スロットのコンパクトかつ永続的な行列としてユーザ固有の履歴を表すスケーラブルなフレームワークであるLatent Personal Memory(LPM)を提案する。
共有のクロスアテンションプロジェクションネットワークは、これらのスロットを、凍結LDMの入力に先立つ動的で入力条件のソフトプロンプトにマッピングする。
我々は,Qwen3-1.7B,4B,8BのバックボーンにまたがるPersonaMem v1およびLoCOMOベンチマークのLPMを評価する。
その結果、LPMはPersonaMem v1でそれぞれ最大8.8%と54.4%の精度でLoRAとPrompt Tuningを上回り、KV-cacheの使用を64倍に削減した。
LoCoMoでは、LPMはLoRAの精度を120倍のトレーニング可能なパラメータで一致させる。
また,LPMの効率は文脈長とともに向上し,文脈長128Kのフルコンテキストよりも優れることを示した。
関連論文リスト
- Latent-Condensed Transformer for Efficient Long Context Modeling [60.72493959155964]
大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
論文 参考訳(メタデータ) (2026-04-14T08:40:31Z) - MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents [2.541923091180284]
大規模言語モデル(LLM)エージェントはパーソナライゼーション、事実連続性、長期的推論を維持するために永続記憶を必要とする。
本稿では,短期,長期,プロファイルメモリを統合したオープンソースのメモリシステムであるMemMachineを紹介する。
MemMachineは、コンテキスト化された検索を使用して、周囲のコンテキストにマッチする核を拡大し、関連するエビデンスが複数の対話にまたがる場合のリコールを改善する。
論文 参考訳(メタデータ) (2026-04-06T16:57:06Z) - Fast-weight Product Key Memory [4.223740794663811]
スパース製品キーメモリ(PKM)を動的に「高速」エピソードメモリに変換するために,高速製品キーメモリ(FwPKM)を提案する。
実験により、FwPKMは標準モジュールのセマンティックメモリを補完する効果的なエピソードメモリとして機能することが明らかになった。
論文 参考訳(メタデータ) (2026-01-02T12:37:53Z) - MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。
MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。
Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文 参考訳(メタデータ) (2025-04-16T23:15:09Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験の結果、ChunkAttentionは最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。