論文の概要: Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs
- arxiv url: http://arxiv.org/abs/2606.09038v1
- Date: Mon, 08 Jun 2026 05:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.708318
- Title: Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs
- Title(参考訳): パーソナライズと安全:パーソナライズされたLCMにおけるメカニズム、リスク、緩和
- Authors: Yanyan Luo, Xue Han, Ruiqiao Bai, Xin Huang, Yitong Wang, Qian Hu, Qing Wang, Chunxu Zhao, Jie Liu, Cong Geng, Lehao Xing, Pengwei Hu, Junlan Feng,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザの好み、文脈、長期履歴に適応することで、よりパーソナライズされた対話を可能にしている。
既存のレビューは、一般的にパーソナライズか安全に重点を置いており、その交差点はほとんど探索されていない。
パーソナライズされたLDMの総合的、安全に配慮したレビューを初めて紹介する。
- 参考スコア(独自算出の注目度): 41.73369165148906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' preferences, contexts, and long-term histories. However, the mechanisms that enable personalization also expand the safety landscape in ways not systematically addressed by existing literature. Existing reviews typically focus either on personalization or safety, leaving their intersection largely unexplored. We present the first comprehensive, safety-aware review of personalized LLMs. We organize personalization along three dimensions-user representation, personalization paradigm, and evaluation-and introduce a unified taxonomy of safety risks. At the representation level, we analyze risks arising from diverse user representations. Across mainstream personalization paradigms, we delineate vulnerabilities inherent to prompting, retrieval augmentation, parameter fine-tuning, reinforcement learning, Mixture-of-Experts (MoE), pruning, agent frameworks, and multimodal personalization, and synthesize mitigation strategies across the model lifecycle. Beyond these fine-grained risks, we characterize paradigm-agnostic safety risks arising from personalized adaptation. We further summarize personalized datasets and evaluation methodologies. Through a case study of OpenClaw, we analyze deployment trends in personalized agent ecosystems. Our analysis reveals three structural inadequacies in existing research: safety is evaluated as user-invariant rather than relational, personalization techniques are analyzed in isolation rather than in composition, and evaluation frameworks cannot capture emergent long-term risks. By jointly examining personalized representations, personalization paradigms, safety risks, defenses, and evaluation methods, we provide a unified framework for developing safe personalized LLMs and highlight key directions for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザの好み、文脈、長期履歴に適応することで、よりパーソナライズされた対話を可能にしている。
しかし、パーソナライズを可能にするメカニズムは、既存の文献では体系的に対処されていない方法で安全景観を拡大する。
既存のレビューは、一般的にパーソナライズか安全に重点を置いており、それらの交差点はほとんど探索されていない。
パーソナライズされたLDMの総合的、安全に配慮したレビューを初めて紹介する。
ユーザ表現,パーソナライズパラダイム,評価の3つの側面に沿ってパーソナライズを編成し,安全リスクの統一分類を導入する。
表現レベルでは,多様なユーザ表現から生じるリスクを分析する。
メインストリームのパーソナライゼーションパラダイム全体では、プロンプト、検索強化、パラメータの微調整、強化学習、Mixture-of-Experts(MoE)、プルーニング、エージェントフレームワーク、マルチモーダルパーソナライゼーションに固有の脆弱性を明らかにし、モデルライフサイクル全体にわたって緩和戦略を合成する。
これらの細粒度リスク以外にも、パーソナライズされた適応に起因するパラダイム非依存の安全性リスクを特徴付ける。
さらに、パーソナライズされたデータセットと評価手法を要約する。
OpenClawのケーススタディを通じて、パーソナライズされたエージェントエコシステムにおけるデプロイメントトレンドを分析します。
安全性はリレーショナルではなくユーザ不変性として評価され、パーソナライズ技術は構成よりも分離して分析され、評価フレームワークは創発的長期的リスクを捉えられない。
パーソナライズされた表現、パーソナライズパラダイム、安全リスク、防衛、評価手法を共同で検討することにより、安全なパーソナライズされたLCMを開発するための統一的な枠組みを提供し、今後の研究の鍵となる方向性を明らかにする。
関連論文リスト
- Large Language Models Should Learn Personalized Rather Than Aggregated Human Preferences [2.276729420256043]
その結果,アグリゲーションマスクは嗜好の多様性,個人の価値観,文脈依存に関する重要な情報であることがわかった。
我々は、嗜好意識モデルを開発するための具体的な研究と政策アジェンダで締めくくる。
論文 参考訳(メタデータ) (2026-05-30T18:47:52Z) - Preference-Aware Rubric Learning for Personalized Evaluation [59.539429430690156]
既存の評価手法では、長期的なインタラクション履歴に埋め込まれたユーザ固有の嗜好をキャプチャできない。
静的判断よりも学習問題としてパーソナライズされた評価を定式化するパラダイムであるパーソナライズド・アズ・ラーニングを提案する。
実験により、PARLはユーザ対応の応答を確実に識別し、ユーザ間で一般化する高忠実なルーブリックを一貫して誘導することが示された。
論文 参考訳(メタデータ) (2026-05-29T17:00:55Z) - Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security [57.35851886874902]
エージェントAIシステムは、複雑なタスクを自律的に実行するが、その多段階の軌道には、信頼性に挑戦する新たな障害モードが導入されている。
この調査では、リスクの高いデプロイメントに不可欠な2つのコアディメンションを通じて、信頼できるエージェントAIを精査する。
各次元について、重要な概念を明確にし、エージェントワークフローに沿ってリスクが発生する場所を特定し、ステージ目標の緩和戦略を要約する。
論文 参考訳(メタデータ) (2026-05-17T10:26:37Z) - When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents [49.341830745910194]
本稿では,パーソナライズされたエージェントの安全性障害である意図的正当性を明らかにする。
我々の研究は、安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
論文 参考訳(メタデータ) (2026-01-25T15:42:01Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.181295575180293]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。
本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。
本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T10:09:16Z) - Unique Security and Privacy Threats of Large Language Models: A Comprehensive Survey [63.4581186135101]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
この調査は、潜在的な対策の概要と分析である。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。