Fugu-MT 論文翻訳(概要): Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs

論文の概要: Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs

arxiv url: http://arxiv.org/abs/2606.09038v1
Date: Mon, 08 Jun 2026 05:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.708318
Title: Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs
Title（参考訳）: パーソナライズと安全:パーソナライズされたLCMにおけるメカニズム、リスク、緩和
Authors: Yanyan Luo, Xue Han, Ruiqiao Bai, Xin Huang, Yitong Wang, Qian Hu, Qing Wang, Chunxu Zhao, Jie Liu, Cong Geng, Lehao Xing, Pengwei Hu, Junlan Feng,
Abstract要約: 大規模言語モデル(LLM)は、ユーザの好み、文脈、長期履歴に適応することで、よりパーソナライズされた対話を可能にしている。既存のレビューは、一般的にパーソナライズか安全に重点を置いており、その交差点はほとんど探索されていない。パーソナライズされたLDMの総合的、安全に配慮したレビューを初めて紹介する。
参考スコア（独自算出の注目度）: 41.73369165148906
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' preferences, contexts, and long-term histories. However, the mechanisms that enable personalization also expand the safety landscape in ways not systematically addressed by existing literature. Existing reviews typically focus either on personalization or safety, leaving their intersection largely unexplored. We present the first comprehensive, safety-aware review of personalized LLMs. We organize personalization along three dimensions-user representation, personalization paradigm, and evaluation-and introduce a unified taxonomy of safety risks. At the representation level, we analyze risks arising from diverse user representations. Across mainstream personalization paradigms, we delineate vulnerabilities inherent to prompting, retrieval augmentation, parameter fine-tuning, reinforcement learning, Mixture-of-Experts (MoE), pruning, agent frameworks, and multimodal personalization, and synthesize mitigation strategies across the model lifecycle. Beyond these fine-grained risks, we characterize paradigm-agnostic safety risks arising from personalized adaptation. We further summarize personalized datasets and evaluation methodologies. Through a case study of OpenClaw, we analyze deployment trends in personalized agent ecosystems. Our analysis reveals three structural inadequacies in existing research: safety is evaluated as user-invariant rather than relational, personalization techniques are analyzed in isolation rather than in composition, and evaluation frameworks cannot capture emergent long-term risks. By jointly examining personalized representations, personalization paradigms, safety risks, defenses, and evaluation methods, we provide a unified framework for developing safe personalized LLMs and highlight key directions for future research.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ユーザの好み、文脈、長期履歴に適応することで、よりパーソナライズされた対話を可能にしている。しかし、パーソナライズを可能にするメカニズムは、既存の文献では体系的に対処されていない方法で安全景観を拡大する。既存のレビューは、一般的にパーソナライズか安全に重点を置いており、それらの交差点はほとんど探索されていない。パーソナライズされたLDMの総合的、安全に配慮したレビューを初めて紹介する。ユーザ表現,パーソナライズパラダイム,評価の3つの側面に沿ってパーソナライズを編成し,安全リスクの統一分類を導入する。表現レベルでは,多様なユーザ表現から生じるリスクを分析する。メインストリームのパーソナライゼーションパラダイム全体では、プロンプト、検索強化、パラメータの微調整、強化学習、Mixture-of-Experts(MoE)、プルーニング、エージェントフレームワーク、マルチモーダルパーソナライゼーションに固有の脆弱性を明らかにし、モデルライフサイクル全体にわたって緩和戦略を合成する。これらの細粒度リスク以外にも、パーソナライズされた適応に起因するパラダイム非依存の安全性リスクを特徴付ける。さらに、パーソナライズされたデータセットと評価手法を要約する。 OpenClawのケーススタディを通じて、パーソナライズされたエージェントエコシステムにおけるデプロイメントトレンドを分析します。安全性はリレーショナルではなくユーザ不変性として評価され、パーソナライズ技術は構成よりも分離して分析され、評価フレームワークは創発的長期的リスクを捉えられない。パーソナライズされた表現、パーソナライズパラダイム、安全リスク、防衛、評価手法を共同で検討することにより、安全なパーソナライズされたLCMを開発するための統一的な枠組みを提供し、今後の研究の鍵となる方向性を明らかにする。

論文の概要: Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs

関連論文リスト