論文の概要: Breaking the Filter Bubble: A Semantic Pareto-DQN Framework for Multi-Objective Recommendation
- arxiv url: http://arxiv.org/abs/2606.24042v1
- Date: Tue, 23 Jun 2026 00:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.718865
- Title: Breaking the Filter Bubble: A Semantic Pareto-DQN Framework for Multi-Objective Recommendation
- Title(参考訳): フィルタバブルを破る:多目的レコメンデーションのための意味的パレートDQNフレームワーク
- Authors: Cláudio Lúcio Do Val Lopes, Lucca Machado da Silva, André de Oliveira Brandão,
- Abstract要約: 本稿では,多目的のマルコフ決定プロセスとして推薦を形式化する多目的強化学習フレームワークを提案する。
我々のアーキテクチャは、エンゲージメント、多様性、公平性を、静的報酬スキャラライゼーションの落とし穴を避けるために、識別できない報酬信号として扱います。
- 参考スコア(独自算出の注目度): 0.23332469289621785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recommender systems often induce filter bubbles and semantic homogenization by monolithically optimizing for immediate user engagement. Standard single-objective models, including traditional Deep Q-Networks, are ill-equipped to navigate the trade-offs between platform retention and critical societal values like information diversity and provider fairness. To address these limitations, we introduce a multi-objective reinforcement learning framework that formalizes recommendation as a semantic multi-objective Markov decision process. By integrating high-fidelity semantic embeddings with a Pareto-DQN agent, our architecture treats engagement, diversity, and fairness as distinct, non-aggregable reward signals, avoiding the pitfalls of static reward scalarization. Empirical evaluations on the MovieLens small dataset shows that our hypervolume based action selection disrupts the feedback loops responsible for semantic collapse. By sustaining high state-trajectory variance, the Pareto-DQN effectively maps the Pareto frontier, achieving gains in auxiliary societal objectives with only marginal impacts on engagement. This work provides a path toward intrinsically aligned, responsible recommender systems.
- Abstract(参考訳): レコメンダシステムは、即座にユーザエンゲージメントを最適化することで、フィルタバブルとセマンティックホモジェナイゼーションを誘導することが多い。
従来のQ-Networksを含む標準の単一オブジェクトモデルは、プラットフォームの保持と情報の多様性やプロバイダの公正性といった重要な社会的価値との間のトレードオフをナビゲートするには不十分です。
これらの制約に対処するため,多目的強化学習フレームワークを導入し,多目的マルコフ決定プロセスとしてレコメンデーションを形式化する。
高忠実なセマンティック埋め込みをPareto-DQNエージェントと統合することにより、我々のアーキテクチャはエンゲージメント、多様性、公平性を異なる非凝集性報酬信号として扱い、静的報酬スカラー化の落とし穴を避ける。
MovieLensの小さなデータセットに対する実証的な評価は、私たちのハイパーボリュームベースのアクション選択がセマンティック崩壊の原因となるフィードバックループを妨害していることを示している。
Pareto-DQNは、高い状態軌跡の分散を維持することにより、パレートフロンティアを効果的にマッピングし、エンゲージメントに限界的な影響しか与えない補助的な社会的目的において利益を達成する。
この作業は、本質的に整合した、責任あるレコメンデーションシステムへの道を提供する。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。
本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文 参考訳(メタデータ) (2025-05-17T06:09:13Z) - UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality [52.49062565901046]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値を整合させる基盤となっている。
既存のアプローチは、人間の好みの多次元、分布的なニュアンスを捉えるのに苦労している。
本稿では,これらの制約を克服する新しいフレームワークであるUtility-Conditioned Multi-Objective Alignment (UC-MOA)を紹介する。
論文 参考訳(メタデータ) (2025-03-10T09:52:42Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。