論文の概要: Towards Fast Domain Adaptation and Fine-Grained User Simulation for Evaluating Conversational Recommender Systems
- arxiv url: http://arxiv.org/abs/2606.22803v2
- Date: Tue, 23 Jun 2026 02:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.498963
- Title: Towards Fast Domain Adaptation and Fine-Grained User Simulation for Evaluating Conversational Recommender Systems
- Title(参考訳): 会話レコメンダシステム評価のための高速ドメイン適応と微粒化ユーザシミュレーションに向けて
- Authors: Yuanzi Li, Quanyu Dai, Xueyang Feng, Zihang Tian, Junhao Wang, Xu Chen, Zhenhua Dong, Huifeng Guo,
- Abstract要約: AdaptSimは、Adaptiveドメインと自動プロンプトチューニングUser Simulatorである。
現実的な振る舞いモデリングと多様なスタイル生成を可能にして、会話レコメンダシステム(CRS)を評価するための効率的なフレームワークを提供する。
BFS(Breadth-First Search)ベースの、包括的な評価のためのターンレベルのペアワイド比較フレームワークが組み込まれている。
- 参考スコア(独自算出の注目度): 35.506748672192046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational Recommender Systems (CRSs) enhance user experience through multi-turn interactions, yet evaluating their performance remains challenging. While Large Language Model (LLM) based user simulators are effective, they suffer from three key limitations: (1) Lack of Domain Adaptability: Reliance on fixed prompts and predefined action spaces hinders transfer to novel domains; (2) Limited User Modeling: Inability to accurately replicate subtle linguistic styles and dynamic preferences; (3) Insufficient Evaluation Validity: Existing simulators fail to adequately assess fundamental capabilities and system robustness. To overcome these, we propose AdaptSim, an Adaptive domain and automatic prompt tuning User Simulator. AdaptSim offers an efficient framework for evaluating CRSs by enabling realistic behavior modeling and diverse style generation. It leverages automatic prompt generation and an open action mechanism to reduce manual effort and improve cross-domain flexibility. For response generation, we employ controlled text generation with a "think-then-respond" strategy for fine-grained control over language style. For CRS evaluation, AdaptSim incorporates a novel Breadth-First Search (BFS)-based, turn-level pairwise comparison framework for comprehensive assessment. Extensive experiments across three domains and four LLMs demonstrate that AdaptSim generates realistic dialogues, enabling a highly effective and reliable evaluation of CRS capabilities and robustness.
- Abstract(参考訳): 対話型レコメンダシステム(CRS)は,マルチターンインタラクションを通じてユーザエクスペリエンスを向上させるが,その性能評価は依然として難しい。
大規模言語モデル(LLM)ベースのユーザシミュレータは有効であるが,(1) ドメイン適応性の欠如: 固定プロンプトと事前定義されたアクション空間への信頼が,新しいドメインへの転送を妨げている; (2) 限定的ユーザモデリング: 微妙な言語的スタイルや動的嗜好を正確に再現できない; (3) 不十分な評価妥当性: 既存のシミュレータは,基本的な機能やシステムの堅牢性を適切に評価できない。
そこで本研究では,Adaptiveドメインとユーザシミュレータの自動プロンプトチューニングであるAdaptSimを提案する。
AdaptSimは、現実的な振る舞いモデリングと多様なスタイル生成を可能にすることで、CRSを評価するための効率的なフレームワークを提供する。
自動プロンプト生成とオープンアクション機構を活用して、手作業の削減とドメイン間の柔軟性の向上を実現している。
応答生成には、言語スタイルのきめ細かい制御のための「思考対応」戦略を用いた制御テキスト生成を用いる。
CRS評価のためにAdaptSimは、新しいBreadth-First Search(BFS)ベースの、総合的な評価のためのターンレベルのペアワイド比較フレームワークを組み込んでいる。
3つの領域と4つの LLM にわたる大規模な実験により、AdaptSim は現実的な対話を発生し、CRS 能力とロバストさの高度に効果的で信頼性の高い評価を可能にした。
関連論文リスト
- MUSE: Multi-Domain Chinese User Simulation via Self-Evolving Profiles and Rubric-Guided Alignment [15.586402133245313]
MUSEは、人間らしく、制御可能で、動作に一貫性のある応答を生成するために設計された中国のユーザーシミュレーションフレームワークである。
局所的な反応リアリズムと人間のような表現を改善するために,反復プロファイルの自己進化とロールリバーサル・スーパーバイザード・ファインタニングを提案する。
実験により、MUSEは発話レベルとセッションレベルの両方の評価において、強いベースラインを一貫して上回ることが示された。
論文 参考訳(メタデータ) (2026-04-15T13:01:00Z) - Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning [57.96134674544638]
本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。
本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
論文 参考訳(メタデータ) (2025-12-03T13:33:28Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Reformulating Conversational Recommender Systems as Tri-Phase Offline Policy Learning [5.453444582931813]
Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)
本稿では,Tri-Phase Offline Policy Learning-based Conversational Recommender System (TCRS)を紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:58:29Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。