論文の概要: Trip+: Benchmarking Agents in Personalized Interactive Travel Planning
- arxiv url: http://arxiv.org/abs/2606.21169v1
- Date: Fri, 19 Jun 2026 07:17:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:33:14.808003
- Title: Trip+: Benchmarking Agents in Personalized Interactive Travel Planning
- Title(参考訳): Trip+:パーソナライズされた対話型旅行計画におけるベンチマークエージェント
- Authors: Junle Chen, Wei Chen, Yehong Xu, Zhengjun Huang, Yuqian Wu, Zhoujin Tian, Kai Wang, Lei Wang, Xiaofang Zhou,
- Abstract要約: 本稿ではTrip+を導入し,旅行計画におけるエージェントの能力を測定した。
旅行者のプロファイルと動的なインタラクションを考慮に入れれば、エージェントはミニレベルなイテレーションを生成して修正する必要がある。
エンド・ツー・エンドの旅行体験は、LSMベースのシミュレータを用いて評価される。
- 参考スコア(独自算出の注目度): 12.167681198611744
- License:
- Abstract: Interactive travel planning has become a popular use case for language models. Agents are deployed to manage evolving preferences and unexpected disruptions over multiple turns. Such settings require models to make complex, profile-conditioned planning decisions. However, existing benchmarks often evaluate feasibility, personalization, or interaction in relatively isolated settings. We therefore introduce Trip+ to measure the ability of agents to plan travel holistically. In Trip+, given traveler profiles and dynamic interactions, agents must generate and revise minute-level itineraries. End-to-end traveler experiences are evaluated via an LLM-based simulator, enabling the assessment of subjective metrics like fatigue. Our scenarios range from simple request resolutions to complex environment-driven replanning. We evaluate 18 LMs and find a consistent gap in experiential quality. Models favor technically feasible but exhausting itineraries that diverge sharply from profiled traveler preferences.
- Abstract(参考訳): 対話型旅行計画は言語モデルの一般的なユースケースとなっている。
エージェントは、進化する好みと予期しない複数回にわたる破壊を管理するためにデプロイされる。
このような設定では、複雑なプロファイル条件の計画決定を行うモデルが必要です。
しかし、既存のベンチマークは、比較的孤立した設定で実現可能性、パーソナライズ、または相互作用を評価することが多い。
そこで我々はTrip+を導入し,旅行計画におけるエージェントの能力を測定した。
Trip+では、旅行者のプロファイルと動的相互作用が与えられた場合、エージェントは微小レベルのイテレーションを生成し、修正する必要がある。
エンド・ツー・エンドの旅行体験は、LCMベースのシミュレータを用いて評価され、疲労などの主観的指標を評価することができる。
私たちのシナリオは、単純な要求解決から複雑な環境駆動のリプランニングまでさまざまです。
我々は18個のLMを評価し,実験品質に一貫したギャップを見いだした。
モデルは技術的には実現可能であるが、プロファイルされた旅行者の嗜好から著しく逸脱する回廊が好まれる。
関連論文リスト
- GroupTravelBench: Benchmarking LLM Agents on Multi-Person Travel Planning [21.321198339300334]
textbfGroupTravelBenchは、textbfmulti-user, multi-turn travel planningの最初のベンチマークである。
実際のユーザプロファイル、POIデータ、チケット価格データに基づいて、650のタスクを合成し、3つの難易度に分割する。
我々は広い範囲のLLMを評価し、フロンティアモデルでさえも、好みのカバレッジとグループフェアネスに重大な弱点があることを見出した。
論文 参考訳(メタデータ) (2026-05-24T17:59:58Z) - TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning [22.3041021610283]
旅行計画は、大規模言語モデル(LLM)計画とツール使用能力をテストするための自然な現実的なタスクである。
TravelBenchは、完全な現実世界の旅行計画のベンチマークである。
論文 参考訳(メタデータ) (2025-12-27T18:25:14Z) - COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization [47.26757420020116]
本稿では,現実的な旅行計画シナリオにおけるエージェントの評価を行うベンチマークを提案する。
我々は、20の国立公園の交通、宿泊、チケット販売を網羅する現実的な旅行データベースを構築している。
i) エージェントが制約を確実に満たすが、選好を最適化できない、(ii) 計画調整のギャップ、(ii) マルチサービス(フライトとホテル)の調整タスクのパフォーマンスが崩壊する、という2つの重要なギャップを明らかにする。
論文 参考訳(メタデータ) (2025-10-08T14:09:46Z) - ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning [53.065247112514534]
ATLASは、現実世界の旅行計画タスクにおける制約意識の複雑な性質を扱うために設計された汎用マルチエージェントフレームワークである。
我々はTravelPlannerベンチマークで最先端のパフォーマンスを示し、最終パスレートを23.3%から44.4%に改善した。
論文 参考訳(メタデータ) (2025-09-29T23:23:52Z) - TripTailor: A Real-World Benchmark for Personalized Travel Planning [28.965273870656446]
TripTailorは、現実世界のシナリオでパーソナライズされた旅行計画のためのベンチマークである。
このデータセットには、50,000以上の現実世界の関心点(POI)と4000近い多様な旅行イテナリーが含まれている。
旅行計画において、実現可能性、合理性、パーソナライズされたカスタマイズなど、いくつかの重要な課題を特定します。
論文 参考訳(メタデータ) (2025-08-02T16:44:02Z) - Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning [7.841787597078323]
TripCraft は LLM によるパーソナライズされた旅行計画のための,新たなベンチマークを確立している。
パラメータ情報設定は食事スケジューリングを著しく向上させ、7日間のシナリオでは時間的食事スコアが61%から80%に向上する。
論文 参考訳(メタデータ) (2025-02-27T20:33:28Z) - ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning [38.44879526364259]
emph ChinaTravelは、中国旅行の真の要件に基づいた初のオープンエンドベンチマークです。
本研究では,拡張性評価,実現可能性,制約満足度,嗜好比較を網羅する,構成的に一般化可能なドメイン固有言語を設計する。
経験的研究により、旅行計画における神経象徴的エージェントの可能性を明らかにし、人間のクエリに対する37.0%の制約満足度を達成する。
論文 参考訳(メタデータ) (2024-12-18T10:10:12Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
マルチエージェントインタラクションをキャプチャする実世界のモーションプランニングベンチマークであるnuPlanを提案する。
我々は、グラフ畳み込みニューラルネットワーク(GCNN)であるBehaviorNetを用いて、このようなユニークな振る舞いをモデル化することを学ぶ。
また、モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverについても紹介する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - TravelPlanner: A Benchmark for Real-World Planning with Language Agents [63.199454024966506]
我々は,旅行計画に焦点を当てた新しい計画ベンチマークであるTravelPlannerを提案する。
豊富なサンドボックス環境、400万近いデータレコードにアクセスするためのさまざまなツール、計画意図とリファレンスプランを慎重にキュレートした1,225のツールを提供する。
包括的評価では、現在の言語エージェントがそのような複雑な計画タスクを処理できないことが示されており、GPT-4でさえ0.6%の成功率しか達成できない。
論文 参考訳(メタデータ) (2024-02-02T18:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。