論文の概要: Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch
- arxiv url: http://arxiv.org/abs/2606.13604v1
- Date: Thu, 11 Jun 2026 17:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.946196
- Title: Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch
- Title(参考訳): 3次元ディスパッチにおける目標重み適応のための遅延市場フィードバックからのマルチエージェント強化学習
- Authors: Haochen Wu, Yi Hou, Shiguang Xie,
- Abstract要約: 本稿では,遅延信号を用いた大規模食品配送市場において,目標重量の配分に適応する,DoorDashにおける強化学習システムを提案する。
このインターフェースは、ノイズ、遅延、結合されたフィードバックの下でのオフラインポリシー学習を可能にする。
その結果,ライブ経済とロジスティクスシステムによる世界からのフィードバックが,オンライン上での意思決定方針の適応にどのように活用できるかが示唆された。
- 参考スコア(独自算出の注目度): 8.850889334502645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dispatch in three-sided marketplaces provides a natural setting for reinforcement learning from world feedback: decisions are evaluated by delayed operational outcomes such as delivery speed, courier utilization, and merchant congestion. We present a deployed reinforcement learning system at DoorDash that adapts dispatch objective weights in a large-scale food-delivery marketplace using delayed signals. Rather than replacing the combinatorial assignment optimizer, a store-level policy learned from logged marketplace data selects a discrete multiplier that shifts the dispatch optimizer's tradeoff between delivery quality and batching efficiency. This interface enables offline policy learning under noisy, delayed, and coupled feedback while preserving production feasibility constraints and operational safeguards. We train a shared value function using centralized offline data and decentralized store-level execution, with Double Q-learning targets and a conservative regularizer to reduce out-of-distribution value overestimation. In a production switchback experiment, the offline-trained policy increases batching and reduces courier-side time costs without degrading customer-facing delivery quality. Results illustrate how world feedback from a live economic and logistics system can be used to safely adapt decision policies online.
- Abstract(参考訳): 三面市場におけるディスパッチは、世界フィードバックからの強化学習の自然な設定を提供する:意思決定は、納入速度、クーリエ利用、商店の混雑といった遅延した運用結果によって評価される。
本稿では,遅延信号を用いた大規模食品配送市場において,目標重量の配分に適応する,DoorDashにおける強化学習システムを提案する。
組合せ代入オプティマイザを置き換えるのではなく、ログされたマーケットプレースデータから学んだストアレベルのポリシは、ディスパッチオプティマイザのデリバリ品質とバッチ処理効率のトレードオフをシフトする離散乗算器を選択する。
このインターフェースは、生産可能性の制約と運用上の安全を保ちながら、ノイズ、遅延、結合されたフィードバックの下でのオフラインポリシー学習を可能にする。
我々は、集中型オフラインデータと分散型ストアレベルの実行を用いて共有値関数をトレーニングし、Double Q-learningターゲットと保守的正規化器を用いて、配布外価値過大評価を削減する。
プロダクションスイッチバック実験では、オフライントレーニングされたポリシーは、バッチ化を増大させ、顧客向けデリバリ品質を低下させることなく、クーリエ側での時間コストを低減させる。
その結果,ライブ経済とロジスティクスシステムによる世界からのフィードバックが,オンライン上での意思決定方針の適応にどのように活用できるかが示唆された。
関連論文リスト
- Self-evolving LLM agents with in-distribution Optimization [60.05867547965365]
大規模言語モデル(LLM)は最近、複雑な環境で対話的なエージェントのための強力なコントローラとして登場した。
本稿では,自動プロセス・リワードラベリングとポリシー学習を統一するLDMエージェントの自己進化フレームワークであるQ-Evolveを提案する。
我々は,AlfWorld,WebShop,ScienceWorldの手法を評価し,Q-Evolveがサンプル効率,堅牢性,全体的なタスク性能において高いベースラインを達成していることを示す。
論文 参考訳(メタデータ) (2026-06-05T15:09:52Z) - When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies [0.30458514384586394]
大規模言語モデル(LLM)は、強化学習(RL)トレーディングエージェントを改善するための連続的な数値的特徴を生成する。
我々は,凍結したLCMがステートレスな特徴抽出器として機能するモジュールパイプラインを構築し,非構造化日報を下流のPPOエージェントが消費する固定次元ベクトルに変換する。
本研究は,分散シフト下での転帰学習における課題と並行して,特徴レベルの妥当性と政策レベルの堅牢性とのギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-04-13T04:53:06Z) - OpComm: A Reinforcement Learning Framework for Adaptive Buffer Control in Warehouse Volume Forecasting [28.715625330574966]
OpCommは、教師あり学習と強化学習ベースのバッファ制御を組み合わせた予測および意思決定支援フレームワークである。
400以上のステーションで、OpCommは手動の予測よりも21.65%の重み付き絶対パーセンテージエラー(WAPE)を減らした。
論文 参考訳(メタデータ) (2025-12-17T17:21:19Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Joint Matching and Pricing for Crowd-shipping with In-store Customers [2.7950888004779064]
本稿では,集中型集客システムにおける配送クーラーとしての店内顧客の利用について検討する。
本稿では,注文の到着や群集船員の到着など,重要な不確実性を捉えるマルコフ決定プロセス(MDP)モデルを提案する。
統合されたNeurADP + DDQNポリシーは、配送コスト効率の顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-07-02T14:27:32Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning for A Meal Delivery Platform [0.0]
本研究は,食事提供プラットフォームにおけるリアルタイム注文派遣とアイドルクーリエステアリングの問題を解決することを目的としている。
強化学習(RL)に基づく戦略的二重制御フレームワークを提案する。
宅配業者間での配送効率と作業負荷分布の公平性が改善されている。
論文 参考訳(メタデータ) (2025-01-10T09:15:40Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Dynamic Attention-based Communication-Efficient Federated Learning [85.18941440826309]
フェデレートラーニング(FL)は、グローバル機械学習モデルをトレーニングするためのソリューションを提供する。
FLは、クライアントデータの分散が非IIDであるときに性能劣化に悩まされる。
本稿では,この劣化に対処するために,新しい適応トレーニングアルゴリズムであるtextttAdaFL$を提案する。
論文 参考訳(メタデータ) (2021-08-12T14:18:05Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。