論文の概要: Offline Reinforcement Learning for Warehouse SLAM Throughput Control
- arxiv url: http://arxiv.org/abs/2606.23978v1
- Date: Mon, 22 Jun 2026 22:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.697151
- Title: Offline Reinforcement Learning for Warehouse SLAM Throughput Control
- Title(参考訳): 倉庫SLAMスループット制御のためのオフライン強化学習
- Authors: Tina Dongxu Li, Mouhacine Benosman, Rajat Kumar, Kevin Tan, Ken Meszaros, Trevor Dardik,
- Abstract要約: 倉庫環境におけるSLAMスループット制御を最適化するためのオフライン強化学習(RL)フレームワークを提案する。
我々のRLベースの制御アプローチは、ストリームスループットの安定性とフルフィルメント・アイアを適応的にバランスさせるSLAMスループット設定を動的に推奨する。
当社のフレームワークを3つの最先端のオフラインアルゴリズムでインスタンス化し、大規模な倉庫からの履歴運用ログを使用して、モデルをオフラインでトレーニングしました。
- 参考スコア(独自算出の注目度): 5.296008945250353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an offline reinforcement learning (RL) framework for optimizing SLAM throughput control in a warehouse fulfillment environment. SLAM (Scan/Label/Apply/Manifest) throughput directly influences system congestion and operational efficiency. Our RL-based control approach dynamically recommends SLAM throughput settings that adaptively balance throughput maximization with downstream stability through intelligent adjustment of throttling behavior. We include a history-informed state representation, action space abstraction for delayed-impact control, and a reward function that captures both upstream and downstream operational metrics. Our approach is algorithm-agnostic, enabling integration of multiple offline RL methods under a unified architecture. We instantiate our framework with three state-of-the-art offline RL algorithms, and trained the models offline using de-identified historical operational logs from a large-scale warehouse. Policy performance is evaluated using a comprehensive multi-method strategy. These include model-free approaches including immediate reward estimation via regression models and long-horizon Fitted Q Evaluation (FQE), as well as model-based Deep Koopman dynamics evaluation. Empirical results reveal that the CQL policy consistently outperforms alternatives, improving system health by 22.97% and reducing average throttling duration by 3.18%. These findings demonstrate the potential of offline RL for safe and scalable warehouse throughput control optimization.
- Abstract(参考訳): 倉庫フルフィルメント環境におけるSLAMスループット制御を最適化するためのオフライン強化学習(RL)フレームワークを提案する。
SLAM(Scan/Label/Apply/Manifest)スループットは、システムの混雑と運用効率に直接影響を与えます。
我々のRLベースの制御手法は、スロットリング動作のインテリジェントな調整により、スループットの最大化と下流安定性を適応的にバランスさせるSLAMスループット設定を動的に推奨する。
我々は、履歴インフォームドステート表現、遅延インパクト制御のためのアクション空間抽象化、上流と下流の両方の運用メトリクスをキャプチャする報酬関数を含む。
我々のアプローチはアルゴリズムに依存しないため、統一アーキテクチャの下で複数のオフラインRLメソッドを統合することができる。
当社のフレームワークを,最先端のオフラインRLアルゴリズム3つでインスタンス化し,大規模倉庫からの非識別履歴運用ログを使用して,モデルをオフラインでトレーニングした。
政策性能は包括的マルチメソッド戦略を用いて評価される。
これには回帰モデルによる即時報酬推定や、FQE(Long-Horizon Fitted Q Evaluation)、モデルベースのDeep Koopman動的評価などが含まれる。
実証的な結果は、CQLポリシーがオルタナティブを一貫して上回り、システムの健康を22.97%改善し、平均スロットリング期間を3.18%短縮したことを示している。
これらの結果は、安全でスケーラブルな倉庫スループット制御最適化のためのオフラインRLの可能性を示している。
関連論文リスト
- Reversal Q-Learning [57.43956630070019]
逆Q-ラーニング(Reversal Q-learning)は、事前データに基づいてフローポリシーをトレーニングする、非政治的なRLアルゴリズムである。
RQLは、最先端のフローベースオフラインRLアルゴリズムと比較して、平均的なオフラインRLパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2026-06-16T05:56:10Z) - Aligning Flow Map Policies with Optimal Q-Guidance [50.514994916864275]
フローマップポリシは、任意のサイズのジャンプを学習することで、高速なアクション生成のために設計されている。
FLOW MAP Q-GUIDANCE (FMQ) は, 批判誘導型信頼領域制約の下でオフラインフローマップポリシーを適用するのに最適な, 原則付きクローズドフォーム学習ターゲットである。
FMQは、オフラインからオフラインまでのRLにおける最先端のパフォーマンスを達成し、平均成功率に対して21.3%の相対的な改善により、以前のワンステップポリシーMVPを上回っている。
論文 参考訳(メタデータ) (2026-05-12T17:12:29Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Sample-Efficient Reinforcement Learning of Koopman eNMPC [42.72938925647165]
強化学習は、データ駆動(経済)非線形モデル予測コントローラ((e)NMPC)を、特定の制御タスクにおける最適な性能に調整するために使用することができる。
モデルに基づくRLアルゴリズムと、Koopman (e)NMPCを自動微分可能なポリシーに変換する方法を組み合わせる。
論文 参考訳(メタデータ) (2025-03-24T15:35:16Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.036739921794781]
SINDy-RLは、SINDyとDRLを組み合わせて、ダイナミックスモデル、報酬関数、制御ポリシーの効率的、解釈可能、信頼性の高い表現を作成するためのフレームワークである。
本稿では,ベンチマーク制御環境とフロー制御問題に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Symmetry reduction for deep reinforcement learning active control of
chaotic spatiotemporal dynamics [0.0]
深層強化学習(RL)は、高次元システムにおけるマクロな目的のための複雑な制御戦略を発見することができる。
本研究では,深部RL問題を対称還元空間へ移動させることにより,深部RLのナイーブ応用に内在する制約を緩和できることを示した。
我々は, 対称性を低減した深部RLは, ナイーブ深部RLよりもデータ効率が向上し, 制御ポリシの有効性が向上することを示した。
論文 参考訳(メタデータ) (2021-04-09T17:55:12Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。