論文の概要: A Comparative Study of Bayesian Contextual Bandits for Real-Time Warehouse Sorter Optimization
- arxiv url: http://arxiv.org/abs/2606.23977v1
- Date: Mon, 22 Jun 2026 22:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.696723
- Title: A Comparative Study of Bayesian Contextual Bandits for Real-Time Warehouse Sorter Optimization
- Title(参考訳): 実時間倉庫ソータ最適化のためのベイズ的文脈帯域の比較検討
- Authors: Tina Dongxu Li, Mouhacine Benosman, Ken Meszaros, Trevor Dardik,
- Abstract要約: 本研究では,高量電子商取引倉庫におけるインバウンド受信ソーダを主なユースケースとして用いた。
このリアルタイムソータディバージョン最適化の課題に対処するため、我々は3つのハイブリッド機械学習フレームワークの比較研究を行った。
以上の結果から,木に基づく報酬モデルでは予測能力は若干向上するが,BCBフレームワークは全体のパフォーマンス向上を実現し,ベースラインに対する報酬の上昇率は2.03%であった。
- 参考スコア(独自算出の注目度): 1.8807636852384417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient sorter diversion control of automated material handling systems (MHS) is critical for optimizing operational efficiency in large-scale warehouse environments. In this study, we use an inbound receiving sorter at a high-volume e-commerce warehouse as our primary use case, where the sorter diversion system relies on cost functions with static weight configurations that fail to adapt to highly dynamic system contexts, such as volume mode, congestion level, equipment physical status, and upstream/downstream dependencies. To address this real-time sorter diversion optimization challenge, we conducted a comparative study of three candidate hybrid machine learning frameworks: Linear Regression with Gradient Descent Optimization (LR+GDO), XGBoost with Bayesian Optimization (XGB+BO), and Bayesian Contextual Bandits (BCB). Model training and evaluation were enabled by leveraging a high-fidelity physics-aware emulator to overcome the cold-start problem and allow a safe transition from offline to online learning. We performed comprehensive evaluations including reward model predictive accuracy, contextual sensitivity, action distribution, and projected reward uplift. Our results demonstrate that while tree-based reward models offer slightly better predictive power, the BCB framework achieved overall higher performance with 2.03% reward uplift over the heuristic baseline. Furthermore, BCB exhibits several superior characteristics, such as its decisive time-optimal policy backed by Bang-Bang control theory, continuous online learning capability, strategic balance between exploration and exploitation, and significantly shorter inference latency. These results demonstrate the potential of the BCB framework for real-time control optimization in large-scale warehouse environments, motivating further investigation toward operational deployment.
- Abstract(参考訳): 自動材料処理システム(MHS)の効率的なソータ変換制御は,大規模倉庫環境における運用効率の最適化に重要である。
本研究では,高ボリューム電子商取引倉庫におけるインバウンド受信ソーダを主要なユースケースとして,ボリュームモード,混雑レベル,機器の物理的状態,上流/下流の依存関係など,高ダイナミックなシステムコンテキストに適応できない静的重み構成のコスト関数に依存する。
このリアルタイムソータディバージョン最適化の課題に対処するため、我々は、Linear Regression with Gradient Descent Optimization (LR+GDO)、XGBoost with Bayesian Optimization (XGB+BO)、Bayesian Contextual Bandits (BCB)の3つのハイブリッド機械学習フレームワークの比較研究を行った。
モデルトレーニングと評価は、高忠実度物理認識エミュレータを活用して、コールドスタート問題を克服し、オフラインからオンライン学習への安全な移行を可能にする。
報奨モデル予測精度,文脈感度,行動分布,予測報酬上昇などの総合評価を行った。
以上の結果から,木に基づく報酬モデルでは予測能力はわずかに向上するが,BCBフレームワークはヒューリスティックベースラインに対して2.03%の報酬向上を達成できた。
さらにBCBは,バンバン制御理論に基づく決定的時間最適政策,継続的なオンライン学習能力,探索と搾取の戦略的バランス,推論遅延の大幅な短縮など,いくつかの優れた特徴を示している。
これらの結果は、大規模倉庫環境におけるリアルタイム制御最適化のためのBCBフレームワークの可能性を示し、運用展開に向けたさらなる調査を動機付けている。
関連論文リスト
- Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization [18.398968714754474]
IB-Scoreは、ステップレベルの推論多様性と正解と共有される相互情報のトレードオフを定量化し、政策の探索・探索バランスを評価する新しい指標である。
Information Bottleneck-driven Tree-based Policy Optimization (IB-TPO)を提案する。
我々の手法はGRPOベースラインを2.9%から3.6%上回り、また他の最先端のオンラインRLアプローチよりも優れています。
論文 参考訳(メタデータ) (2026-05-27T08:01:42Z) - A Systematic Post-Train Framework for Video Generation [76.26555417456773]
大規模ビデオ拡散モデルでは、高解像度でセマンティックにリッチなコンテンツを生成できることが顕著に示されている。
迅速な感度、時間的不整合、禁止的推論コストといった重要な問題のために、事前訓練されたパフォーマンスと実際のデプロイメント要件の間には、大きなギャップが残っている。
本研究では,事前学習されたモデルとユーザの意図を4つの相乗的段階を通して体系的に整合させる総合的なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:34:51Z) - Scalable AI Inference: Performance Analysis and Optimization of AI Model Serving [0.9167082845109437]
本研究では,グラフワークス.aiと連携して開発されたスケーラブルなモデル提供のためのベントMLベースのAI推論システムの性能と最適化について検討する。
調査では、さまざまなワークロード下でのレイテンシとスループットのスケールアップ、ランタイム、サービス、デプロイメントレベルの最適化がレスポンス時間にどのように影響するか、単一ノードのK3sクラスタでのデプロイメントが障害時のレジリエンスに与える影響について検討した。
論文 参考訳(メタデータ) (2026-04-22T10:39:14Z) - VBO-MI: A Fully Gradient-Based Bayesian Optimization Framework Using Variational Mutual Information Estimation [1.0829694003408499]
VBO-MIは多変量相互情報推定の最近の進歩を生かした,完全な勾配に基づくBOフレームワークである。
提案手法は,高次元合成関数や複雑な実世界のタスクを含む,多種多様なベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2026-01-13T03:07:52Z) - Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios [4.735413508037063]
本稿では,視覚障害者の補助ナビゲーションに適した運動量制約付きハイブリッド軌道最適化フレームワーク(MHHTOF)を提案する。
残留深部強化学習(DRL)による軌道サンプリング生成、最適化、評価の統合
実験の結果,提案したLSTM-BResPPOは,PPOが要求する約半数のトレーニングにおいて,安定な政策性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2025-09-19T04:33:39Z) - LAPSO: A Unified Optimization View for Learning-Augmented Power System Operations [3.754570687412345]
本稿では,LAPSO(Learning-Augmented Power System Operations)の総合的枠組みを提案する。
LAPSOは運用段階を中心におり、時間的にサイロ化された電力系統のタスクの境界線を断ち切ることを目的としている。
学習可能なコンポーネントで既存のパワーシステム最適化モデルを自動的に拡張するために、専用のPythonパッケージ-lapsoが導入された。
論文 参考訳(メタデータ) (2025-05-08T13:00:24Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。