論文の概要: Sequential Hiring of Contingent Workers Through Learning-Based Optimization
- arxiv url: http://arxiv.org/abs/2606.18438v1
- Date: Tue, 16 Jun 2026 19:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.872902
- Title: Sequential Hiring of Contingent Workers Through Learning-Based Optimization
- Title(参考訳): 学習型最適化による派遣労働者の逐次雇用
- Authors: Chris Lee, Xiuli Chao, Izak Duenyas,
- Abstract要約: 本研究では、労働者生産と労働供給の両面で不確実性のある労働環境において、逐次的労働管理問題について検討する。
我々は,学習サイクルを通じて雇用決定を逐次行う,学習ベースの雇用政策であるDR-UCBを開発した。
それぞれのサイクルにおいて、ポリシーはリアルタイム生産データを使用して、いつ労働の変化を開始するか、どの労働者を置き換え、雇用するかを決定する。
- 参考スコア(独自算出の注目度): 0.08496348835248901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a sequential workforce management problem in a contingent labor setting with uncertainty in both worker production and labor supply. A firm seeks to maximize cumulative profit by maintaining an active team of fixed size while learning worker productivity over time. We emphasize two critical operational frictions in this problem: replacing workers is costly, and workers may not be available immediately for hiring because of, for example, prior job commitments, scheduling constraints, or onboarding procedures. Thus, hiring decisions take effect only after a random delay. We formulate this problem as a stochastic multi-play bandit with costly switching and delayed actions, and develop a learning-based hiring policy, DR-UCB (DelayedReplacement-UCB), that makes replacement and hiring decisions sequentially through learning cycles. In each cycle, the policy uses real-time production data to determine when to initiate workforce changes and which workers to replace and hire. We show that the leading-order regret of the proposed policy matches its lower bound in its dependence on the time horizon. Our numerical experiments show that DR-UCB outperforms benchmark policies.
- Abstract(参考訳): 本稿では,労働者生産と労働供給の両面において不確実性のある労働環境における逐次的労働管理問題について検討する。
企業は、時間とともに労働者の生産性を学習しながら、一定サイズのアクティブなチームを維持することで累積利益を最大化する。
我々は、この問題における2つの重要な運用上の摩擦を強調している: 労働者の交代はコストがかかり、労働者は、例えば、以前の仕事の約束、スケジューリングの制約、入社手続きのために、すぐに雇用できないかもしれない。
したがって、採用決定はランダムな遅延の後にのみ有効となる。
我々は,この問題を,コストのかかるスイッチングと遅延動作を伴う確率的マルチプレイバンディットとして定式化し,学習サイクルを通じて次々に置き換え,採用決定を行う,学習ベースの採用方針であるDR-UCB(Delayed Replacement-UCB)を開発した。
それぞれのサイクルにおいて、ポリシーはリアルタイム生産データを使用して、いつ労働の変化を開始するか、どの労働者を置き換え、雇用するかを決定する。
提案された政策の先進的な後悔は、その時間的地平線への依存の低い境界に一致することを示す。
数値実験により,DR-UCBはベンチマークポリシーより優れていることが示された。
関連論文リスト
- SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions [0.0]
本稿では,SkillChain-Gymについて紹介する。
ベンチマークには、シードコントロールされたディスラプションシナリオ、プロジェクション診断を備えた3つの実行可能性モード、決定論的リプレイ、メトリクスが含まれている。
我々は60シフト地平線上での予算変動による生産のみ, 適応性, 給水適応性, 静的保険政策の評価を行った。
論文 参考訳(メタデータ) (2026-06-15T20:16:37Z) - When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。
エージェントはいつ、いつ、いつ行動すべきか?
本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-17T15:38:50Z) - Budgeting Discretion: Theory and Evidence on Street-Level Decision-Making [10.816276884713611]
そこで本研究では,実運用制約下での意思決定の時間的制限について,基本的モデルを提案する。
我々は、オーバライドがダイナミックなしきい値ルールに従うことを示し、機会が時間と予算に依存したカットオフを超えた場合にのみ、裁量を使用する。
これらの結果から,判断は手続き的制約と福祉的改善の両面において,明確に予算化された資源として扱われることが示唆された。
論文 参考訳(メタデータ) (2026-02-10T18:02:14Z) - Two Tickets are Better than One: Fair and Accurate Hiring Under Strategic LLM Manipulations [4.536082020644864]
大規模言語モデルを用いた操作に適した戦略分類フレームワークを新たに導入する。
提案手法では,求人アルゴリズムが提案した履歴書に付加的な操作を施す。
我々は,雇用成果がグループに依存しない決定に収束し,差分アクセスによる格差を解消することを証明する。
論文 参考訳(メタデータ) (2025-02-18T19:01:04Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z) - Algorithms for Hiring and Outsourcing in the Online Labor Market [12.893230873578878]
労働者をアウトソーシングし、雇用するためのアルゴリズムを概ね提供する。
私たちはこのモデルチーム形成をアウトソーシングと呼びます。
私たちの貢献は、チームメンバを雇い、解雇し、タスクをアウトソーシングするための効率的なオンラインコスト最小化アルゴリズムです。
論文 参考訳(メタデータ) (2020-02-16T18:56:26Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。