Fugu-MT 論文翻訳(概要): Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

論文の概要: Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

arxiv url: http://arxiv.org/abs/2606.10705v1
Date: Tue, 09 Jun 2026 11:08:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.459767
Title: Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication
Title（参考訳）: 半導体製造における長期制御を可能にするイベント駆動強化学習
Authors: Yavar Yeganeh, Mahsa Shekari, Nicla Frigerio, Daniele Pagano, Andrea Matta,
Abstract要約: このスケールでの多目的政策最適化のための深層強化学習フレームワークを提案する。具体的には、中核政策がシステム全体の決定を調整する中心エージェント問題として制御を定式化する。イベント駆動型時間差分法を定式化して,様々なポリシー最適化手法と統合することができる。
参考スコア（独自算出の注目度）: 1.3810107538833278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning promises to optimize sequential decisions in large-scale systems. Semiconductor manufacturing systems are stochastic and highly constrained environments where heterogeneous wafers traverse hundreds of processing steps across extensive equipment networks. These characteristics yield complex, high-dimensional decision problems with delayed feedback and long-horizon requirements, complicating production planning and control. We propose a deep reinforcement learning framework for multi-objective policy optimization at this scale. Specifically, we formulate control as a centralized-agent problem, where a core policy coordinates system-wide decisions, while system evolution is represented as an interconnected temporal process driven by discrete events. Accordingly, we develop a tailored event-driven temporal-difference formulation that remains general and can be integrated with various policy optimization methods under relevant training settings. We investigate several core model-free algorithms incorporated into this framework and evaluate their effectiveness using high-fidelity simulations of diverse, industry-real operating scenarios. Across extensive validation experiments, agents trained in both offline and online settings show significant and consistent gains in throughput and utilization. We further evaluate performance and generalization across training phases, clarifying the relative strengths of alternative reinforcement learning formulations and algorithms. Overall, the results support the scalability, generality, and transferability of the proposed framework for controlling event-driven complex adaptive systems.
Abstract（参考訳）: 強化学習は、大規模システムにおけるシーケンシャルな決定を最適化することを約束する。半導体製造システムは確率的かつ高度に制約された環境であり、異種ウェハは広範囲の機器ネットワークを横断する数百の処理ステップを横切る。これらの特徴は、遅れたフィードバックと長期要求を伴う複雑な高次元決定問題をもたらし、生産計画と制御を複雑にする。このスケールでの多目的政策最適化のための深層強化学習フレームワークを提案する。具体的には、中央集権的問題として制御を定式化し、コアポリシはシステム全体の決定をコーディネートする一方、システムの進化は離散イベントによって駆動される相互接続された時間過程として表される。そこで我々は,イベント駆動型時間差分定式を定式化して,関連するトレーニング環境下での様々なポリシー最適化手法と統合することができるようにした。本稿では,本フレームワークに組み込まれた複数のコアモデルフリーアルゴリズムについて検討し,多種多様な実運用シナリオの高忠実度シミュレーションを用いて評価する。大規模な検証実験を通じて、オフラインとオンラインの両方でトレーニングされたエージェントは、スループットと利用の大幅な向上と一貫性を示す。さらに、学習段階における性能と一般化を評価し、代替強化学習の定式化とアルゴリズムの相対的強度を明らかにする。全体としては、イベント駆動複合適応システムを制御するための提案フレームワークのスケーラビリティ、汎用性、転送性をサポートする。

関連論文リスト

AvAtar: Learning to Align via Active Optimal Transport [70.846866626571]
本稿では,AvAtarと呼ばれる最適輸送アライメントのための基本的能動アライメントフレームワークを提案する。大域的アライメント結果に対する勾配に基づく影響を測定することにより,候補の有意性を定量化する。大域的アライメント結果を有効なユーティリティ関数で符号化することにより、AvAtarはOTフレームワークの下での一般的なアライメント問題に適用できる。
論文参考訳（メタデータ） (2026-05-23T04:40:21Z)
A Systematic Post-Train Framework for Video Generation [76.26555417456773]
大規模ビデオ拡散モデルでは、高解像度でセマンティックにリッチなコンテンツを生成できることが顕著に示されている。迅速な感度、時間的不整合、禁止的推論コストといった重要な問題のために、事前訓練されたパフォーマンスと実際のデプロイメント要件の間には、大きなギャップが残っている。本研究では,事前学習されたモデルとユーザの意図を4つの相乗的段階を通して体系的に整合させる総合的なポストトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2026-04-28T09:34:51Z)
LongCat-Flash-Thinking-2601 Technical Report [134.89732115690705]
LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。 LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-01-23T13:20:09Z)
A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文参考訳（メタデータ） (2025-10-09T03:59:51Z)
Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文参考訳（メタデータ） (2025-07-24T20:32:47Z)
End-to-End Learning Framework for Solving Non-Markovian Optimal Control [13.207458293652635]
本稿では、FOLTIシステムのための革新的なシステム識別方法制御戦略を提案する。また、最初のエンドツーエンドデータ駆動学習フレームワークであるFractional-Order Learning for Optimal Control(FOLOC)も開発しています。
論文参考訳（メタデータ） (2025-02-07T04:18:56Z)
Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文参考訳（メタデータ） (2024-09-05T17:53:54Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。