論文の概要: Learning to Trigger: Reinforcement Learning at the Large Hadron Collider
- arxiv url: http://arxiv.org/abs/2606.23993v1
- Date: Mon, 22 Jun 2026 22:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.707209
- Title: Learning to Trigger: Reinforcement Learning at the Large Hadron Collider
- Title(参考訳): Triggerを学ぶ - 大型ハドロン衝突型加速器における強化学習
- Authors: Zixin Ding, Shaghayegh Emam, Giovanna Salvi, Cecilia Tosciri, Abhijith Gandrakota, Jennifer Ngadiuba, Nhan Tran, Christian Herwig, David W. Miller, Yuxin Chen,
- Abstract要約: Large Hadron Colliderは、帯域幅、レイテンシ、ストレージに厳しい制約の下で、リアルタイムイベントフィルタリング(textittriggering)に依存する。
オンラインしきい値調整は、シーケンシャルな意思決定問題であると考えた。
強化学習エージェントは、最近のレートと信号感度の特徴のストリーミング要約を取り込み、信号効率を最大化するためにトリガ閾値を更新する。
これは、実際の大型ハドロン衝突型加速器の衝突データに対するRLベースのトリガー制御の即時実証である。
- 参考スコア(独自算出の注目度): 8.632121079404772
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-throughput scientific facilities such as the Large Hadron Collider depend on real-time event filtering (\textit{triggering}) under tight constraints on bandwidth, latency, and storage. In practice, trigger menus are largely static and hand-tuned and can become suboptimal as detector conditions, pileup, and background composition drift over time. We cast online threshold tuning as a sequential decision-making problem: a reinforcement learning agent ingests streaming summaries of recent rates and signal-sensitive features and updates trigger thresholds to maximize signal efficiency while tracking a target background rate within a tolerance band. We adapt Group-Filtered Policy Optimization (GFPO) to streaming control and introduce two variants (GFPO-F, GFPO-FR) that enforce background rate feasibility during training. On a benchmark that emulates realistic collider operation, we study two representative triggers: a total transverse energy ($H_{T}$) trigger sensitive to pileup variation, and an anomaly-detection (AD) trigger based on reconstruction loss for rare or non-standard signatures. On Monte Carlo streams, our agent increases the fraction of in-tolerance time intervals by 48\% ($H_T$) and 28\% (AD), with a cumulative gain of up to 2\% in signal efficiency on those in-tolerance intervals. Transferring from simulation to \emph{real} collision data (CMS Run 283408), the same agent, without fine-tuning, achieves a 56\% ($H_T$) and 28\% (AD) in-tolerance improvement over baselines, with further signal-efficiency gain on both triggers. To our knowledge, this is the \emph{first} demonstration of RL-based trigger control on real Large Hadron Collider collision data. Code is available at https://github.com/Zixind/GFPO\_LHC.
- Abstract(参考訳): Large Hadron Colliderのような高スループットの科学施設は、帯域幅、レイテンシ、ストレージに厳しい制約の下でリアルタイムイベントフィルタリング(\textit{triggering})に依存している。
実際には、トリガーメニューは大部分が静的で手動で調整されており、検知条件、積み上げ、背景構成が時間とともに漂うように最適化される。
強化学習エージェントは、近年のレートと信号に敏感な特徴のストリーミングサマリーを取り込み、信号効率を最大化するために、トレランスバンド内のターゲットバックグラウンドレートを追跡しながら、トリガー閾値を更新する。
我々は,GFPO(Group-Filtered Policy Optimization)をストリーミング制御に適用し,トレーニング中のバックグラウンドレートの実現性を強制する2つの変種(GFPO-F,GFPO-FR)を導入する。
現実的なコライダー動作をエミュレートするベンチマークでは, 累積変動に敏感な全逆エネルギー(H_{T}$)トリガと, 稀なシグネチャや非標準シグネチャの再構成損失に基づく異常検出(AD)トリガの2つの代表的なトリガについて検討した。
モンテカルロ流では, 耐久時間間隔を48\%(H_T$)と28\%(AD)に増加させ, 耐久時間間隔の信号効率を最大2\%向上させた。
シミュレーションから \emph{real} 衝突データ (CMS Run 283408) に転送すると、微調整なしで56\% (H_T$) と28\% (AD) の耐震性向上が達成され、両方のトリガーの信号効率が向上する。
我々の知る限り、これは実大ハドロン衝突衝突データに対するRLに基づくトリガー制御の「emph{first}デモ」である。
コードはhttps://github.com/Zixind/GFPO\_LHCで入手できる。
関連論文リスト
- RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents [13.362388357375082]
マルチターンツール利用RLは、静的データセットにおける情報的サンプルの迅速な枯渇によってボトルネックとなる。
本稿では, RODS (Reward-driven Online Data Synthesis) を提案する。
論文 参考訳(メタデータ) (2026-06-17T13:13:32Z) - ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning [0.0]
ZAPS-DAは、無視可能なフェーズラグと後処理のないデプロイ時のアクションジッタを低減するフレームワークである。
MetaDriveでは、ZAPS-DAはステアリングジッタを14-21x、スロットルジッタを3-5x削減する。
論文 参考訳(メタデータ) (2026-05-28T22:05:08Z) - Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training [50.86545293331458]
強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
論文 参考訳(メタデータ) (2026-05-12T16:44:47Z) - TIE: Time Interval Encoding for Video Generation over Events [50.66585165263848]
ディレクタースタイルのプロンプト、ロボットアクション予測、インタラクティブなビデオエージェントは、同時イベントに対する時間的根拠を要求する。
現代のビデオジェネレータは、ポイントワイドな位置エンコーディングを通して、タイムを離散的なポイントとして表現する。
Time Interval TIEは、プラグイン・アンド・プレイ・インターバル・アウェアの一般化である。
論文 参考訳(メタデータ) (2026-05-11T13:23:14Z) - Benchmarking IoT Time-Series AD with Event-Level Augmentations [34.864214444544565]
実世界の問題をシミュレートする統合されたイベントレベル拡張による評価プロトコルを提案する。
5つの公開異常データセット上で14の代表的なモデルを評価する。
論文 参考訳(メタデータ) (2026-02-17T09:45:44Z) - Synchrony-Gated Plasticity with Dopamine Modulation for Spiking Neural Networks [6.085945372100414]
Dopamine-Modulated Spike-Synchrony-Dependent Plasticity (DA-SSDP) は、損失に敏感な同期型規則である。
DA-SSDPは、バッチレベルでスパイクパターンを同期メトリックに凝縮する。
論文 参考訳(メタデータ) (2025-12-08T06:10:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。
したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。
本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。
実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-10T07:03:08Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。