Fugu-MT 論文翻訳(概要): Theoretical Grounding of Out-Of-Distribution Detection With Reinforcement Learning Optimizer

論文の概要: Theoretical Grounding of Out-Of-Distribution Detection With Reinforcement Learning Optimizer

arxiv url: http://arxiv.org/abs/2606.17477v1
Date: Tue, 16 Jun 2026 03:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.253288
Title: Theoretical Grounding of Out-Of-Distribution Detection With Reinforcement Learning Optimizer
Title（参考訳）: 強化学習最適化を用いた外部分布検出の理論的基礎化
Authors: Salimeh Sekeh, Xin Zhang,
Abstract要約: 動的なオープンワールド環境でのアウト・オブ・ディストリビューション(OOD)検出は、進化するデータ分布に継続的に適応するモデルを必要とする。既存のOOD検出手法の多くは、現在の目標のみを最適化し、デプロイ後の環境変化が将来のOOD行動にどのように影響するかを明示的に説明していない。
参考スコア（独自算出の注目度）: 3.4364890279370623
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Out-of-distribution (OOD) detection in dynamic open-world environments requires a model to continually adapt to evolving data distributions while generalizing to covariate-shifted inputs and rejecting semantic-shifted OOD examples. Most existing OOD detection methods optimize only the current-step objective and do not explicitly account for how post-deployment environment changes affect future OOD behavior. In this paper, we establish a theoretical grounding for dynamic OOD detection using a reinforcement learning (RL)-guided optimizer that explicitly favors updates that reduce the semantic OOD false positive rate over time. We develop a novel augmented optimizer that uses an RL-guided correction term on top of standard gradient descent (GD) and show its improvement over both future-domain generalization and semantic-OOD rejection. We analyze temporal error decomposition in terms of model-change and environment-change generalization errors and develop a new theoretical framework for comparing the generalization errors under both GD and RL-guided optimizers.
Abstract（参考訳）: 動的なオープンワールド環境でのアウト・オブ・ディストリビューション(OOD)検出は、コバリアレートシフトした入力に一般化し、セマンティックシフトしたOODの例を拒否しながら、進化するデータ分布に継続的に適応するモデルを必要とする。既存のOOD検出手法の多くは、現在の目標のみを最適化し、デプロイ後の環境変化が将来のOOD行動にどのように影響するかを明示的に説明していない。本稿では,強化学習(RL)誘導オプティマイザを用いた動的OOD検出の理論的基礎を確立する。我々は、標準勾配降下(GD)の上にRL誘導補正項を用いた新しい拡張オプティマイザを開発し、将来のドメインの一般化とセマンティックODの拒絶よりも改善したことを示す。本稿では,モデル変化および環境変化の一般化誤差の観点から時間的誤差分解を解析し,GDおよびRL誘導最適化の下での一般化誤差を比較するための新たな理論的枠組みを開発する。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。 DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Optimizing Latent Dimension Allocation in Hierarchical VAEs: Balancing Attenuation and Information Retention for OOD Detection [14.833454650943805]
階層的変分オートエンコーダ(HVAE)は、従来のVAEよりも優れた表現能力を提供する。既存のアプローチはしばしば遅延容量を任意に割り当て、非効率な表現や後続の崩壊につながる。本稿では,HVAEにおける潜在次元割り当てを最適化するための理論的基盤となるフレームワークを提案する。固定遅延予算の下で最適な割り当て比$rast$の存在を証明し、この比率を調整することでOOD検出性能が一貫したことを示す。
論文参考訳（メタデータ） (2025-06-11T18:16:19Z)
Learning where to learn: Training data distribution optimization for scientific machine learning [4.726397480637032]
科学的機械学習では、モデルは常にパラメータ値や境界条件が訓練で使用されるものから遠く離れている。本稿では,平均予測誤差を最小限に抑えるトレーニングデータ分布を設計する学習と学習の課題について検討する。
論文参考訳（メタデータ） (2025-05-27T18:00:58Z)
CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文参考訳（メタデータ） (2024-05-26T03:28:59Z)
Towards Robust Out-of-Distribution Generalization Bounds via Sharpness [41.65692353665847]
モデルがドメインシフトにおけるデータ変化を許容する方法にシャープさが及ぼす影響について検討する。強靭性を考慮したシャープネスに基づくOOD一般化を提案する。
論文参考訳（メタデータ） (2024-03-11T02:57:27Z)
Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。 OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-03T05:41:25Z)
On the Impact of Spurious Correlation for Out-of-distribution Detection [14.186776881154127]
我々は、不変性と環境特性の両方を考慮して、データシフトをモデル化し、新しい形式化を提案する。その結果, トレーニングセットにおいて, 突発的特徴とラベルの相関が大きくなると, 検出性能が著しく悪化することが示唆された。
論文参考訳（メタデータ） (2021-09-12T23:58:17Z)
Improved OOD Generalization via Adversarial Training and Pre-training [49.08683910076778]
本稿では,入力摂動に頑健なモデルがOODデータによく一般化されることを理論的に示す。従来, 対人訓練が入力難聴の改善に有効であったことが示唆され, 対人訓練モデルがOODデータに過剰なリスクを集中していることが示唆された。
論文参考訳（メタデータ） (2021-05-24T08:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。