論文の概要: Machine-Coached Policy Revision in Adaptive Agent-Based Regulatory Simulation: A Controller-Level Contestability Layer
- arxiv url: http://arxiv.org/abs/2606.20700v1
- Date: Mon, 15 Jun 2026 10:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 15:58:27.844558
- Title: Machine-Coached Policy Revision in Adaptive Agent-Based Regulatory Simulation: A Controller-Level Contestability Layer
- Title(参考訳): アダプティブエージェントベースの規制シミュレーションにおける機械学習ポリシーの改訂:コントローラレベル・コンペティビリティ・レイヤ
- Authors: Roberto Garrone,
- Abstract要約: 本稿では,適応型エージェントベース規制のための軽量な機械学習対応ポリシ・リビジョン層を提案する。
このコントリビューションは、新しい最適コントローラではなく、無制限のマシンコーチングの正式な保証を主張するものではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Policy-oriented agent-based models are increasingly used to study regulatory interventions in complex adaptive socio-technical systems. Recent adaptive ABM frameworks distinguish between static and adaptive agents, fixed and adaptive policies, and alternative controller designs. However, most diagnostic workflows remain ex post: trajectories are analysed after simulation, but the resulting evidence is not systematically fed back into the policy controller. This paper proposes a lightweight machine-coached policy-revision layer for adaptive agent-based regulation. The layer represents policy decisions as defeasible rules with explicit conflicts and priorities, generates explanations for controller actions, and allows diagnostic failures to be translated into rule additions, removals, or priority changes. The contribution is not a new optimal controller and does not claim formal guarantees for unrestricted machine coaching. Instead, it provides a simulation-compatible operationalization of controller-level contestability: policy decisions can be explained, challenged, revised, and re-evaluated in held-out simulation runs. A stylized emissions-regulation ABM is used as the experimental component. A controlled simulation experiment focuses on an over-conservatism failure in the VPVA regime. The predefined coaching template adds a relaxation rule to the symbolic controller, reducing over-conservatism recurrence under held-out seeds while preserving violation, overshoot, and volatility guardrails. The paper argues that machine coaching is best understood as a controller-level extension of explainable adaptive ABM, complementary to causal, information-theoretic, and trajectory-based diagnostics.
- Abstract(参考訳): 政策指向のエージェントベースモデルは、複雑な適応社会技術システムにおける規制介入の研究にますます利用されている。
最近のアダプティブABMフレームワークは、静的エージェントとアダプティブエージェント、固定ポリシーとアダプティブポリシー、および代替コントローラ設計を区別している。
軌道はシミュレーション後に解析されるが、その結果の証拠は体系的にポリシーコントローラにフィードバックされない。
本稿では,適応型エージェントベース規制のための軽量な機械学習対応ポリシ・リビジョン層を提案する。
このレイヤは、明確な矛盾と優先順位を持つデファシブルなルールとしてポリシー決定を表現し、コントローラアクションの説明を生成し、診断失敗をルールの追加、削除、優先度変更に変換する。
このコントリビューションは、新しい最適コントローラではなく、無制限のマシンコーチングの正式な保証を主張するものではない。
代わりに、コントローラレベルの競合性のシミュレーション互換な運用を提供する: ポリシー決定は、保持されたシミュレーション実行で説明、挑戦、修正、再評価される。
実験成分として、スタイリズドエミッション制御ABMを用いる。
制御されたシミュレーション実験は、VPVA体制における過剰保守主義の失敗に焦点を当てている。
予め定義されたコーチングテンプレートは、シンボリックコントローラに緩和ルールを追加し、違反、オーバーシュート、ボラティリティガードレールを保ちながら、保持された種子下での過保守性再発を低減する。
機械コーチングは、説明可能な適応型ABMのコントローラレベル拡張として理解され、因果性、情報理論、軌跡に基づく診断を補完するものである。
関連論文リスト
- Structural Distinguishability of Static and Adaptive Policy Regimes in Agent-Based Regulatory Simulation [0.0]
本稿では,新しい汎用フレームワークではなく,制御されたシミュレーションベンチマークに寄与する。
本研究は, ナイーブな固定ポリシー, トラッキング対応の固定ポリシ, および, セットポイント, 安全マージン, 片側制御の3つの適応コントローラを評価する。
このコントリビューションは、スカラーインジケータ、キャップ相対的なシンボル診断、軌跡モチーフ、視覚検査によって、平均的な結果が類似しているように見える場合でも、どのように規制の結論が異なるかを共同で明らかにする。
論文 参考訳(メタデータ) (2026-06-15T10:06:32Z) - OGPO: Sample Efficient Full-Finetuning of Generative Control Policies [53.42266064673132]
ジェネレーティブコントロールポリシー(GCP)は、ロボット学習に有効なパラメータ化として登場した。
この研究は、GCPを微調整するためのサンプル効率であるOGPO(Off-policy Generative Policy Optimization)を導入している。
OGPOはマルチタスク設定、高精度挿入、デクスタラス制御にまたがる操作タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-05-04T18:36:40Z) - Hypernetwork-Conditioned Reinforcement Learning for Robust Control of Fixed-Wing Aircraft under Actuator Failures [0.8164433158925594]
本稿では,小型航空機システムのための強化学習に基づく経路追従制御手法を提案する。
特徴量線形変調(FiLM)とLow-Rank Adaptation(LoRA)に基づくパラメータ効率の定式化について検討する。
ハイパーネットワーク条件のポリシーは、標準的なマルチ層パーセプトロンポリシーと比較してロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2026-04-03T18:50:31Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Adaptive Online Non-stochastic Control [10.25772015681554]
我々は,制御環境の難易度に比例した政策後悔のアルゴリズムを得る目的で,非確率制御(NSC)の問題に取り組む。
FTRL(Follow The Regularized Leader)フレームワークを、実際に目撃されたコストに比例した正規化子を使用することで、動的システムに調整します。
論文 参考訳(メタデータ) (2023-10-02T12:32:24Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。