論文の概要: ATM: Action-Consistency Transfer Matrix for Diagnosing and Improving Latent World Models
- arxiv url: http://arxiv.org/abs/2606.09028v1
- Date: Mon, 08 Jun 2026 04:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.701165
- Title: ATM: Action-Consistency Transfer Matrix for Diagnosing and Improving Latent World Models
- Title(参考訳): ATM:潜在世界モデルの診断・改善のためのアクション一貫性伝達マトリックス
- Authors: Jiaheng Chen,
- Abstract要約: 本稿では、遅延遷移が計画に関連するアクションセマンティクスを保存するかどうかを診断するためのアクション・一貫性転送行列であるATMを提案する。
ATMは、実際の符号化されたトランジションと、軽量なポストホックプローブによるモデル予測トランジションのアクション情報を比較する。
また、チェックポイント、変種、世界モデルにまたがるタスク内ランキングの単純なスクリーニングスコアに分解することもできる。
- 参考スコア(独自算出の注目度): 0.1218340575383456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent world models are increasingly used for control and goal-conditioned planning, yet assessing whether their learned representations are useful for planning usually requires slow, planner-coupled simulator evaluation with CEM or similar planners. Such evaluation is black-box and model-complexity-dependent: under the same protocol, different world models may require minutes to hours per checkpoint. In this work, we propose ATM, an Action-Consistency Transfer Matrix for diagnosing whether latent transitions preserve action semantics relevant to planning. ATM compares action information in real encoded transitions and model-predicted transitions through lightweight post-hoc probes, producing an interpretable matrix that reveals representation quality, transition-domain inconsistency, and failure modes without simulator rollout. It can also be collapsed into a simple screening score for within-task ranking across checkpoints, variants, and world models. When the true success gap is non-trivial, ATM achieves highly reliable pairwise ranking, while reducing minutes-to-hours CEM evaluation to seconds-level transition analysis, yielding more than 100x speedup in our setup. We further introduce AITS, showing that action-identifiability is not only diagnostic but also a useful training signal for improving downstream planning without changing the planner.
- Abstract(参考訳): 後期世界モデルは、制御と目標条件の計画にますます使用されるが、学習した表現が計画に有用であるかどうかを評価するには、通常、CEMや同様の計画立案者による遅い計画立案によるシミュレーター評価が必要である。
このような評価はブラックボックスとモデル複雑度に依存している:同じプロトコルの下では、異なる世界モデルはチェックポイント毎に数分から数時間を要する。
本研究では,遅延遷移が計画に関連するアクションセマンティクスを保存するかどうかを診断するためのATMを提案する。
ATMは、実際の符号化されたトランジションと、軽量なポストホックプローブによるモデル予測トランジションのアクション情報を比較する。
また、チェックポイント、変種、世界モデルにまたがるタスク内ランキングの単純なスクリーニングスコアに分解することもできる。
真の成功ギャップが非自明な場合、ATMは信頼性の高いペアワイズランキングを実現し、CEM評価を秒単位の遷移解析に還元し、セットアップの100倍以上のスピードアップを実現した。
さらに、AITSを導入し、行動識別性は診断だけでなく、プランナーを変更することなく下流計画を改善するための有用な訓練信号であることを示した。
関連論文リスト
- World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - Reliably Detecting Model Failures in Deployment Without Labels [14.069153343960734]
本稿では,デプロイ後劣化(PDD)モニタリングの問題点を定式化し,対処する。
本稿では,予測モデルの相違に基づく,実用的で効率的なモニタリングアルゴリズムD3Mを提案する。
標準ベンチマークと実世界の大規模内科データセットによる実証的な結果から,フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-06-05T13:56:18Z) - MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。
提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。
また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文 参考訳(メタデータ) (2024-12-29T22:13:16Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
マルチエージェントインタラクションをキャプチャする実世界のモーションプランニングベンチマークであるnuPlanを提案する。
我々は、グラフ畳み込みニューラルネットワーク(GCNN)であるBehaviorNetを用いて、このようなユニークな振る舞いをモデル化することを学ぶ。
また、モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverについても紹介する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for
Autonomous Driving [27.776472262857045]
本稿では,自動運転車のための簡易かつ効率的な運動予測ベースライン(SIMPL)を提案する。
メッセージ転送を対称的に行う,コンパクトで効率的なグローバル機能融合モジュールを提案する。
強力なベースラインとして、SIMPLはArgoverse 1と2のモーション予測ベンチマークで高い競争性能を示す。
論文 参考訳(メタデータ) (2024-02-04T15:07:49Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。