論文の概要: World Models in Pieces: Structural Certification for General Agents
- arxiv url: http://arxiv.org/abs/2606.24842v1
- Date: Tue, 23 Jun 2026 17:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.13144
- Title: World Models in Pieces: Structural Certification for General Agents
- Title(参考訳): World Models in Pieces: Structure Certification for General Agents
- Authors: Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li,
- Abstract要約: 大世界体制では、エージェントは普遍的に能力を持ち得ず、その能力は必然的に世界モデル全体で断片的に特殊化される。
まず、一般エージェントが普遍的でないことを証明し、標準最悪のケース分析を非形式的にする。
本稿では,制約付きゴール条件付き性能をエージェントの内的世界モデルにおけるエントリーワイド保証にマッピングする,トランジションローカルなフレームワークである構造証明を紹介する。
- 参考スコア(独自算出の注目度): 18.273334571746144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the big-world regime, agents cannot be universally capable and their ability is inevitably specialized across a world model in pieces. Consequently, standard uniform guarantees fail to distinguish between the understanding of critical bottlenecks and irrelevant failures. We first formalize this limitation by proving that general agents are not universal, rendering standard worst-case analysis uninformative. To overcome this, we introduce structural certification, a transition-local framework that maps bounded goal-conditioned performance to entry-wise guarantees on the agent's internal world model. Our main contribution is constructive. We provide algorithms that filter specific transitions using deep compositional goals and prove that a general agent on these goals has a structural world model with a $\mathcal{O}(1/n) + \mathcal{O}(δ)$ error bound. Conversely, this bound is tight in the small-$δ$ regime, whose existence is explicitly guaranteed by our certification. These results enable the certifiable deployment of general agents by localizing the specific transitions where long-horizon planning is reliable.
- Abstract(参考訳): 大世界体制では、エージェントは普遍的に能力を持ち得ず、その能力は必然的に世界モデル全体で断片的に特殊化される。
その結果、標準的な統一保証は、重大なボトルネックと無関係な失敗の理解を区別できない。
まず、一般エージェントが普遍的でないことを証明して、この制限を定式化し、標準最悪のケース分析を非形式化する。
そこで,本稿では,制約付きゴール条件付き性能をエージェントの内的世界モデルにおけるエントリーワイド保証にマッピングする,トランジションローカルなフレームワークである構造証明を導入する。
私たちの主な貢献は建設的です。
深い構成目標を用いて特定の遷移をフィルタリングするアルゴリズムを提供し、これらの目標上の一般的なエージェントが$\mathcal{O}(1/n) + \mathcal{O}(δ)$エラー境界を持つ構造的世界モデルを持つことを証明する。
逆に、この境界は、我々の認証によって明確に保証されている小さなδ$体制において厳密である。
これらの結果は、長期計画が信頼できる特定の遷移をローカライズすることで、一般エージェントの認定デプロイを可能にする。
関連論文リスト
- The Containment Gap: How Deployed Agentic AI Frameworks Fail Public-Facing Safety Requirements [4.431419229831417]
エージェント型大規模言語モデルシステムは、パブリックドメインにますますデプロイされている。
これらのシステムを構築するために使用されるフレームワークが、アーキテクチャレベルの構造的安全性を保証するかどうかを問う。
論文 参考訳(メタデータ) (2026-06-11T01:46:26Z) - VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation [50.23374353859762]
多様な単発デモを収集することで「最大限のカバレッジ」を達成できる。
我々は、この現象を包括的-密度トレードオフとして定式化する。
Anchor-Centric Adaptation (ACA) は、2段階のフレームワークで、まずコアアンカーでの繰り返しデモを通じてポリシースケルトンを安定化し、次に教師力によるエラーマイニングと制約付き残差更新を通じて高リスク境界までカバー範囲を広げる。
論文 参考訳(メタデータ) (2026-05-08T07:35:24Z) - TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization [4.62716665682001]
TopoPilotは、複雑な科学的視覚化を自動化するための信頼性が高くエージェント的なフレームワークである。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
評価では、TopoPilotは99%以上の成功率を達成したが、ベースラインでは50%以下で、包括的なガードレールやチェックがない。
論文 参考訳(メタデータ) (2026-03-26T05:56:53Z) - Can Large Multimodal Models Inspect Buildings? A Hierarchical Benchmark for Structural Pathology Reasoning [7.005450139695288]
大規模マルチモーダルモデル(LMM)は、アクティブ推論へのパラダイムシフトを約束する。
textitDefectBenchは基本的な意味認識を超えてLMMを問うために設計された最初のベンチマークである。
この作業は厳格なベンチマーク標準と高品質なオープンソースデータベースの両方を提供する。
論文 参考訳(メタデータ) (2026-03-20T17:24:46Z) - Unvalidated Trust: Cross-Stage Vulnerabilities in Large Language Model Architectures [0.0]
本稿では,商業用言語モデルにおける41の繰り返しリスクパターンのメカニズム中心の分類法を提案する。
これらの動作がアーキテクチャ上の障害モードを構成し、文字列レベルのフィルタリングだけでは不十分である、と我々は主張する。
論文 参考訳(メタデータ) (2025-10-30T09:38:45Z) - From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models [27.774067682004745]
GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
論文 参考訳(メタデータ) (2025-10-20T19:04:09Z) - Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。
本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。
トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。
このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2025-10-15T09:47:54Z) - Generalizable Person Re-Identification via Self-Supervised Batch Norm
Test-Time Adaption [63.7424680360004]
Batch Norm Test-time Adaption (BNTA)は、BNパラメータを適応的に更新するための自己教師型戦略を適用する、新しいre-idフレームワークである。
BNTAは、推論前にラベル付けされていないターゲットデータ内のドメイン認識情報を探索し、BNによって正規化された特徴分布を変調してターゲットドメインに適応させる。
論文 参考訳(メタデータ) (2022-03-01T18:46:32Z) - Style Normalization and Restitution for Generalizable Person
Re-identification [89.482638433932]
我々は、ソースドメイン上でモデルをトレーニングするが、ターゲットドメイン上での一般化や性能をよく行うことのできる、一般化可能な人物ReIDフレームワークを設計する。
本稿では,シンプルで効果的なスタイル正規化・再構成(SNR)モジュールを提案する。
SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-05-22T07:15:10Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。