論文の概要: ReflectiChain: Epistemic Grounding in LLM-Driven World Models for Supply Chain Resilience
- arxiv url: http://arxiv.org/abs/2606.10359v1
- Date: Tue, 09 Jun 2026 03:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.285883
- Title: ReflectiChain: Epistemic Grounding in LLM-Driven World Models for Supply Chain Resilience
- Title(参考訳): ReflectiChain:サプライチェーンレジリエンスのためのLDM駆動世界モデルにおけるエピステミックグラウンドディング
- Authors: Jia Luo,
- Abstract要約: 大規模言語モデルと強化学習のギャップを埋めるためにREFLECTICHAINを導入する。
ReFLECTICHAINは不確実性分離、知識境界検出、実証的ベイズ政策更新を分離する。
セミシムでは、REFLECTICHAINはRationale Consistency Scoreを33.0%(p 0.0001, d = 2.78)改善し、対向ショック下で82.3%の操作性を維持し、反フレキシブルな動作を示す。
- 参考スコア(独自算出の注目度): 2.160835522257474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents in supply chains face a fundamental epistemic gap: large language models (LLMs) interpret policies but lack physical grounding, while reinforcement learning (RL) optimizes flows but is semantically blind to unstructured constraints. We introduce REFLECTICHAIN, bridging this gap through a Generative Supply Chain World Model (SC-WM) - encoding heterogeneous supply networks into a 6-dim graph-latent space with physical conservation - and Double-Loop Learning that separates epistemic uncertainty (KL-trust-region-bounded policy adaptation) from aleatoric uncertainty (stochastic latent rollouts). On Semi-Sim, a 10-node semiconductor benchmark with SIR risk propagation, 6 perturbation types, and 10 policy constraint templates, REFLECTICHAIN improves Rationale Consistency Score by 33.0% (p < 0.0001, d = 2.78), maintains 82.3% operability under adversarial shocks, and exhibits anti-fragile behavior (+40.2% gain under moderate pressure). We identify three operational epistemic mechanisms - uncertainty separation, knowledge-boundary detection, and empirical Bayesian policy updating - and discuss five limitation categories.
- Abstract(参考訳): 大規模言語モデル(LLM)はポリシーを解釈するが、物理的根拠は欠如する一方、強化学習(RL)はフローを最適化するが、意味論的に非構造的制約に盲目である。
本稿では,このギャップを生成的供給連鎖世界モデル (SC-WM) を通じてブリッジし,異種供給ネットワークを物理的保存を伴う6次元グラフラテント空間に符号化する。
SIRのリスク伝播と6つの摂動型、10のポリシー制約テンプレートを備えた10ノードの半導体ベンチマークであるSemi-Simでは、REFLECTICHAINはRationale Consistency Scoreを33.0%(p < 0.0001, d = 2.78)改善し、対向ショック下で82.3%の操作性を維持し、反フレジル動作(中程度の圧力下では+40.2%上昇)を示す。
我々は,不確実性分離,知識境界検出,経験的ベイズ政策更新という3つの手術的疫学的メカニズムを特定し,5つの限界カテゴリーについて議論する。
関連論文リスト
- Game-Theoretic Multi-Agent Control for Robust Contextual Reasoning in LLMs [6.335875360476155]
マルチターンインタラクションにおける大規模言語モデル(LLM)は、独立した応答を生成するのではなく、進化するコンテキストを維持している。
GT-MCP(Game-Theoretic Secure Model Context Protocol)は,コンテキスト管理を閉ループ動的プロセスとして扱うコントローラ駆動型マルチエージェント手法である。
不安定性が検出されると、ロールバックベースの自己修復機構が検証済みのコンテキストを復元し、不要なフラグメントの伝播を防止する。
論文 参考訳(メタデータ) (2026-06-09T02:18:44Z) - OmniISR: A Unified Framework for Centralized and Federated Learning via Intermediate Supervision and Regularization [58.03221830946145]
我々は、純粋なCL、純粋なFL、ハイブリッドCL-FLトレーニングモードを融合する統合フレームワークであるOmniISRを提案する。
我々は,OmniISRが集中型パラダイムとフェデレーション型パラダイムの両方において,モデル性能を一貫して改善していることを示す。
論文 参考訳(メタデータ) (2026-05-19T04:13:27Z) - Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - From Topology to Trajectory: LLM-Driven World Models For Supply Chain Resilience [2.160835522257474]
本稿では,回復力のあるマクロ経済サプライチェーン計画に適した認知エージェントフレームワークであるReflectioniChainを紹介する。
輸出禁止や材料不足といった極端なシナリオの下で、ReflectioniChainは平均的なステップ報酬で250%改善されている。
論文 参考訳(メタデータ) (2026-04-13T06:14:15Z) - DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning [62.347535250646196]
本稿では、ロバストでスケーラブルなシロコラボ型IoTアプリケーションスケジューリングのための分散フェデレーション強化学習フレームワークであるDeFRiSを提案する。
DeFRiSは、(i)異種サイロ間のシームレスな知識伝達を可能にするための候補資源スコアを利用したアクション空間非依存ポリシー、(ii)汎用アドバンテージ推定とクリッピングされたポリシー更新を組み合わせたサイロ最適化ローカル学習メカニズム、(iii)類似性認識の知識伝達と異常検出に勾配指紋を利用するDual-Track Non-IIDロバストな分散集約プロトコル、の3つのイノベーションを統合する。
論文 参考訳(メタデータ) (2026-03-16T02:02:38Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Manifold of Failure: Behavioral Attraction Basins in Language Models [0.49388902330345724]
本稿では,大規模言語モデル(LLM)における失敗のマニフォールドを体系的にマッピングするフレームワークを提案する。
これらの障害領域の連続的なトポロジを照らすためにMAP-Elitesを用いて、脆弱性の探索を品質多様性問題として再編成する。
3つのLSMにわたって、MAP-Elitesは最大63%の行動カバレッジを実現し、最大370の脆弱性ニッチを発見し、モデル固有のトポロジカルシグネチャが劇的に異なることを示す。
論文 参考訳(メタデータ) (2026-02-25T15:08:20Z) - Tri-LLM Cooperative Federated Zero-Shot Intrusion Detection with Semantic Disagreement and Trust-Aware Aggregation [5.905949608791961]
本稿では,言語に基づくセマンティック管理をフェデレーション最適化に組み込んだ,セマンティックス駆動のフェデレーションIDSフレームワークを提案する。
このフレームワークは、目に見えない攻撃パターンに対して80%以上のゼロショット検出精度を達成し、類似性に基づくベースラインと比較してゼロデイ識別を10%以上改善する。
論文 参考訳(メタデータ) (2026-01-30T16:38:05Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。