論文の概要: SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model
- arxiv url: http://arxiv.org/abs/2606.14574v1
- Date: Fri, 12 Jun 2026 15:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.968123
- Title: SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model
- Title(参考訳): SIMMER:世界モデルによるLCM実行可能計画における遅延障害のベンチマーク
- Authors: Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)計画における遅延故障評価ベンチマークであるSIMMERを紹介する。
SIMMERは77のアクション、262のユニークなオブジェクト、約46,800の可能な相互作用からなる世界モデルを定義している。
次に、ステートマシンエグゼキュータを利用して、ワールドモデルに対する計画の検証を行い、即時プレコンディション違反、潜伏するハザード、不可逆的な障害を検出する。
- 参考スコア(独自算出の注目度): 8.782590561222511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as planners for autonomous agents in household environments. While existing benchmarks evaluate whether LLM-generated plans execute successfully, they overlook a critical type of failure: latent failures. Unlike immediate failures that trigger instant feedback at execution time and enable timely correction, latent failures do not immediately halt plan execution but silently compromise goal achievement. In severe cases, they cause irreversible harm. To address this gap, we introduce SIMMER, a benchmark for evaluating latent failures in LLM planning through a human-curated symbolic world model grounded in the kitchen domain. SIMMER defines a world model comprising 77 actions, 262 unique objects, and approximately 46,800 possible interactions that are semantically realistic, derived from real-world cooking scripts. It then leverages a state machine executor that validates plans against the world model and detects immediate precondition violations, latent hazards, and irreversible failures. Experiments across six LLMs show that even frontier models achieve at most 17% error-free plans. Moreover, up to 56% of plans contain latent failures, the majority of which lead to irreversible consequences. We further demonstrate that explicit state reasoning via counterfactual foresight simulation can reduce latent failures by up to 72% and irreversible cases by up to 75%, suggesting a promising direction for more robust LLM planners.
- Abstract(参考訳): 大規模言語モデル(LLM)は、家庭環境における自律的なエージェントのためのプランナーとして、ますます多くデプロイされている。
既存のベンチマークでは、LCM生成した計画が正常に実行されるかどうかが評価されているが、致命的な失敗という致命的なタイプの失敗を見落としている。
実行時に即時フィードバックをトリガーし、タイムリーな修正を可能にする即時障害とは異なり、遅延障害は計画実行を直ちに停止するのではなく、静かに目標達成を妥協する。
重篤な場合、それらは不可逆的な害を引き起こす。
このギャップに対処するために,キッチンドメイン上に構築された人為的なシンボル世界モデルを用いて,LLM計画における潜伏障害を評価するベンチマークであるSIMMERを導入する。
SIMMERは77のアクション、262のユニークなオブジェクト、約46,800の可能な相互作用からなる世界モデルを定義している。
次に、ステートマシンエグゼキュータを利用して、ワールドモデルに対する計画の検証を行い、即時プレコンディション違反、潜伏するハザード、不可逆的な障害を検出する。
6つのLSMの実験では、フロンティアモデルでさえ、少なくとも17%のエラーのない計画が達成されている。
さらに、計画の最大56%には遅延障害が含まれており、その大半は不可逆的な結果をもたらす。
さらに, 対物予測シミュレーションによる明示的状態推論により, 潜伏障害を最大72%, 非可逆ケースを最大75%削減できることを示す。
関連論文リスト
- AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints [65.27107190916512]
AdaPlanBenchは,Large Language Model (LLM)エージェントが適応的に計画し,段階的に明らかにされた制約の下で再計画できるかどうかを評価するための,インタラクティブなベンチマークである。
AdaPlanBenchは307の家庭用タスクに基づいて構築されている。
二重制約下での適応計画は依然として困難であり、最良のモデルは67.75%の精度にしか達していない。
論文 参考訳(メタデータ) (2026-06-04T02:47:29Z) - DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies [65.27025563507961]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのためのクリティカルフェーズテストタイムドリームフレームワークであるDreamAvoidを提案する。
また、自律的な境界学習パラダイムを導入し、成功と失敗の微妙な境界に対するシステムの理解を深める。
その結果、DreamAvoidは失敗を効果的に回避し、全体的なタスク成功率を改善することができた。
論文 参考訳(メタデータ) (2026-05-12T08:27:16Z) - Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation [1.2832858109291982]
大型言語モデル(LLM)は、古典的なシンボリックな手法と共に実行可能なプランナーとして機能する。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineを紹介する。
102国際計画コンペティション(IPC)Blocksworldインスタンスに対して,一様180秒の予算で4つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-03-06T09:16:49Z) - VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing [6.758047936249273]
視覚言語モデル(VLM)は、スマートマニュファクチャリングにおける高レベルのプランニングを約束する。
本稿では,VLMを世界状態管理から切り離した認知アーキテクチャであるVLM-DEWMを提案する。
VLM-DEWMは、マルチステーション組立、大規模施設探索、誘導故障時の実ロボット回収において評価される。
論文 参考訳(メタデータ) (2026-02-17T12:54:18Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.913755431537592]
この作業では、ワークフロー計画問題の生成と評価のための完全に自動化されたパイプラインであるNL2Flowが導入されている。
NL2Flowは、構造化中間表現においてパラメトリックに問題を発生させ、それらを自然言語と形式PDDLの両方に翻訳する。
NL2Flowが生成した2296個の低微分問題に基づいて,オープンソースのインストラクション付きLLMを評価した。
論文 参考訳(メタデータ) (2025-07-03T03:02:49Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。