論文の概要: Reference-Free Assessment of Physical Consistency in World Model-based Video Generation
- arxiv url: http://arxiv.org/abs/2606.22363v1
- Date: Sun, 21 Jun 2026 07:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:39:59.289629
- Title: Reference-Free Assessment of Physical Consistency in World Model-based Video Generation
- Title(参考訳): World Model-based Video Generation における物理一貫性の基準フリー評価
- Authors: Yun Oh, Sukmin Yun,
- Abstract要約: 生成したビデオの物理的整合性を評価するための参照不要測度を導入する。
相対的整合性評価を用いてフィルタリングしたビデオは、タスク成功率を8%以上改善したことを示している。
- 参考スコア(独自算出の注目度): 6.646195245758734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce reference-free measures for evaluating the physical consistency of generated videos, combining relative and absolute approaches to assess fidelity. Although tools like WorldGym or WorldEval enable robotic simulation via video generation, physical fidelity gaps often prevent these environments from accurately reproducing real-world task success rates of VLA models. Unlike existing evaluation methods, which require costly human voting (Elo) or unavailable ground-truth references (FVD), our approach utilizes DROID-SLAM and SEA-RAFT to quantify physical inconsistencies, motivated by WorldScore. Videos filtered using our relative consistency assessment show an improvement in task success rates of over 8%, effectively narrowing the simulation-to-reality gap. Furthermore, our absolute assessment enables spatio-temporal localization, providing visualization of when and where physical artifacts occur.
- Abstract(参考訳): 本研究では,映像の物理的整合性を評価するための基準フリーな尺度を提案し,その妥当性を評価するための相対的手法と絶対的手法を組み合わせた。
WorldGymやWorldEvalのようなツールは、ビデオ生成によるロボットシミュレーションを可能にするが、物理的なフィデリティギャップは、これらの環境がVLAモデルの実際のタスク成功率を正確に再現するのを防ぐことが多い。
従来の評価手法とは違って,DROID-SLAMとSEA-RAFTを用いて物理的不整合の定量化を行う。
相対的整合性評価を用いてフィルタリングしたビデオは、タスク成功率を8%以上改善し、シミュレーションと現実のギャップを効果的に狭めている。
さらに, 絶対的評価により時空間的局所化が可能となり, 物理的アーティファクトの発生時期と発生場所の可視化が可能となった。
関連論文リスト
- VLA-REPLICA: A Low-Cost, Reproducible Benchmark for Real-World Evaluation of Vision-Language-Action Models [16.62453347330552]
VLA(Vision-Language-Action)モデルは汎用的なロボット操作に強く期待されている。
既存の実世界のベンチマークでは、高価なハードウェア、集中型評価、タスクの多様性に制限があることが多い。
本稿では,VLAモデルを評価するために,低コストで再現しやすい実世界のベンチマークであるVLA-REPLICAを紹介する。
論文 参考訳(メタデータ) (2026-05-20T06:15:30Z) - Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation [62.51953630639423]
既存のベンチマークには視覚的リアリズムがなく、シミュレーションと現実の間に大きな領域ギャップが生じる。
シミュレーションにおけるロボット操作評価のための,視覚的にリアルなベンチマークであるVISERを提案する。
VISERは、物理ベースのレンダリング(PBR)素材を備えた1000以上の3Dアセットの高忠実度データセットと、それらのアセットから作成される3Dシーンを、レイアウトや生成によって構成する。
論文 参考訳(メタデータ) (2026-05-07T14:13:05Z) - HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation [15.568587059061025]
本稿では,人間中心評価フレームワークHuM-Evalを提案する。
HuM-Evalは58.2%の平均的な人間相関を達成し、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-28T08:27:35Z) - Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned [5.561294055181353]
ビジュアルナビゲーションモデル(VNM)は、大規模な視覚的なデモンストレーションから学ぶことで、一般化可能なロボットナビゲーションを約束する。
室内と屋外にまたがる2つのロボットプラットフォームと5つの環境にまたがる5つの最先端VNMの現実的評価について述べる。
論文 参考訳(メタデータ) (2026-03-26T22:04:49Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。