論文の概要: Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
- arxiv url: http://arxiv.org/abs/2606.19338v1
- Date: Wed, 17 Jun 2026 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.306328
- Title: Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
- Title(参考訳): 制御可能な非マルコフゲームにおける多モード大言語モデルの評価
- Authors: Shengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang,
- Abstract要約: RNG-Benchは、過去の観測を再構築するベースモデルの能力を分離するために設計されたベンチマークスイートである。
RNG-Benchには2つの補完ゲームがある: マッチングペア(英語版) - 特定の場所でカードのIDを短期間明らかにする) と、エゴセントリックなビューを空間地図に統合する3D Maze である。
最も難しい構成では、約128Kのトークンと350のイメージ入力のコンテキストが必要であり、フロンティアMLLMによる飽和には程遠いままである。
- 参考スコア(独自算出の注目度): 69.57330692969543
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.
- Abstract(参考訳): クローズドループポリシとしてマルチモーダルファンデーションモデルをデプロイするには、もはや見えない観察に対する条件付けアクションが必要になる。
しかし、既存のベンチマークは、完全な状態を公開するか、他のエージェントスキルと隠された状態の再構築を説明するか、エピソードが終わった後にのみテストリコールを行う。
RNG-Bench (Reconstructive Non-Markov Games) は,複数段階の相互作用において,過去の観測を再構築し,それらに作用するベースモデルの能力を分離するベンチマークスイートである。
RNG-Benchには2つの補完ゲームがある: マッチングペア(英語版) - 特定の場所でカードのIDを短期間明らかにする) と、エゴセントリックなビューを空間地図に統合する3D Maze である。
両ゲームは、グリッドサイズ、視覚パターン、観察モダリティの3つのコントロールされた難易度軸で統一されたハーネスで評価される。
ベンチマークではさらに、インスタンスレベルの分散を制御するためのヘッド・ツー・ヘッドのデュエルプロトコルや、アクション選択の貧弱さから忘れることを妨げるメモリギャップメトリックも導入されている。
最も難しい構成では、約128Kのトークンと350のイメージ入力のコンテキストが必要であり、フロンティアMLLMによる飽和には程遠いままである。
メモリギャップ分析は、残差のほとんどは、最適下決定ではなく、以前の観察を忘れることに由来することを示している。
最後に、最適ポリティクスのロールアウトとフィルタモデルデモに関する微調整Qwen3.5-9Bは、RNG-Benchの性能を改善し、一般的なマルチモーダル能力を低下させることなく既存のベンチマークに転送する。
関連論文リスト
- GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks [2.037026133182214]
本稿では,大言語モデル(MLLM)における空間的推論を評価するベンチマークであるGamiBenchを紹介する。
GamiBenchには、186の正規かつ不可能な2Dクリーゼパターンと、対応する3D折りたたみ形状が組み合わされている。
GamiBenchは、クロスビュー整合性の測定、不可能な折りたたみ検出による物理的実現性、中間的な折りたたみステップの解釈など、すべての推論プロセスを評価している。
論文 参考訳(メタデータ) (2025-12-22T01:07:59Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。
DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文 参考訳(メタデータ) (2025-03-27T05:46:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。