論文の概要: DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?
- arxiv url: http://arxiv.org/abs/2606.12402v1
- Date: Wed, 10 Jun 2026 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.614888
- Title: DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners?
- Title(参考訳): DIRECT:テスト時間計算はいつどこで行うべきか?
- Authors: Jadelynn Dao, Milan Ganai, Yasmina Abukhadra, Ajay Sridhar, Mozhgan Nasr Azadani, Katie Luo, Clark Barrett, Jiajun Wu, Chelsea Finn, Marco Pavone,
- Abstract要約: VLM(Vision-Language Models)は、エンボディエージェントの高レベルプランナーとしてますます普及している。
テストタイムの計算をいつ、どこで使うかを選択することは、実際の世界にフロンティアパフォーマンスをもたらす中心である、と私たちは主張する。
我々はマルチモーダルシーンコンテキストを用いてプロンプト毎に計算を割り当てるルーティングフレームワークであるDIRECTを紹介した。
- 参考スコア(独自算出の注目度): 57.585275546688116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed as high-level planners for embodied agents, with an emerging strategy of scaling test-time compute to improve capability. However, we observe that doing so increases latency, token usage, and FLOPs while yielding uneven, often diminishing gains in downstream success, limiting where embodied agents can be deployed. We argue that choosing when and where to spend test-time compute is central to bringing frontier performance to the real world. We introduce DIRECT, a routing framework that uses multimodal scene context to allocate compute per prompt, improving the success--cost Pareto frontier over fixed model selection. Across three dominant scaling axes, namely chain-of-thought depth, model size, and memory history, our experiments on VLABench and RoboMME show that test-time compute is not a uniform lever: different axes yield qualitatively distinct capability gains. We validate these insights on a physical Franka arm in a DROID setup spanning zero-shot manipulation and long-horizon chaining, where our router matches or exceeds a stronger model's success rate at up to 65% lower average latency. Ultimately, our results show that naively scaling test-time compute is wasteful, and that DIRECT can provide frontier-level embodied planning in robotic systems at a fraction of the cost. Project page can be found at jadee-dao.github.io/direct/.
- Abstract(参考訳): VLM(Vision-Language Models)は、インボディードエージェントの高レベルプランナーとして、テスト時間計算をスケールして能力を向上させる新たな戦略として、ますます普及している。
しかし、そうすることでレイテンシ、トークン使用量、FLOPが増大する一方で、下流の成功率が低下し、エンボディエージェントがデプロイできる場所が制限される。
テストタイムの計算をいつ、どこで使うかを選択することは、実際の世界にフロンティアパフォーマンスをもたらす中心である、と私たちは主張する。
DIRECTは、マルチモーダルシーンコンテキストを用いてプロンプト毎に計算を割り当て、固定モデル選択よりもコストのかかるパレートフロンティアを改善するルーティングフレームワークである。
VLABench と RoboMME の実験では,3つの主要なスケーリング軸,すなわちチェーン・オブ・シンプット・ディープ,モデルサイズ,メモリ履歴に対して,テスト時間計算が一様レバーではないことを示す。
我々は、ゼロショット操作とロングホライズンチェアリングにまたがるDROIDセットアップにおいて、物理フランカアーム上のこれらの洞察を検証した。
最終的に、我々の研究結果は、テストタイムの計算を段階的にスケールすることは無駄であり、DIRECTはロボットシステムにおけるフロンティアレベルの実施計画を、ほんの少しのコストで提供できることを示している。
プロジェクトページは jadee-dao.github.io/direct/ にある。
関連論文リスト
- Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control [86.63490309209378]
我々は、最適制御として推論を定式化し、推論時に潜在状態に対して有限水平LQR計画を行うテスト時間制御層を導入する。
アーキテクチャ層として最適制御を組み込むことは、テスト時間トレーニングを超えた推論のための効果的でスケーラブルなメカニズムを提供することを実証する。
論文 参考訳(メタデータ) (2026-03-10T05:42:13Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic [72.97800570813175]
ウォールタイムとしてテスト時間を再定義するTimely Machineを提案する。
我々は、高頻度ツールコール、低周波ツールコール、時間制約推論にまたがるベンチマークであるTimely-Evalを紹介する。
より小さなモデルでは、より多くのインタラクションを通じて高速なフィードバックが得られ、大きなモデルでは、より優れたインタラクション品質によって、高レイテンシ設定が支配される。
論文 参考訳(メタデータ) (2026-01-23T06:28:52Z) - Hidden States as Early Signals: Step-level Trace Evaluation and Pruning for Efficient Test-Time Scaling [19.080366193748127]
大規模言語モデル(LLM)は、複数のトレースを生成することによって、テスト時間スケーリングを通じて推論能力を向上することができる。
長い推論トレースと多重サンプリングの組み合わせは、相当な計算とエンドツーエンドのレイテンシをもたらす。
隠れ状態を用いて推論ステップを評価する新しいプルーニングフレームワークであるStep-level Trace Evaluation and Pruningを提案する。
論文 参考訳(メタデータ) (2026-01-14T02:54:55Z) - Exploring Test-time Scaling via Prediction Merging on Large-Scale Recommendation [13.057539100440634]
テスト期間中に計算資源を効率的に活用し、スケールアップする方法は、まだ未定である。
DLRSにテスト時間スケーリングを適用する上で重要なポイントは、多様だが有意義なアウトプットを効果的に生成することにある。
オンラインデプロイ時の並列サーバの増加により、テスト時間のスケーリングはシームレスに加速できる。
論文 参考訳(メタデータ) (2025-12-08T15:41:10Z) - Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models [52.502867924372275]
Mixture-of-Experts (MoE)モデルは、スパース専門家のアクティベーションを通じて効率的なスケーリングを実現するが、デプロイメントの分散シフトによる最適以下のルーティング決定に悩まされることが多い。
我々は、外部の監視やデータなしで、テキスト生成中にMoEルーティング決定を継続的に適用するテキストタデータフリーオンラインテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T16:24:36Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。