論文の概要: Robot Critics that Sweat the Small Stuff
- arxiv url: http://arxiv.org/abs/2606.21572v1
- Date: Fri, 19 Jun 2026 16:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 12:39:00.118739
- Title: Robot Critics that Sweat the Small Stuff
- Title(参考訳): 小さな袋を汗でかすロボット批判
- Authors: Sruthi Sudhakar, Junbang Liang, Sreehari Rammohan, Pavel Tokmakov, Richard Zemel, Carl Vondrick,
- Abstract要約: 本稿では、政策から得られた成功と失敗のロールアウトを用いて、相互進行監視を構築することによって、批評家を微調整する手法を提案する。
我々の批評家は、精密な進行推論と微妙な故障検出に優れており、先行進行推論基準よりも優れています。
- 参考スコア(独自算出の注目度): 44.13358184052461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models contain several priors about the world and object interactions, making them useful critics during inference to steer robot policies towards success. However, closed-loop robot manipulation requires judging small visual differences between success and failure, which remains a challenge for current VLMs. We introduce a method to fine-tune critics by constructing pairwise progress supervision using success and failure rollouts obtained from a policy. Our fine-tuned critic excels at fine-grained progress reasoning and subtle failure detection, outperforming prior progress reasoning baselines. Additionally, we use an action-conditioned video model to predict the visual effect of several candidate actions sampled from a policy, and show that our critic can correctly identify successful candidates to execute, improving the average policy success rate by 11% across real-world tasks and 5.9% across simulation tasks.
- Abstract(参考訳): 大きな視覚言語モデルには、世界とオブジェクトの相互作用に関するいくつかの先行事項が含まれており、ロボットのポリシーを成功に導くための推論において有用な批評家である。
しかし、クローズドループロボットの操作では、成功と失敗の視覚的差異を判断する必要があるため、現在のVLMでは依然として課題である。
本稿では、政策から得られた成功と失敗のロールアウトを用いて、相互進行監視を構築することによって、批評家を微調整する手法を提案する。
我々の微調整された批評家は、きめ細かな進行推論と微妙な失敗検出に優れ、先行進行推論ベースラインよりも優れています。
さらに、アクション条件付きビデオモデルを用いて、ポリシーからサンプリングされたいくつかの候補アクションの視覚効果を予測し、批評家が正しく実行可能な候補を識別できることを示し、現実のタスクで平均的な政策成功率を11%向上し、シミュレーションタスクで5.9%向上した。
関連論文リスト
- DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies [65.27025563507961]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのためのクリティカルフェーズテストタイムドリームフレームワークであるDreamAvoidを提案する。
また、自律的な境界学習パラダイムを導入し、成功と失敗の微妙な境界に対するシステムの理解を深める。
その結果、DreamAvoidは失敗を効果的に回避し、全体的なタスク成功率を改善することができた。
論文 参考訳(メタデータ) (2026-05-12T08:27:16Z) - Asymmetric Actor-Critic for Multi-turn LLM Agents [50.245019205783855]
信頼性のある対話エージェントのための非対称アクター批判フレームワークを提案する。
強力なプロプライエタリなLLMがアクターとして機能し、小さなオープンソース批評家がランタイムの監視を提供する。
提案手法は,強力な単一エージェントベースラインよりも信頼性とタスク成功を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-03-31T22:56:21Z) - Update-Free On-Policy Steering via Verifiers [47.56134859358476]
行動クローニング(BC)は、ロボットが人間の実演を模倣できるようにする最も一般的な方法の1つとなっている。
UF-OPSは,ロボットが動作の成功確率を予測できるアップデートフリーのオンラインステアリング手法である。
シミュレーションと実世界のデータの両方から結果を示し、5つの実タスクにわたる基本方針よりも平均49%の成功率の向上を実現した。
論文 参考訳(メタデータ) (2026-03-10T23:55:52Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。
我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T22:15:59Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Task Success is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors [22.728139463769896]
大規模生成モデルは意味のある候補解を抽出するのに有用であるが、それらはしばしばタスク制約やユーザの好みを見落としている。
具体的AIの文脈では、検証は多くの場合、命令で指定された目標条件が満たされたかどうかのみを評価する。
ロボットタスクのスコープを考えると、Goのような明示的な知識タスクに使用されるものに似たスクリプト検証を構築することは不可能である。
大きなビジョンと言語モデル(VLM)は、ビデオの中の望ましくないロボットの振る舞いを捉えるために、スケーラブルな行動批判として、ほぼ全能的なものですか?
論文 参考訳(メタデータ) (2024-02-06T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。