論文の概要: What Demonstration Curation Metrics Do to Your Policy
- arxiv url: http://arxiv.org/abs/2606.10229v1
- Date: Mon, 08 Jun 2026 22:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.218508
- Title: What Demonstration Curation Metrics Do to Your Policy
- Title(参考訳): 実証カリキュラムのメトリクスがあなたのポリシーに何をするか
- Authors: Aarav Bedi,
- Abstract要約: 本研究は,欠陥のあるトレーニングエピソードを検出する実演キュレーション指標が,キュレートされたデータに基づいてトレーニングする下流行動閉鎖ポリシーを改善できるかどうかを考察する。
最大欠陥検出AUROC(0.804)の基準が最悪の治療方針(13.3%のタスク成功)を生んでいることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether demonstration-curation metrics that detect defective training episodes also improve the downstream behavior-cloning policy that trains on the curated data. On a contact-rich LIBERO pick-and-place benchmark with a controlled structural defect (early gripper release during the carry phase), we find that the two quantities are sharply decoupled. The metric with the highest defect-detection AUROC (0.804) produces the worst curated policy (13.3% task success), while a metric with a substantially lower AUROC (0.638) produces a policy that nearly matches the oracle trained on ground-truth clean data (90.0% vs. 93.3%). We further show that five of the seven metrics we evaluate exploit episode length as a trivial proxy for the defect label, a confound that inflates reported AUROCs to near-perfect values and disappears once episode length is controlled. Across all conditions, the contaminated baseline succeeds on only 3.3% of rollouts, and the two best curation methods close this to within 3 percentage points of the 93.3% oracle ceiling. Our results argue that curation methods should be evaluated by the policy they produce, not the defects they flag, and that any curation benchmark must control for episode length before reporting detection accuracy. We release the testbed, all metric implementations, and the evaluation pipeline.
- Abstract(参考訳): 本研究は,欠陥のあるトレーニングエピソードを検出する実演キュレーション指標が,キュレートされたデータに基づいてトレーニングする下流行動閉鎖ポリシーを改善できるかどうかを考察する。
制御された構造欠陥を有する接触リッチLIBEROピック・アンド・プレース・ベンチマーク(搬送段階でのグリッパー放出)では,2つの量が急激に分離されていることがわかった。
最も欠陥検出率の高いAUROC(0.804)は、最悪のキュレートされたポリシー(13.3%のタスク成功)を、AUROC(0.638)は、地上の清潔なデータ(90.0%対93.3%)で訓練されたオラクルとほぼ一致したポリシーを生成する。
さらに,報告したAUROCをほぼ完全な値に膨らませ,エピソード長を制御した後に消失させるコンファウンドとして,エピソード長を利用した7つの指標のうち5つを欠陥ラベルの自明なプロキシとして評価した。
あらゆる条件において、汚染されたベースラインはロールアウトのわずか3.3%で成功し、2つの最良のキュレーション法は93.3%のオラクル天井の3パーセントの範囲に閉じている。
以上の結果から, カーレーション手法は, フラグが示す欠陥ではなく, 生成するポリシによって評価されるべきであり, 検出精度を報告する前に, どのカーレーションベンチマークでもエピソード長を制御しなければならない,という結論が得られた。
テストベッド、すべてのメトリック実装、評価パイプラインをリリースします。
関連論文リスト
- Auditing Demonstration Curation Metrics: Action-Only Scorers Fail on the Structural Defects That Degrade Imitation Policies [0.0]
模倣学習ポリシーは、訓練されたデモの品質を継承する。
キュレーションメトリクスの集合は、低品質のデモを自動的にスコアとフィルタリングすることを約束します。
デモの欠陥を既知の型で注入する制御されたテストベッドを構築します。
論文 参考訳(メタデータ) (2026-06-04T02:07:27Z) - VNDUQE: Information-Theoretic Novelty Detection using Deep Variational Information Bottleneck [4.618615226841302]
深部変分情報ボトルネック(VIB)による新規性検出の検討
我々は,MNIST 上の VIB モデルを保持桁クラスで学習し,情報理論の指標である KL の発散と予測エントロピーを用いて OOD 検出を評価する。
論文 参考訳(メタデータ) (2026-05-12T05:31:44Z) - Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study [51.717224133855886]
サードパーティのスキルはLLMエージェントを強力な能力で拡張するが、特権のある環境では機密情報を扱うことが多い。
静的解析,サンドボックステスト,手動検査を用いて17,022のスキル(SkillsMPで170,226からサンプリング)を分析した。
我々は,1,708の課題で520の脆弱なスキルを識別し,10の漏洩パターン(事故4件,反対6件)の分類を導出する。
論文 参考訳(メタデータ) (2026-04-03T14:50:16Z) - Hierarchy-Guided Topology Latent Flow for Molecular Graph Generation [44.50339042016925]
本稿では,グローバルコンテキストに対する潜在的マルチスケールプランを用いた3次元座標を用いた結合グラフを生成するプランナー・エグゼクタモデルを提案する。
HLTFは98.8%の原子安定性と92.9%の有効・均一性を達成し、PoseBustersの妥当性は94.0%(+0.9)に向上した。
GEOM-DRUGSでは、HLTFは後処理なしで85.5%/85.0%の妥当性/バリッド・ユニク・ノーベル、標準化された緩和後の92.2%/91.2%を達成している。
論文 参考訳(メタデータ) (2026-03-28T03:48:13Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。