論文の概要: Phase-Localized Curation Does Not Help: A Negative Result on Per-Phase Metric Selection for Demonstration Filtering
- arxiv url: http://arxiv.org/abs/2606.15064v1
- Date: Sat, 13 Jun 2026 02:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.757639
- Title: Phase-Localized Curation Does Not Help: A Negative Result on Per-Phase Metric Selection for Demonstration Filtering
- Title(参考訳): 位相ローカライズされたキュレーションは役に立たない:デモレーションフィルタにおける1相あたりのメトリクス選択の負の結果
- Authors: Aarav Bedi,
- Abstract要約: 初期リリース構造欠陥を制御した3つの接触リッチLIBEROピック・アンド・プレイス・タスクに対して, 位相当たりの仮説を検証した。
条件ごとに3つのタスクと5つのランダムなシードに対して、フェーズゲートキュレーションは最良のキュレーション戦略ではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manipulation demonstrations have temporal phase structure, and a natural hypothesis is that demonstration-curation metrics should be applied within phases rather than globally. The idea is to segment each trajectory into phases, score each phase with the metric that is locally most informative, and then aggregate. This follows directly from prior work showing that a single global metric can be the best detector of a defect and yet the worst curator of the resulting policy. We test the per-phase hypothesis on three contact-rich LIBERO pick-and-place tasks with a controlled early-release structural defect, comparing phase-gated curation against the same metrics applied uniformly and against a strong single global metric. Across all three tasks and five random seeds per condition, phase-gated curation is never the best curation strategy, and it is the worst of the three on two of the three tasks (Task 1: 86.0 vs. 92.0 for global; Task 3: 22.7 vs. 48.0 for uniform). We trace the failure to a concrete mechanism. When the defect signal is concentrated in a single phase, rank-aggregating across phases dilutes that signal with uninformative scores from defect-free phases, selecting a worse demonstration subset than simply applying the defect-informative metric everywhere. We further show that the per-phase metric selection does not transfer across tasks, since no phase shares a winning metric between any two tasks, so the selection cannot be reused and must be re-derived per task from a noisy sweep. These results bound a plausible and previously untested method, and they argue that practitioners should prefer identifying a single defect-informative metric over decomposing curation by phase. We release the full pipeline, all metric implementations, and per-seed results.
- Abstract(参考訳): マニピュレーション・デモは時相構造を持ち、自然な仮説として、デモ・キュレーション・メトリクスは世界規模ではなく、フェーズ内で適用されるべきである。
この考え方は、各軌道を位相に分割し、各位相を局所的に最も情報的な計量でスコアし、集約する。
これは、単一大域計量が欠陥の最良の検出器でありながら、結果として得られるポリシーの最悪のキュレーターであることを示す以前の研究から直接従う。
初期リリース構造欠陥を制御した3つの接触リッチLIBEROピック・アンド・プレイスタスクの位相差仮説を検証し、一様かつ強い単一グローバルな測定値と比較した。
3つのタスクと5つのランダムなシードに対して、フェーズゲートのキュレーションは必ずしも最良のキュレーション戦略ではなく、3つのタスクのうちの2つの中で最悪である(タスク1:86.0、グローバルは92.0、タスク3:22.7、ユニフォームは48.0)。
私たちはその失敗を具体的なメカニズムに辿った。
欠陥信号が単一位相に集中すると、欠陥のない位相から不定値の信号が拡散し、欠陥非定値法を至る所で適用するよりも悪いデモサブセットが選択される。
さらに、各相の計量選択は、どの2つのタスク間でも勝利のメートル法を共有できないため、その選択は再利用できず、ノイズの多いスイープからタスク毎に再抽出されなければならないため、タスク間で遷移しないことを示す。
これらの結果は、実証不可能で未検証の手法に結びついており、実践者は、フェーズごとにキュレーションを分解するよりも、単一の欠陥情報量を特定することを好む、と彼らは主張する。
完全なパイプライン、すべてのメトリック実装、およびシーケンス毎の結果をリリースしています。
関連論文リスト
- Auditing Demonstration Curation Metrics: Action-Only Scorers Fail on the Structural Defects That Degrade Imitation Policies [0.0]
模倣学習ポリシーは、訓練されたデモの品質を継承する。
キュレーションメトリクスの集合は、低品質のデモを自動的にスコアとフィルタリングすることを約束します。
デモの欠陥を既知の型で注入する制御されたテストベッドを構築します。
論文 参考訳(メタデータ) (2026-06-04T02:07:27Z) - Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry [3.2848713528308817]
大規模言語モデルは多段階の推論で幻覚するが、既存の検出器のほとんどはトレースレベルで動作する。
我々はこのビューをラベル付き教師で運用し、トレース固有のコントラスト型PCAレンズを構築する。
コントラストPCAが第1次誤差と正しい状態の移動分離目標の最適投影であることを示す。
論文 参考訳(メタデータ) (2026-05-13T16:48:48Z) - Measuring Temporal Linguistic Emergence in Diffusion Language Models [0.0]
拡散言語モデルは明示的な聴覚的軌跡を露呈する。
WikiText-103テキスト上でLLaDA-8B-Baseの3つの独立した32ステップ実行について検討する。
論文 参考訳(メタデータ) (2026-04-25T10:17:47Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。