Fugu-MT 論文翻訳(概要): Trustworthy Visual Predicates for Robust Manipulation Understanding under Degradation

論文の概要: Trustworthy Visual Predicates for Robust Manipulation Understanding under Degradation

arxiv url: http://arxiv.org/abs/2606.08121v1
Date: Sat, 06 Jun 2026 11:53:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.796274
Title: Trustworthy Visual Predicates for Robust Manipulation Understanding under Degradation
Title（参考訳）: 劣化下におけるロバストマニピュレーション理解のための信頼できる視覚表現
Authors: Fatemeh Ziaeetabar,
Abstract要約: 本稿では,ボケ,オクルージョン,照明変化,低解像度,フレームダウン,検出ノイズ下での堅牢な操作理解のための述語レベルの信頼性フレームワークを提案する。制御された操作ビデオと、VISOR/EPIC-KITCHENS、H2O、ARCTICなどの公的なエゴセントリックなデータセットの実験は、述語障害が均一ではなく構造化されていることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Manipulation understanding requires reliable relational evidence, such as contact, support, containment, motion coupling, grasp, release, and active-hand involvement. Although these visual predicates are widely used in event-chain, graph-based, and neuro-symbolic models, their reliability under visual degradation is rarely analyzed directly. This paper introduces a predicate-level reliability framework for robust manipulation understanding under blur, occlusion, illumination change, low resolution, frame dropping, and detection noise. The framework defines a structured predicate vocabulary, confidence-aware predicate estimation, and reliability metrics for predicate preservation, degradation sensitivity, temporal consistency, confidence-weighted stability, and downstream impact. Experiments on controlled manipulation videos and public egocentric or bimanual datasets, including VISOR/EPIC-KITCHENS, H2O, and ARCTIC, show that predicate failures are structured rather than uniform. Static spatial predicates remain comparatively robust, whereas contact-sensitive, dynamic, and derived predicates such as grasp and release are more fragile. Under severe degradation, detection noise, occlusion, and frame dropping cause the strongest reliability losses. Downstream analysis shows that degraded predicates reduce manipulation-understanding accuracy from 0.89 to 0.58, while removing confidence weighting under moderate degradation reduces accuracy from 0.74 to 0.64. These results show that predicate reliability provides a diagnostic layer between visual perception and structured manipulation reasoning.
Abstract（参考訳）: 操作理解には、接触、サポート、封じ込め、動きの結合、把握、解放、アクティブハンドの関与など、信頼できる関係証拠が必要である。これらの視覚的述語はイベントチェーン、グラフベース、ニューロシンボリックモデルで広く用いられているが、視覚的劣化下での信頼性は直接的に分析されることは稀である。本稿では,ボケ,オクルージョン,照明変化,低解像度,フレームダウン,検出ノイズ下での堅牢な操作理解のための述語レベルの信頼性フレームワークを提案する。このフレームワークは、構造化述語語彙、信頼を意識した述語推定、および述語保存、劣化感度、時間的一貫性、信頼度重み付けされた安定性、下流の衝撃に対する信頼性メトリクスを定義する。制御された操作ビデオと、VISOR/EPIC-KITCHENS、H2O、ARCTICなどの公的なエゴセントリックなデータセットの実験は、述語障害が均一ではなく構造化されていることを示している。静的な空間的述語は比較的頑健であるが、接触感受性、動的、派生した述語であるグリップや解放はより脆弱である。過度な劣化の下では、検出ノイズ、閉塞、フレームの落下が最大の信頼性損失の原因となる。下流分析では、劣化した述語は操作不足の精度を0.89から0.58に下げる一方で、適度な劣化下での信頼性の重み付けを除去し、精度を0.74から0.64に下げる。これらの結果は、述語信頼性が視覚知覚と構造化操作推論の間の診断層を提供することを示している。

関連論文リスト

Stabilizing Temporal Inference Dynamics for Online Surgical Phase Recognition [42.76777398447746]
オンライン外科的位相認識(SPR)モデルはフレームの精度が高いが、その予測は時間的安定性に欠けることが多い。この不安定性はランダムノイズではなく、2つのメカニズムから生じることを示す。モデルに依存しないプラグイン・アンド・プレイコンポーネントを用いて時間的推論ダイナミクスを明示的に安定化する統合トレイン・推論・評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-05-11T16:56:15Z)
DO-Bench: An Attributable Benchmark for Diagnosing Object Hallucination in Vision-Language Models [17.5535076530203]
オブジェクトレベルの幻覚は、視覚言語モデルにとって依然として中心的な信頼性の課題である。構造的介入によりソースを分離する制御診断ベンチマークであるDO-Benchを紹介する。対象幻覚は,集合的精度を超える不均一な機構に依存した障害パターンを反映していることを示す。
論文参考訳（メタデータ） (2026-04-18T06:54:02Z)
Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。 EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文参考訳（メタデータ） (2026-04-17T13:27:11Z)
INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚 textscINFACTは、4つのモードでモデルを評価する。 14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文参考訳（メタデータ） (2026-03-12T03:03:16Z)
Self-Aware Object Detection via Degradation Manifolds [3.8265249634979734]
安全クリティカルな設定では、入力が検出器の名目上の操作状態内にあるかどうかを判断することなく予測を行うことはできない。劣化多様体に基づく自己認識フレームワークを提案する。本手法は,コントラスト学習により訓練された軽量な埋め込みヘッドを用いて,標準的な検出バックボーンを増強する。
論文参考訳（メタデータ） (2026-02-20T17:58:46Z)
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文参考訳（メタデータ） (2026-02-13T01:12:00Z)
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文参考訳（メタデータ） (2026-01-09T16:23:21Z)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。 DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。 SLIMはセマンティックリークに特化した最初のデータセットである。
論文参考訳（メタデータ） (2025-10-16T17:39:21Z)
TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文参考訳（メタデータ） (2025-04-20T09:20:55Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。