論文の概要: Toward Low-Latency Vision-Language Models with Doubly-Correct Predictions in Egocentric Visual Understanding
- arxiv url: http://arxiv.org/abs/2606.25160v1
- Date: Tue, 23 Jun 2026 20:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.14087
- Title: Toward Low-Latency Vision-Language Models with Doubly-Correct Predictions in Egocentric Visual Understanding
- Title(参考訳): Egocentric Visual Understandingにおける2重補正型低レイテンシビジョンランゲージモデルに向けて
- Authors: Qitong Wang, Fan Du, Pranav Maneriker, Jihui Jin, Christopher Rasmussen,
- Abstract要約: 本稿では,2重補正のレンズによるVLMプルーニングの新たな研究について述べる。
我々の実験は、既存の刈り取り法は、しばしば正しい証拠の局所化を保っているが、正確な予測を損なうことを示した。
我々は、証拠と判断をよりよく整合させる合理性インフォームドプルーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 7.517359771359122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of Vision-Language Models (VLMs) in egocentric visual understanding has made low-latency inference in human-robot collaborative (HRC) tasks increasingly critical. Weight pruning techniques developed for VLMs to shrink model size and computation can be readily applied to satisfy the efficiency demands of on-board processing and real-time interactive robotics. Moreover, safe human-robot interaction demands pruning strategies that preserve doubly-correct predictions; outputs must be both accurate and evidentially grounded to mitigate risks and ensure user trust. In this paper, we present a new study of VLM pruning through the lens of doubly-correct prediction. Our experiments surprisingly show that existing pruning methods often preserve the right evidence localization but undermine correct prediction. To address this, we propose a rationale-informed pruning strategy that better aligns evidence with decisions. Benchmark results on egocentric video datasets demonstrate that our method not only achieves the highest prediction accuracy but also outperforms existing approaches in attaining doubly-correct predictions. We aim to stimulate research on efficient and reliable VLMs, ensuring accuracy-driven advances align with the transparency, auditability, and safety required for responsible human-robot interaction and embodied intelligence.
- Abstract(参考訳): エゴセントリックな視覚理解における視覚言語モデル(VLM)の急速な増加は、人間ロボット協調作業(HRC)における低遅延推論をますます重要にしている。
モデルサイズと計算を縮小するためにVLM向けに開発された軽量プルーニング技術は、オンボード処理やリアルタイム対話型ロボティクスの効率性を満たすために、容易に適用できる。
アウトプットは、リスクを軽減し、ユーザの信頼を確実にするために、正確かつ明白に基礎を置いていなければならない。
本稿では,2倍精度の予測レンズによるVLMプルーニングの新たな研究について述べる。
我々の実験は、既存の刈り取り法は、しばしば正しい証拠の局所化を保っているが、正確な予測を損なうことを示した。
この問題に対処するために,証拠と意思決定をよりよく整合させる合理的なプルーニング戦略を提案する。
自己中心型ビデオデータセットのベンチマーク結果から,本手法は高い予測精度を達成できるだけでなく,2倍精度の予測を行う既存手法よりも優れていることが示された。
我々は、効率よく信頼性の高いVLMの研究を奨励し、人間とロボットのインタラクションやインテリジェンスに責任を負うために必要な透明性、監査可能性、安全性と精度駆動の進歩を保証することを目的としている。
関連論文リスト
- Trustworthy AI: Ensuring Reliability and Accountability from Models to Agents [2.3407932351117324]
機械学習(ML)システムの信頼性と説明責任を保証するための理論的保証付きアルゴリズムを開発する。
この論文は、情報理論、最適化、統計的学習に基づくツールを導入し、バイアスを緩和し、任意の決定を減らし、コンテンツの証明を保証する。
大規模言語モデル(LLM)の透かしによる生成AIにおける説明責任の確保
論文 参考訳(メタデータ) (2026-05-09T14:11:36Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization [41.15414881730464]
VLM(Vision-Language Models)は、この目標に対して、一般的なパーセプティブ・レアソン・アクティベート・フレームワークを提供する。
従来のアプローチは、ノイズの多い予見予測から状態値の非効率で、しばしば不正確な暗黙の学習に依存していた。
動作生成から状態評価を分離する新しいテスト時間計算フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-22T22:53:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Confidence Calibration in Vision-Language-Action Models [2.230383995796716]
信頼できるロボットの振る舞いは、高いレベルのタスク成功と、それが成功する可能性の確実な定量化を必要とする。
本稿では,視覚言語行動(VLA)基礎モデルにおける信頼度校正に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2025-07-23T10:26:10Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Reasoner Outperforms: Generative Stance Detection with Rationalization for Social Media [12.479554210753664]
本研究は、明確な解釈可能な有理性を含む姿勢予測を含む生成的アプローチを採用する。
姿勢検出に推論を組み込むことで、より小さなモデル(FlanT5)がGPT-3.5のゼロショット性能を上回ることが判明した。
論文 参考訳(メタデータ) (2024-12-13T16:34:39Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。