論文の概要: BiliVLA: Scene-Aware Vision-Language-Action Model with Reinforcement Learning for Autonomous Biliary Endoscopic Navigation
- arxiv url: http://arxiv.org/abs/2606.23531v1
- Date: Mon, 22 Jun 2026 16:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:27:12.784205
- Title: BiliVLA: Scene-Aware Vision-Language-Action Model with Reinforcement Learning for Autonomous Biliary Endoscopic Navigation
- Title(参考訳): BiliVLA:自律的胆道内視鏡ナビゲーションのための強化学習を用いたシーン認識型視覚・言語・行動モデル
- Authors: Jinsong Lin, Chi kit Ng, Zhiyong Xiong, Zikang Pan, Yihan Hu, Tabassum Tamima, Ziyi Hao, Eddie Cheung, Jiewen Lai, Huxin Gao, Hongliang Ren,
- Abstract要約: 内視鏡的逆行性胆管膵管造影(ERCP)は正確な内視鏡ナビゲーションと安定した胆道狭窄を必要とする。
最近のロボットシステムと視覚に基づく支援技術は、オペレーター・エルゴノミクスを改善し、知覚的手がかりを提供する。
本稿では,ビジュモータ学習問題として胆道内視鏡ナビゲーションを定式化するシーン認識型視覚・言語・アクションフレームワークであるBiliVLAを提案する。
- 参考スコア(独自算出の注目度): 6.2182538853159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic retrograde cholangiopancreatography (ERCP) demands precise endoscopic navigation and stable biliary cannulation within a narrow monocular field characterized by specular reflections, partial occlusions, and frequent tissue contact. Although recent robotic systems and vision-based assistance techniques improve operator ergonomics and provide perceptual cues, their performance degrades under pronounced anatomical variability and safety-critical visual artifacts, which hinders reliable autonomy in cannulation-grade procedures. Here, we present BiliVLA, a scene-aware Vision-Language-Action (VLA) framework that formulates biliary endoscopic navigation as an instruction-conditioned visuomotor learning problem. Given an endoscopic observation and a stage-specific language instruction, BiliVLA jointly predicts the target category, a grounded bounding box, and a discrete three degrees of freedom (DoF) motor command for a continuum endoscope. The proposed framework incorporates scene-aware supervision to enhance semantic target consistency and safety-aware recovery supervision to induce conservative retreat behaviors under luminal wall contact. A key component of BiliVLA is a two-stage training paradigm that combines grounding-enhanced supervised fine-tuning (SFT) with Group Relative Policy Optimization (GRPO), which significantly improves action reliability and decision consistency during closed-loop navigation. Across three ERCP subtasks, BiliVLA achieves an average action precision of 91.96\% and an overall success rate (SR) of 84.85\% in real-world phantom experiments. These results indicate that integrating semantic grounding, scene-aware learning, and reward-guided optimization improves perception-action alignment and enables robust autonomous endoscopic navigation.
- Abstract(参考訳): 内視鏡的逆行性胆管膵管造影 (ERCP) は, 鏡視反射, 部分閉塞, 頻繁な組織接触を特徴とする細い単眼領域において, 正確な内視鏡的ナビゲーションと安定した胆道狭窄を要求される。
近年のロボットシステムと視覚に基づく支援技術は、操作者のエルゴノミクスを改善し、知覚的手がかりを提供するが、その性能は、解剖学的変動と安全クリティカルな視覚的アーティファクトの下で低下し、缶詰の手順における信頼性の高い自律性を妨げている。
本稿では,ビリVLA(Vision-Language-Action, VLA)フレームワークについて述べる。
内視鏡的観察とステージ固有の言語指導を与えられたBiliVLAは、目標カテゴリー、接地境界箱、連続内視鏡のための離散3自由度運動指令を共同で予測する。
提案フレームワークは,シーンアウェアの監視を取り入れ,セマンティックターゲットの一貫性と安全アウェアリカバリの監視を強化し,光壁接触下での保守的退避動作を誘導する。
BiliVLAの重要なコンポーネントは、2段階のトレーニングパラダイムであり、グラウンドリング強化された教師付き微調整(SFT)とグループ相対ポリシー最適化(GRPO)を組み合わせることで、クローズドループナビゲーション時の動作信頼性と決定整合性を大幅に改善する。
3つのERCPサブタスクの中で、BiliVLAは91.96\%の平均的な行動精度と84.85\%の総合的な成功率を達成する。
これらの結果は, セマンティックグラウンド, シーン認識学習, 報酬誘導最適化を組み合わせることで, 知覚・行動アライメントが向上し, 堅牢な自律型内視鏡ナビゲーションが可能となることを示す。
関連論文リスト
- Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs [66.15429821530503]
Persistent Visual Memoryは、ビジュアルエビデンスへの持続的でオンデマンドアクセスを強化するために設計された、軽量の学習可能なモジュールである。
Qwen3-VLモデルの実験は、PVMが無視可能なパラメータオーバーヘッドで顕著な改善をもたらすことを示した。
詳細な分析により、PVMはより長い世代で堅牢性が向上し、内部予測収束が加速することが明らかとなった。
論文 参考訳(メタデータ) (2026-05-01T17:54:37Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining [15.995867664955348]
本稿では,ハイレベルな視覚言語推論と低レベルなクローズドループ制御を併用したストラテジグラウンドフレームワークを提案する。
オフラインで生の外科的ビデオは、カメラ関連の時間的イベントに解析され、属性付きイベントグラフとして構造化される。
オンラインでは、微調整されたビジョン・ランゲージ・モデル(VLM)がライブ腹腔鏡像を処理し、支配的な戦略と離散的な画像ベースのモーションコマンドを予測する。
論文 参考訳(メタデータ) (2026-02-24T02:56:39Z) - Sample-Efficient Learning with Online Expert Correction for Autonomous Catheter Steering in Endovascular Bifurcation Navigation [9.822810178672782]
強化学習(Reinforcement Learning, RL)は, 自律型カテーテルステアリングにおいて有望なアプローチである。
本稿では,自動カテーテルステアリングのためのオンライン専門家補正機能を備えたサンプル効率のよいRLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-23T07:58:08Z) - Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Towards Autonomous Navigation in Endovascular Interventions [0.7100795934780609]
この論文は、複雑な血管環境における自律的なガイドワイヤナビゲーションのための統合AI駆動フレームワークを提示している。
高忠実でリアルタイムなシミュレーションプラットフォームであるCathSimは、強化学習に基づくカテーテルナビゲーションのために導入された。
Expert Navigation Networkは、自律的なツールコントロールのための視覚的、運動的、強制的なフィードバックを融合させるポリシーである。
論文 参考訳(メタデータ) (2025-12-19T21:38:52Z) - DINO-CVA: A Multimodal Goal-Conditioned Vision-to-Action Model for Autonomous Catheter Navigation [0.33727511459109777]
本研究は,マルチモーダルな目標条件行動クローニングフレームワークであるDINO-CVAの導入により,自律カテーテルナビゲーションへ移行する。
提案モデルでは,視覚観測とジョイスティックのキネマティクスを統合埋め込み空間に融合し,視覚とキネマティクスの両方を意識したポリシーを実現する。
その結果, DINO-CVAは動作予測の精度が高く, キネマティクスのみのベースラインの性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-19T22:59:32Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy [26.132684811981143]
VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合する。
EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
論文 参考訳(メタデータ) (2025-05-21T07:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。