論文の概要: ARTEMIS: Agent-guided Reliability-aware Temporal Mask Evolution for Imperfectly Supervised Video Polyp Segmentation
- arxiv url: http://arxiv.org/abs/2606.20161v1
- Date: Thu, 18 Jun 2026 12:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.850019
- Title: ARTEMIS: Agent-guided Reliability-aware Temporal Mask Evolution for Imperfectly Supervised Video Polyp Segmentation
- Title(参考訳): ARTEMIS:完璧に監督されたビデオポリープセグメンテーションのためのエージェント誘導信頼性を考慮したテンポラルマスクの進化
- Authors: Tong Wang, Siwen Wang, Yaolei Qi, Jinxing Zhou, Yuting He, Guanyu Yang, Yutong Xie,
- Abstract要約: ARTEMISは、不完全な教師付きビデオポリプセグメンテーションのための統一されたフレームワークである。
エージェント誘導型信頼性を考慮した時間マスクの進化によって駆動される。
SUN-SEGとCVC-ClinicDB-612のスクリブル、ポイント、リミテッドラベル設定による実験は、ARTEMISが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 17.166331884648915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imperfectly supervised video polyp segmentation (VPS) aims to learn dense, temporally consistent masks from inexpensive supervision, including weak annotations (points, scribbles) and semi-supervision with few densely labeled frames. This setting is clinically valuable but challenging due to weak contrast, ambiguous boundaries, motion blur, and specular highlights, compounded by sparse pixel-level guidance. While SAM2 can generate dense masks from sparse inputs, direct pseudo-labeling often yields geometry-degraded masks with boundary leakage, underutilizes temporal consistency, and ignores reliability. To address these issues, we propose ARTEMIS, a unified framework for imperfectly supervised VPS driven by agent-guided reliability-aware temporal mask evolution. ARTEMIS initializes coarse masks from available supervision: SAM2 converts points/scribbles, while dense labels serve as reliable anchors. A debate-and-judge vision-language agent selects reliable temporal anchors under weak supervision, which are propagated bidirectionally with SAM2 to refine unreliable or unlabeled frames. Finally, ARTEMIS trains the segmenter using temporal reliability-aware robust learning, incorporating reliability-guided reference selection, a Reference Prototype Transport Module, and reliability-aware robust loss. These components assess mask reliability, evolve anchors over time, transport target identity across frames, and down-weight noisy supervision instead of discarding difficult samples. Experiments on SUN-SEG and CVC-ClinicDB-612 under scribble, point, and limited-label settings demonstrate that ARTEMIS achieves state-of-the-art performance. Code will be released at https://github.com/wangtong627/ARTEMIS.
- Abstract(参考訳): 不完全な教師付きビデオポリプセグメンテーション(VPS)は、弱いアノテーション(ポイント、スクリブル)や、濃密にラベル付けされたフレームが少ない半スーパービジョンを含む、安価な監督から、密で時間的に一貫したマスクを学ぶことを目的としている。
この設定は臨床的に価値はあるが、コントラストの弱さ、曖昧な境界、動きのぼやけ、特異なハイライトなどにより困難である。
SAM2はスパース入力から密度の高いマスクを生成することができるが、直接の擬似ラベルは境界漏れを伴う幾何学的に劣化したマスクを生成し、時間的一貫性を弱め、信頼性を無視する。
これらの問題に対処するため,エージェント誘導型信頼性を考慮した時間マスクの進化により,VPSを不完全に制御する統合フレームワークであるARTEMISを提案する。
SAM2はポイント/スクリブルを変換し、密度の高いラベルは信頼性の高いアンカーとして機能する。
ディベート・アンド・ジャッジの視覚言語エージェントは、信頼性の高い時間アンカーを弱監督下で選択し、SAM2と双方向に伝播して信頼性の低いフレームやラベルなしフレームを洗練させる。
最後に、ARTEMISは、時間的信頼性に配慮したロバスト学習を使用してセグメンタをトレーニングし、信頼性に配慮した参照選択、参照プロトタイプトランスポートモジュール、信頼性に配慮したロバスト損失を組み込んだ。
これらのコンポーネントは、マスクの信頼性を評価し、時間とともにアンカーを進化させ、フレームをまたいでターゲットのアイデンティティを移動させ、難しいサンプルを捨てるのではなく、低騒音の監視を行う。
SUN-SEGとCVC-ClinicDB-612のスクリブル、ポイント、リミテッドラベル設定による実験は、ARTEMISが最先端のパフォーマンスを達成することを示す。
コードはhttps://github.com/wangtong627/ARTEMIS.comでリリースされる。
関連論文リスト
- AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE [51.994752158953084]
AnchorMoEは、解釈可能な構成別分類フレームワークである。
ローカルパッチのマルチビュー表現をエンコードし、専門の専門家にルーティングする。
実世界のベンチマークと合成ベンチマークの実験は、AnchorMoEが非常に競争力のある分類性能を達成することを示した。
論文 参考訳(メタデータ) (2026-06-02T13:30:54Z) - Weakly Supervised Camouflaged Object Detection Based on the SAM Model and Mask Guidance [49.06684374007753]
制約を克服するために,キャモフラージュされた物体検出のための新しい弱い教師付きアプローチを導入する。
具体的には,エッジのあいまいさに対処し,検出に失敗する新しいネットワークMGNetを提案する。
そこで本研究では,Segment Anything Model(SAM)とバウンディングボックスプロンプトを併用して擬似ラベルを生成するBoxSAMを提案する。
論文 参考訳(メタデータ) (2026-05-25T03:26:13Z) - DPM++: Dynamic Masked Metric Learning for Occluded Person Re-identification [32.9985650634494]
DPM++は、排除された人物の再識別のための動的マスクドメトリックラーニングフレームワークである。
入力適応マスク付きメトリックを学習し、隠蔽されたインスタンスごとに信頼性の高いIDサブスペースを動的に選択する。
全体的なシナリオと排他的シナリオの両方において、従来の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-07T17:47:23Z) - SAMIDARE: Advanced Tracking-by-Segmentation for Dense Scenarios [14.682073556734515]
SAMIDAREは、密集したシーンにおける多目的追跡を強化するフレームワークである。
これはSportsMOTデータセットの堅牢性を達成し、ベースラインを2.5 HOTAと4.2 IDF1ポイントで上回る。
これらの結果から,マスク制御とステート・アウェア・アソシエーションを用いた適応型特徴管理が,高密度スポーツトラッキングの堅牢かつ効率的なソリューションであることが示された。
論文 参考訳(メタデータ) (2026-04-24T02:22:27Z) - Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - ${D}^{3}${ETOR}: ${D}$ebate-Enhanced Pseudo Labeling and Frequency-Aware Progressive ${D}$ebiasing for Weakly-Supervised Camouflaged Object ${D}$etection with Scribble Annotations [35.83125554386894]
D3$ETORは、Dbate-Enhanced Pseudo Labelingと Frequency-Aware Progressive Debiasingで構成される2段階のWSCODフレームワークである。
適応的なエントロピー駆動点サンプリング法と多エージェントの議論機構を導入し,CODのためのSAMの能力を高める。
第2段階では、多レベル周波数認識機能を融合したFADeNetを設計し、グローバルな意味理解と局所的な詳細モデリングのバランスをとる。
論文 参考訳(メタデータ) (2025-12-23T11:16:16Z) - FrameShield: Adversarially Robust Video Anomaly Detection [16.21127415496373]
Weakly Supervised Video Anomaly Detection (WSVAD)は目覚ましい進歩を遂げているが、既存のモデルは敵攻撃に弱いままであり、信頼性が制限されている。
本研究では、時間的整合性を維持しつつ、通常のビデオの局所化領域に重篤な拡張を加えて合成異常を生成する「時空間歪み(Spatiotemporal Region Distortion, SRD)」と呼ばれる新しい擬似異常生成手法を提案する。
提案手法は,WSVADモデルの敵攻撃に対するロバスト性を大幅に向上させ,複数のベンチマークでAUROC全体のパフォーマンスを平均71.0%向上させる。
論文 参考訳(メタデータ) (2025-10-24T14:59:43Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。