論文の概要: SceneMiner: Identity-Preserving Multi-Task Fine-Tuning for Unified BEV Scene Mining
- arxiv url: http://arxiv.org/abs/2606.11507v1
- Date: Tue, 09 Jun 2026 22:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.210681
- Title: SceneMiner: Identity-Preserving Multi-Task Fine-Tuning for Unified BEV Scene Mining
- Title(参考訳): SceneMiner: 統一型BEVシーンマイニングのためのアイデンティティ保護型マルチタスクファインタニング
- Authors: Abdalmalek Aburaddaha, Venkatraman Narayanan, Keval Thaker, Samir A. Rawashdeh,
- Abstract要約: SceneMinerはカメラ専用のパイプラインで、凍結した視覚言語で書かれたバックボーンから補完的なマイニング信号を出力する。
テキストプロンプトされたシナリオ検索、複数ラベルのシーンタグの配信、連続的な物理ベースのリスクスコアをサポートする。
我々の貢献は、アイデンティティを保存するマルチタスクの微調整であり、新しいすべてのサブモジュールをゼロ初期化することで、この干渉を取り除く。
- 参考スコア(独自算出の注目度): 2.4089107936585235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mining hard, safety-critical scenes from driving logs is bottlenecked by the absence of difficulty labels, and no single proxy, collision risk, trajectory ambiguity, or semantic rarity suffices to find such scenes on its own. We present SceneMiner, a unified, camera-only bird's-eye-view pipeline that emits complementary mining signals from a frozen vision-language backbone in a single forward pass, with no LiDAR or radar: a retrieval embedding for text-prompted scenario search, a multi-label scene-tag distribution, and a continuous physics-based risk score (a motion forecast is a byproduct, not a contribution). Building such a multi-head model exposes our central finding, a failure mode we term cross-task interference: adding or upgrading one head shifts a shared activation stream and degrades weight-frozen sibling heads, so freezing parameters alone is insufficient. Our contribution, identity-preserving multi-task fine-tuning, removes this interference by zero-initializing every new sub-module and freezing every parameter that feeds the shared stream. The mining heads are thereby preserved bit-identically while training only ~102k parameters. The tagging head reaches mAP 0.4614 (micro-F1 0.5557) on 20 scene tags by pooling each scene into 32 visual tokens, and the embedding head supports text-prompted retrieval, validated qualitatively. Code is available at: https://anonymous.4open.science/r/sceneminer_anonymous-64E5
- Abstract(参考訳): 困難ラベルがないことや、衝突リスク、軌跡の曖昧さ、意味の希薄さなど、単一のプロキシが存在しないことで、ログの運転から厳しいシーンをマイニングすることはボトルネックとなる。
我々は,LiDARやレーダーを使わずに,凍結した視覚言語バックボーンから補完的なマイニング信号を単一の前方通過で出力する,統合されたカメラオンリーの鳥眼ビューパイプラインであるSceneMinerを紹介した。
このようなマルチヘッドモデルの構築は,我々の中心的な発見,すなわちクロスタスク干渉(cross-task interference)という障害モードを明らかにする。
我々の貢献は、アイデンティティを保存するマルチタスクの微調整であり、新しいサブモジュールをゼロにし、共有ストリームをフィードするパラメータを凍結することで、この干渉を取り除く。
これにより、マイニングヘッドは102kのパラメータのみをトレーニングしながらビット単位に保存される。
タグヘッドは、各シーンを32の視覚トークンにプールすることで、20のシーンタグ上のmAP 0.4614(micro-F1 0.5557)に達する。
https://anonymous.4open.science/r/sceneminer_anonymous-64E5
関連論文リスト
- Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding [9.094828055298166]
事故をいつ,何,どこで理解するかを分解する3段階パイプラインを提案する。
ゼロショット映像理解を時間的局所化,意味分類,空間的グラウンド化に分解することで,より信頼性の高い推論が可能になることを示す。
論文 参考訳(メタデータ) (2026-06-10T13:12:40Z) - Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus [0.0]
セマンティックドライブ(Semantic-Drive)は、セマンティックなデータマイニングのための、ローカルファーストで、ニューロシンボリックなフレームワークである。
提案手法は,(1)リアルタイムオープン語彙検出装置(YOLOE)によるグラウンドニングと,(2)推論VLMによる認知分析の2つの段階に分離する。
論文 参考訳(メタデータ) (2025-12-12T20:07:04Z) - Funnel-HOI: Top-Down Perception for Zero-Shot HOI Detection [3.656114607436271]
人間オブジェクトの相互作用検出(Human-object Interaction Detection, HOID)とは、画像中の対話的な人間オブジェクトのペアをローカライズし、その相互作用を識別することである。
本研究では,Funnel-HOIというトップダウンフレームワークを構築した。
新規な非対称なコアテンション機構は、マルチモーダル情報(ゼロショット機能を含む)を利用してこれらのキューをマイニングし、エンコーダレベルでより強力な相互作用表現を生成する。
論文 参考訳(メタデータ) (2025-07-16T20:47:24Z) - ZeroStereo: Zero-shot Stereo Matching from Single Images [17.560148513475387]
ゼロショットステレオマッチングのための新しいステレオ画像生成パイプラインであるZeroStereoを提案する。
提案手法は, 単眼深度推定モデルにより生成された擬似格差を利用して, 高品質な右画像の合成を行う。
我々のパイプラインは、Scene Flowに匹敵するデータセットボリュームで複数のデータセットにまたがる最先端のゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:43:48Z) - A Fair Ranking and New Model for Panoptic Scene Graph Generation [51.78798765130832]
Decoupled SceneFormer(DSFormer)は、既存のすべてのシーングラフモデルよりも優れた2段階モデルである。
基本設計原則として、DSFormerは被写体とオブジェクトマスクを直接特徴空間にエンコードする。
論文 参考訳(メタデータ) (2024-07-12T12:28:08Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。