論文の概要: Venice-H1: Failure-Aware Query Re-Ranking with Multi-Scale Grid Signatures for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2606.22546v1
- Date: Sun, 21 Jun 2026 15:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.128033
- Title: Venice-H1: Failure-Aware Query Re-Ranking with Multi-Scale Grid Signatures for Referring Image Segmentation
- Title(参考訳): Vene-H1:イメージセグメンテーションの参照のためのマルチスケールグリッドシグナチャによるフェールアウェアクエリ再ランキング
- Authors: Nicolò Savioli,
- Abstract要約: 軽量でバックボーンを分離したポストホックリグレードモジュールであるVene-H1は、マルチスケールグリッドシグネチャを通じて、各候補をエンコードする。
ヴェネツィア-H1デルタ_failは+1.40および+0.89 mIoUで、全16/16(スプリット、バックボーン)ペアで95%CIを厳密に陽性とし、有害スウィッチ率は0.53%未満であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Referring Image Segmentation (RIS) systems generate multiple candidate masks per expression but rely on a simple heuristic--typically the argmax detection score--to select the final output. We identify query selection as a failure-case bottleneck: although heuristic selection succeeds on 82-93% of samples, the residual 7-18% of failures dominate the error budget, leaving a best-query selection gap of 3-11% mIoU. We introduce Venice-H1, a lightweight, backbone-decoupled post-hoc re-ranking module that encodes each candidate through multi-scale grid signatures--compact spatial descriptors pooled onto 4x4, 8x8, and 16x16 grids--and feeds them to a Transformer-based re-ranker with a Failure Gate (ROCAUC 0.78-0.82) that intervenes only when the default choice is likely suboptimal. Instantiated on DeRIS-L and DeRIS-B, Venice-H1 achieves delta_fail of +1.40 and +0.89 mIoU with strictly positive 95% CIs on all 16/16 (split, backbone) pairs and harmful-switch rates below 0.53%. Zero-shot transfer to medical referring segmentation (MS-CXR, M3D-RefSeg-2D) yields +1.16 and +0.51 mIoU without RIS-backbone fine-tuning. The module adds approximately 11.3M parameters and under 1 ms latency.
- Abstract(参考訳): Modern Referring Image Segmentation (RIS) システムは、式ごとに複数の候補マスクを生成するが、単純なヒューリスティック(典型的にはargmax検出スコア)に依存し、最終的な出力を選択する。
クエリ選択は,82~93%のサンプルに対してヒューリスティック選択が成功するが,残りの7~18%のエラーがエラー予算を支配し,最良クエリ選択ギャップは3~11% mIoUである。
マルチスケールグリッドシグネチャ(4x4,8x8,16x16グリッドにプールされた空間ディスクリプタをコンパクト化し,デフォルト選択が最適である場合にのみ,フェールゲート(ROCAUC 0.78-2)を備えたトランスフォーマーベースのリランカ(ROCAUC 0.78-0.82)に供給する。
DeRIS-L と DeRIS-B で実証されたヴェネツィア-H1 は +1.40 と +0.89 mIoU の delta_fail を達成する。
医療用参照セグメンテーション(MS-CXR, M3D-RefSeg-2D)へのゼロショット転送は、RISバックボーンを微調整せずに+1.16および+0.51 mIoUを得る。
モジュールには約11.3Mのパラメータと1ミリ秒以下のレイテンシが追加されている。
関連論文リスト
- DeRes: Decoupling Residual Stability and Adaptivity for Scalable CTR Prediction [0.343054185715673]
トランスフォーマーベースのCTRモデルは、残差接続におけるボトルネックの増大に直面している。
最近の注意に基づく残差変種(AttnRes)は、言語モデルにおけるこの部分に対応する。
本稿では,各層を2つの並列経路にルートするDeReについて述べる。
論文 参考訳(メタデータ) (2026-06-06T05:07:16Z) - The frame-level leakage trap: rethinking evaluation protocols for intrinsic image decomposition, with source-separable uncertainty as a case study [0.0]
3つのアーキテクチャで、初めてリーク効果を定量化します。
フレームレベルスプリットは、シーンレベルスプリットに対してR_PSNRを1.6〜2.0dB膨張させる。
我々は、S + N で構成された物理インフォームド分解 I = R を、ソース分離可能な三方向不確実性ヘッドで表現する。
論文 参考訳(メタデータ) (2026-05-07T14:37:16Z) - ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration [0.0]
MAGEのようなマルチエージェントのアプローチはVerilogEvalでは95.9%に達したが、厳しい産業ベンチマークではテストされていない。
本稿では,シンボリック・ニューラル推論と適応型マルチエージェントオーケストレーションを組み合わせた自動RTL生成フレームワークChipCraftBrainを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:20:24Z) - CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution [0.0]
全スライディング画像は、通常、ギガピクセルの解像度を超えるため、計算集約的な生成超解像は、日常的な展開には不実用である。
適応的な1ステップフローマッチングフレームワークであるCAFlowを導入し,各画像タイルを最も浅いネットワーク出口にルーティングする。
多臓器の病理組織学的 x4 SR では、適応的ルーティングは完全な深さで 31.72 dB PSNR と 31.84 dB を達成し、最も浅い出口は SwinIR-light よりも2.8倍少ない計算で +1.9 dB を超える。
論文 参考訳(メタデータ) (2026-03-19T05:45:58Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - End-to-End Implicit Neural Representations for Classification [57.55927378696826]
Inlicit Neural representations (INRs) は、ニューラルネットワークパラメータの信号を符号化し、信号再構成に優れた結果を示す。
INRをベースとした分類は、CNNのようなピクセルベースの手法に比べて、依然としてかなり低性能である。
本研究は,SIRENを学習段階のスキームとともに初期化するエンド・ツー・エンドの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-23T16:02:23Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation [63.13635858586001]
参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)のみを使用して、他のゼロショットベースラインを最大16.5%上回る。
論文 参考訳(メタデータ) (2023-10-20T13:20:17Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。