論文の概要: StereoFactory: A Unified Merging Framework for Robust Stereo Matching
- arxiv url: http://arxiv.org/abs/2606.17475v1
- Date: Tue, 16 Jun 2026 03:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.251156
- Title: StereoFactory: A Unified Merging Framework for Robust Stereo Matching
- Title(参考訳): StereoFactory:ロバストなステレオマッチングのための統合マージフレームワーク
- Authors: Xianda Guo, Pinhan Fu, Ruilin Wang, Wenke Huang, Mang Ye, Qin Zou,
- Abstract要約: ステレオマッチングは、大規模なデータセットでトレーニングされた基礎モデルを通じて進歩しているが、このパラダイムはスケーラビリティのボトルネックに悩まされている。
モデルマージは、ソースチェックポイントが利用可能になった後、特別なモデルからの知識を統合することで、スケーラブルなポストホックな代替手段を提供する。
本稿では,適応モデルマージのための粗大な進化的フレームワークであるStereoFactoryを提案する。
- 参考スコア(独自算出の注目度): 61.973843344605655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching has advanced through foundation models trained on large-scale datasets, yet this paradigm suffers from a scalability bottleneck: incorporating new data requires costly joint retraining. Model merging offers a scalable post-hoc alternative by integrating knowledge from specialized models after source checkpoints are available. However, existing merging methods typically retain all available models or rely on greedy inclusion, which can preserve harmful task-vector interference. We propose StereoFactory, a coarse-to-fine evolutionary framework for adaptive model merging. Stage~1 employs a genetic algorithm to search the combinatorial space of model subsets, determining which models should participate. Stage~2 addresses module-level knowledge specialization (different functional modules exhibit distinct preferences for knowledge sources) through CMA-ES optimization of architecture-adaptive routing over the selected task vectors, with optional module-level scaling. Experiments across two architectures and four benchmarks demonstrate that StereoFactory consistently achieves the best four-benchmark average under the same checkpoint pool, reducing the average error from 3.80 to 3.30 on NMRF and from 2.88 to 2.19 on FoundationStereo relative to the strongest controlled baseline. The post-hoc search requires only 2.7--3.7\% of the corresponding joint-retraining wall-clock time. Analysis reveals that knowledge contributions are inherently module-specific, and selected subsets can transfer across architectures with minimal degradation. Code will be publicly released upon acceptance at: https://github.com/XiandaGuo/StereoFactory.
- Abstract(参考訳): ステレオマッチングは、大規模なデータセットでトレーニングされた基礎モデルを通じて進歩しているが、このパラダイムはスケーラビリティのボトルネックに悩まされている。
モデルマージは、ソースチェックポイントが利用可能になった後、特別なモデルからの知識を統合することで、スケーラブルなポストホックな代替手段を提供する。
しかし、既存のマージ手法は一般的にすべての利用可能なモデルを保持するか、有害なタスクとベクターの干渉を保ちうるグレディなインクルージョンに依存している。
本稿では,適応モデルマージのための粗大な進化的フレームワークであるStereoFactoryを提案する。
Stage~1は、モデルサブセットの組合せ空間を探索するために遺伝的アルゴリズムを使用し、どのモデルに参加するべきかを決定する。
Stage~2は、選択したタスクベクトル上のアーキテクチャ適応ルーティングのCMA-ES最適化を通じて、モジュールレベルの知識専門化(異なる機能的モジュールは知識ソースに対して異なる好みを示す)に対処し、オプションのモジュールレベルのスケーリングを行う。
2つのアーキテクチャと4つのベンチマークの実験により、ステレオファクトリーは一貫して同じチェックポイントプールの下で最高の4つのベンチマーク平均を達成し、NMRFでは平均誤差を3.80から3.30に、FoundationStereoでは2.88から2.19に下げた。
ポストホックサーチは、対応する共同規制壁時計の2.7--3.7\%しか必要としない。
分析によると、知識の貢献は本質的にモジュール固有であり、選択されたサブセットは最小限の劣化でアーキテクチャ間で転送可能である。
コードは https://github.com/XiandaGuo/StereoFactory.com で公開される。
関連論文リスト
- Toward Reproducible Cross-Backend Compatibility for Deep Learning: A Configuration-First Framework with Three-Tier Verification [1.5269986601063288]
本稿では,ディープラーニングシステムにおけるクロスバックエンド互換性を評価するための構成優先フレームワークを提案する。
このフレームワークはYAMLを使ったコードから実験を分離し、ライブラリモデルとリポジトリモデルの両方をサポートし、3層認証プロトコルを使用している。
ランの72.0%が通過し、ほとんどの不一致はより厳格な閾値で発生している。
論文 参考訳(メタデータ) (2025-08-29T16:28:28Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。