論文の概要: The Cross-Architecture Substrate: A Domain-Transcendent, Calibration-Surviving Geometric Invariant of Modern Vision Encoders
- arxiv url: http://arxiv.org/abs/2606.07882v1
- Date: Fri, 05 Jun 2026 22:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.505176
- Title: The Cross-Architecture Substrate: A Domain-Transcendent, Calibration-Surviving Geometric Invariant of Modern Vision Encoders
- Title(参考訳): クロスアーキテクチャ基板:モダンビジョンエンコーダのドメイントランジェント、キャリブレーション・サバイブリング幾何学不変量
- Authors: Yousef Radwan,
- Abstract要約: 訓練後、13の現代の視覚エンコーダ内の変化の上位16の主方向は同じ16次元の幾何学的対象に収束する。
ラベルなし転送性フィルタがLogMEを圧倒し、四方向ドメイン検出器(99.6%の精度)、凍結ローショットプローブ(16ディムが768dim DINOv2を3.78ppのN=50ラベルで破る)の4つのアプリケーションを提供している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different vision neural networks -- trained to classify, contrast, reconstruct, or match images to text -- should have correspondingly different internal representations. We report that they do not. After training, the top sixteen principal directions of variation inside thirteen modern vision encoders converge to the same sixteen-dimensional geometric object. We call this the cross-architecture substrate and study it with PCA, centred kernel alignment (CKA), and Pang 2026 calibration. The substrate transports across four visual domains (natural photographs, medical CT, satellite, microscopy) at median Procrustes-CKA 0.679, and across eight domains (adding sketches, depth, thermal infrared, astronomy) at 0.604, every pair >0.40. It survives Pang calibration globally (7.4x disc-vs-MAE separation, n=13,394) and locally (4.82-5.30, p<10^{-44}). It is not pixel statistics (0.263), not Gabor features (0.31), not a random projection (0.041), and emerges in the first 10% of training while accuracy keeps climbing. We deliver four applications: a label-free transferability filter beating LogME (3x faster, +0.15 Kendall-tau); a four-way domain detector (99.6% accuracy); a frozen low-shot probe (16 dims beat 768-dim DINOv2 by 3.78pp at N=50 labels per class); and a teacher-free distillation auxiliary matching trained-teacher KD on 33 pairs (7.56pp peak gain at 10% label fraction). The substrate does not cross modalities, does not help cross-paradigm distillation, and does not predict transfer quality (rho=0.08 against transfer accuracy).
- Abstract(参考訳): 異なるビジョンニューラルネットワーク -- イメージをテキストに分類、コントラスト、再構成、マッチングするように訓練された — は、それぞれ異なる内部表現を持つべきである。
我々はそうでないと報告する。
訓練後、13の現代の視覚エンコーダ内の変化の上位16の主方向は同じ16次元の幾何学的対象に収束する。
これをクロスアーキテクチャ基板と呼び、PCA、センターカーネルアライメント(CKA)、Pang 2026キャリブレーションで研究する。
基板は4つの視覚領域(自然写真、医学CT、衛星、顕微鏡)を中央のProcrustes-CKA 0.679で輸送し、8つの領域(スケッチ、深度、熱赤外、天文学)をそれぞれ0.604で輸送する。
Pangキャリブレーション(ディスク-vs-MAE7.4x、n=13,394)と局所(4.82-5.30、p<10^{-44})を全世界で維持する。
ピクセル統計(0.263)ではなく、Gaborの特徴(0.31)ではなく、ランダムな投影(0.041)ではなく、トレーニングの最初の10%で現れるが、精度は上昇し続ける。
我々は,LogME(3倍高速,+0.15Kendall-tau),4方向ドメイン検出器(99.6%精度),凍結型ローショットプローブ(16ディムが768-dim DINOv2を3.78pp,N=50ラベルで3.78pp),33対(7.56ppピークゲイン10%)の教師なし蒸留支援KDの4つのアプリケーションを提供している。
基板はモダリティを超越せず、パラダイム蒸留を助長せず、転送品質を予測しない(転送精度に対してrho=0.08)。
関連論文リスト
- Single-Channel Tissue Segmentation via Cross-Modal Distillation from Foundation Models [0.0]
多重蛍光顕微鏡は、核(DAPI)と膜(E-カドヘリン)を含む相補的なチャネルを提供することで組織セグメンテーションを改善する
本研究では,核チャネルのみで動作する軽量の学生に,凍結基礎モデル教師による多重入力処理から意味情報を伝達するクロスモーダルな知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-30T23:34:49Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Paired-CSLiDAR: Height-Stratified Registration for Cross-Source Aerial-Ground LiDAR Pose Refinement [46.13526676100776]
Paired-CSLiDAR(英語版)は、シングルスキャンポーズリファインメントのためのクロスソース空地LiDARベンチマークである。
このベンチマークには6つの評価サイトで12,683組の地上空対が含まれている。
本稿では,RGSR(Residual-Guided Stratified Registration)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:14:20Z) - KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment [0.0]
KAYRAは、臨床細胞遺伝学研究室の運用上の制約の中で機能するエンドツーエンドの核タイピングシステムである。
KAYRAはコンテナ化されたマイクロサービスパイプラインとして設計されており、MLスタックにはEfficientNet-B5 + U-Netセマンティックセグメント、Mask R-CNN(ResNet-50 + FPN)インスタンス、ResNet-18インスタンスが組み込まれている。
459染色体上の2つの商用基準核型分類システムに対する試験的臨床評価は、強い経験的性能を示す。
論文 参考訳(メタデータ) (2026-04-29T16:35:31Z) - Architectural Observability Collapse in Transformers [0.0]
トレーニングは、出力信頼が露呈しない内部的な意思決定品質のシグナルを保持します。
信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。
Llama 3.1 8Bは、同じ32層、32頭、4096面の形状で崩壊する。
論文 参考訳(メタデータ) (2026-04-27T02:39:02Z) - Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales [0.0]
スペクトル圧縮,ブロックレベル関数置換,回転ベース量子化,アクティベーション幾何,適応早期出口について検討した。
圧縮に関連する5つの構造特性を同定する。
論文 参考訳(メタデータ) (2026-04-22T15:31:46Z) - Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement [0.0]
視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
論文 参考訳(メタデータ) (2026-03-06T16:48:27Z) - Pillar-0: A New Frontier for Radiology Foundation Models [41.640120966890954]
腹部骨盤CT42,990例,胸部CT86,411例,頭部CT14,348例,胸部MRI11,543例にPillar-0を導入した。
Pillar-0は平均86.4、88.0、90.1、82.9のAUROCを達成し、MedGemma (Google)、MedImageInsight (Microsoft)、Lingshu (Alibaba)、Merlin (スタンフォード)を7.8-15.8のAUROCポイントで上回り、87.2% (319/366)タスクでランクインしている。
論文 参考訳(メタデータ) (2025-11-21T21:50:34Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。