論文の概要: Zero-Shot Test-Time Canonicalization using Out-of-Distribution Scoring
- arxiv url: http://arxiv.org/abs/2606.24178v1
- Date: Tue, 23 Jun 2026 06:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.799495
- Title: Zero-Shot Test-Time Canonicalization using Out-of-Distribution Scoring
- Title(参考訳): Out-of-Distribution Scoring を用いたゼロショットテスト時間正準化
- Authors: Dominik Lindner, Johann Schmidt, Tom Siegl, Martin Becker, Sebastian Stober,
- Abstract要約: 事前訓練された視覚モデルは、しばしば回転、スケール、またはせん断された入力を誤分類する。
テスト時の正準化は代わりに入力を無タッチで残す。
我々は,OODスコアが必要とされる場合にのみ入力を変換するゲート機構を開発する。
- 参考スコア(独自算出の注目度): 4.454031533784339
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretrained vision models often misclassify inputs that are rotated, scaled, or sheared, even though these affine transformations leave the object class unchanged. Robustness is usually restored either by building equivariance into the architecture or by retraining with augmentation, both of which require changing or retraining the model. Test-time canonicalization instead leaves the classifier untouched. It undoes the transformation of each input, mapping it to a canonical form near the training distribution before classification. Existing canonicalizers, however, rely on a narrow set of logit-based energy scores and bespoke search procedures, leaving the design space of scoring functions and optimizers unexplored. We reframe canonicalization as out-of-distribution (OOD) detection, which lets any OOD score serve as the energy minimized over transformations. Across benchmarks ranging from handwritten characters and sketches to natural images and 3D point clouds, we systematically evaluate around twenty OOD scores and nine search algorithms, finding that distance-based scores paired with random search and local refinement perform best overall. Because canonicalizing an already-aligned input can hurt accuracy, we add a gated mechanism that transforms an input only when its OOD score indicates this is needed, preserving most in-distribution accuracy while retaining the robustness gains on transformed inputs. Code is available at github.com/johschm/its.
- Abstract(参考訳): 事前訓練された視覚モデルはしばしば、アフィン変換がオブジェクトクラスを変更せずにいながら、回転、スケール、またはせん断された入力を誤分類する。
ロバスト性は通常、アーキテクチャに等価性を構築するか、拡張で再トレーニングすることで復元される。
テスト時の正準化は代わりに、分類器に手を加えないままにしておく。
これは各入力の変換を解き、分類前のトレーニング分布の近くの標準形式にマッピングする。
しかし、既存の正規化器は、ロジットベースの限られたエネルギースコアと、探索手順に依存しており、スコアリング関数とオプティマイザの設計空間は未探索のままである。
正規化をアウト・オブ・ディストリビューション(OOD)検出として再設定することで、任意のOODスコアが変換よりも最小化されたエネルギーとして機能します。
また,手書き文字やスケッチから自然画像,3次元点群に至るまで,20点のOODスコアと9つの探索アルゴリズムを体系的に評価し,ランダムな検索と局所的な改良を組み合わせた距離ベーススコアが,全体として最良であることを確認した。
既に整列した入力の正準化は精度を損なう可能性があるため、OODスコアがそれが必要な場合にのみ入力を変換するゲート機構を追加し、変換された入力のロバスト性を保ちながら、最も分布内精度を維持する。
コードはgithub.com/johschm/itsで入手できる。
関連論文リスト
- Robust Canonicalization through Bootstrapped Data Re-Alignment [5.437226012505534]
昆虫や鳥の識別などのきめ細かい視覚分類タスクは、微妙な視覚的手がかりに対する感受性を必要とする。
分散を低減してトレーニングサンプルを反復的に調整するブートストラップアルゴリズムを提案する。
本手法は,拡張と同等の性能を保ちながら,同変および正準化ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-09T13:05:20Z) - Network Inversion for Uncertainty-Aware Out-of-Distribution Detection [2.6733991338938026]
アウト・オブ・ディストリビューション(OOD)検出と不確実性推定は、安全な機械学習システムを構築する上で重要な要素である。
OOD検出と不確実性推定の両方に対処するために,ネットワークインバージョンと分類器学習を組み合わせた新しいフレームワークを提案する。
我々のアプローチはスケーラブルで解釈可能であり、外部のOODデータセットやポストホックキャリブレーション技術へのアクセスを必要としない。
論文 参考訳(メタデータ) (2025-05-29T13:53:52Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - READ: Aggregating Reconstruction Error into Out-of-distribution
Detection [5.069442437365223]
ディープニューラルネットワークは異常なデータに対する過信であることが知られている。
本稿では,READ(Reconstruction Error Aggregated Detector)を提案する。
本手法は,従来のOOD検出アルゴリズムと比較して,FPR@95TPRの平均値を最大9.8%削減する。
論文 参考訳(メタデータ) (2022-06-15T11:30:41Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Pose Recognition with Cascade Transformers [31.7059023190426]
変換器を用いた回帰型ポーズ認識手法を提案する。
ヒートマップベースおよび回帰ベースの手法は高い精度を達成するが、様々な設計の対象となる。
実験では, 競合回帰法と比較して, ポーズ認識の競合結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T17:00:22Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。