論文の概要: Fursee: Hybrid YOLO-DINOv3 Framework for Fursuit Identity Retrieval and Clustering
- arxiv url: http://arxiv.org/abs/2606.22872v1
- Date: Mon, 22 Jun 2026 05:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:24:43.647017
- Title: Fursee: Hybrid YOLO-DINOv3 Framework for Fursuit Identity Retrieval and Clustering
- Title(参考訳): Fursee: FursuitID検索とクラスタリングのためのハイブリッドYOLO-DINOv3フレームワーク
- Authors: Jundi Wu,
- Abstract要約: 一般的なマルチモーダルモデルは、複雑なファースーツシーンの専用最適化を欠いている。
本稿では,3段階のハイブリッドパイプラインFurseeについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global furry conventions produce massive fursuit photographs, while manual sorting brings heavy labor costs and calls for automatic identity retrieval and clustering solutions. General multimodal models lack dedicated optimization for complex fursuit scenes, and no public benchmark dataset exists for this task. To fill this gap, we build a specialized fursuit image dataset and present a three-stage hybrid pipeline Fursee for fursuit identity retrieval and clustering. First, YOLO detects and crops high-resolution fursuit head patches to improve localization of small and overlapping targets. Second, ArcFace optimizes DINOv3 embeddings to enlarge angular separation between different identities on the feature hypersphere. Third, DBSCAN performs unsupervised clustering, with silhouette-coefficient-driven search automatically selecting optimal hyperparameters rather than fixed manual radius. Retrieval and clustering experiments verify that our pipeline outperforms mainstream multimodal models including GPT5.5, Claude Opus 4.8 and Qwen3.7-Plus on all evaluation metrics, achieving competitive performance for fursuit head retrieval and grouping.
- Abstract(参考訳): グローバル・ファリー・コンベンションは大規模な毛皮スーツの写真を制作する一方、手作業による仕分けは重労働のコストと自動ID検索とクラスタリングソリューションの要求をもたらす。
一般的なマルチモーダルモデルは複雑なファースーツシーンの専用最適化を欠き、このタスクには公開ベンチマークデータセットは存在しない。
このギャップを埋めるために、我々は専用のファースーツ画像データセットを構築し、ファースーツ識別検索とクラスタリングのための3段階ハイブリッドパイプラインFurseeを提示する。
まず、YOLOは、小さなターゲットと重なり合うターゲットのローカライズを改善するために、高解像度の毛皮の頭部パッチを検出し、収穫する。
第2に、ArcFaceはDINOv3埋め込みを最適化し、特徴超球面上の異なるアイデンティティ間の角分離を拡大する。
第三に、DBSCANは教師なしクラスタリングを行い、シルエット係数駆動による探索は、固定された手動半径ではなく最適なハイパーパラメータを自動的に選択する。
GPT5.5、Claude Opus 4.8、Qwen3.7-Plusといった主流のマルチモーダルモデルに対して,検索およびクラスタリング実験により,全ての評価指標においてパイプラインが優れた性能を発揮することを確認した。
関連論文リスト
- Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration [0.0]
AFBS-BOは、人間の介入なしに最適な層と頭固有のハイパーパラメータを発見する、完全に自動化されたフレームワークである。
Llama-2-7Bでは、AFBS-BOはハイパーパラメータ発見を3.4倍加速し、グリッドサーチよりも8.8倍少ない評価を行う。
手動で調整されたプリミティブから自己最適化プリミティブに変換することで、AFBS-BOは様々なトランスフォーマーアーキテクチャやドメイン間のプラグアンドプレイアクセラレーションを可能にする。
論文 参考訳(メタデータ) (2026-03-19T02:24:38Z) - VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification [8.232394238006167]
VP-Hypeは、状態空間モデルの線形時間効率と変換器のリレーショナルモデリングを統合することで、HSI分類を再考するフレームワークである。
堅牢な3D-CNNスペクトルフロントエンド上に構築されたVP-Hypeは、従来のアテンションブロックをHybrid Mamba-Transformerバックボーンに置き換える。
トレーニングサンプルの分布は2%に過ぎず、Salinasデータセットで99.69%、Longkouデータセットで99.45%の総合精度(OA)を達成した。
論文 参考訳(メタデータ) (2026-03-01T16:24:09Z) - Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation [68.95366581365829]
パノラマ距離深度基礎モデルを提案する。
我々は、公開データセット、UE5シミュレーターとテキスト・ツー・イメージ・モデルからの高品質な合成データ、Webからの実際のパノラマ画像を組み合わせることで、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2025-12-18T18:59:29Z) - FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models [59.8871829077739]
FastFitは、キャッシュ可能な新しい拡散アーキテクチャに基づいた、高速なマルチ参照仮想試行フレームワークである。
本モデルでは,パラメータのオーバーヘッドを無視して参照特徴符号化をデノナイズ処理から完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップで損失なく再利用される。
論文 参考訳(メタデータ) (2025-08-28T09:25:52Z) - Unsupervised Deep Clustering of MNIST with Triplet-Enhanced Convolutional Autoencoders [0.0]
本研究は、MNIST手書き桁のための高度な教師なしクラスタリングシステムを実装した。
ディープ・ニューラル・オートエンコーダは、画像の最小でも解釈可能な表現を開発するために、フェーズ1のトレーニングプロセスを必要とする。
論文 参考訳(メタデータ) (2025-06-11T18:26:13Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - HybridGait: A Benchmark for Spatial-Temporal Cloth-Changing Gait
Recognition with Hybrid Explorations [66.5809637340079]
そこで本研究では,第1世代CCGaitベンチマークを提案する。
我々は3次元メッシュの時間的ダイナミクスと投影された2次元情報の両方を利用する。
私たちのコントリビューションは2つあります: 拡張された空間にわたる現実的な外見の変化をキャプチャする、挑戦的なベンチマークCCGaitを提供しています。
論文 参考訳(メタデータ) (2023-12-30T16:12:13Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。