論文の概要: S$^2$COPE: Self-Supervised Concept Discovery via Preference Learning
- arxiv url: http://arxiv.org/abs/2606.14586v1
- Date: Fri, 12 Jun 2026 16:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.976057
- Title: S$^2$COPE: Self-Supervised Concept Discovery via Preference Learning
- Title(参考訳): S$^2$COPE: 優先度学習による自己監督型概念発見
- Authors: Shilong Xiang, Zirui Zhang, Chengzhi Mao,
- Abstract要約: 我々は、このジレンマを解決するラベルのないフレームワークであるPreference lEarning (model)を通して、セルフ・スーパーバイザード・コンセプト・ディスクOveryを紹介します。
我々の研究は、人間の監督なしに、モデルが付随する視覚構造と自律的に相互作用することで、解釈可能性が生まれることを示唆している。
- 参考スコア(独自算出の注目度): 15.951097715837799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current representation learning paradigms force a fundamental compromise: self-supervised methods scale to massive datasets but yield opaque features, whereas interpretable models remain bottlenecked by the need for dense human annotation. We introduce Self-Supervised Concept discOvery via Preference lEarning (\model), a label-free framework that resolves this dilemma. Instead of treating Vision-Large-Language Models (VLLMs) as static feature extractors, \model leverages them as active participants in a self-supervised preference optimization loop. By autonomously hypothesizing, validating, and reinforcing candidate visual attributes directly from raw imagery, our framework discovers novel, structured concepts without a single label. Extensive experiments across natural, medical, and physics domains demonstrate that \model successfully extracts domain-specific concepts where standard VLLMs often fail to generate. By amortizing concept discovery directly into the VLLM backbone through our self-supervised preference objective -- rather than relying on static generation and disjoint filtering -- we achieve up to a 24-point absolute improvement in downstream top-1 classification accuracy on unseen data. Our work suggest that interpretability can emerge through a model's autonomous interaction with incidental visual structures, without any human supervision.
- Abstract(参考訳): 現在の表現学習パラダイムは基本的な妥協を迫られている: 自己教師的手法は大量のデータセットにスケールするが、不透明な特徴をもたらす。
我々は、このジレンマを解決するラベルのないフレームワークであるPreference lEarning (\model)を通して、セルフ・スーパーバイザード・コンセプト(Self-Supervised Concept)を紹介します。
Vision-Large-Language Models (VLLMs) を静的特徴抽出器として扱う代わりに、Shamodel はそれらを自己教師付き優先最適化ループのアクティブな参加者として利用する。
提案手法は,自然画像から直接,候補となる視覚特性を自律的に仮説化し,検証し,強化することにより,単一のラベルなしで新規で構造化された概念を発見できる。
自然、医学、物理学の領域にわたる大規模な実験では、標準のVLLMがしばしば生成できないドメイン固有の概念をうまく抽出できることが示されている。
概念発見を直接VLLMのバックボーンに保存することで -- 静的生成や不整合フィルタリングに頼るのではなく -- 監視されていないデータに対するダウンストリームトップ1の分類精度を24ポイントまで改善するのです。
我々の研究は、人間の監督なしに、モデルが付随する視覚構造と自律的に相互作用することで、解釈可能性が生まれることを示唆している。
関連論文リスト
- Online Self-Calibration Against Hallucination in Vision-Language Models [23.13137973421435]
LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像にない視覚的詳細を含む記述を生成する。
textbfOnline textbfSelf-textbfCAlibtextbfRation (OSCAR) を提案する。
論文 参考訳(メタデータ) (2026-05-01T01:03:05Z) - Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness [16.541207762213272]
視覚変換器(ViT)は、しばしば急激な相関に依存するため、分布シフトによって劣化する。
概念レベルのセマンティクスに対する推論をモデル化する,新たなファインタニングフレームワークを提案する。
提案手法は,複数のViTモデル間のロバスト性を向上する。
論文 参考訳(メタデータ) (2026-03-09T12:31:14Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。
本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T01:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。