論文の概要: Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms
- arxiv url: http://arxiv.org/abs/2606.08236v1
- Date: Sat, 06 Jun 2026 15:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.986359
- Title: Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms
- Title(参考訳): 共有セマンティクス, 多様性メカニズム: セマンティクスとメカニズムの調整による教師なし特徴発見
- Authors: Hyunjin Cho, Youngji Roh, Jaehyung Kim,
- Abstract要約: 回路解析は機械的解釈可能性において中心的なアプローチであるが、通常は標的条件である。
分布レベルの非教師付き特徴発見を導入する。
クラスタリングとステアリング分析を通じて、発見されたクラスタは、単一ビューのベースラインが見逃す継続モードを公開する。
- 参考スコア(独自算出の注目度): 6.233211865365017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models are increasingly deployed in high-stakes settings, there is a growing need for tools that audit not only model outputs but also the internal computations that produce them. Circuit analysis is a central approach in mechanistic interpretability, but it is typically target-conditioned, explaining a single prompt paired with a chosen completion. This target-conditioned setup can obscure heterogeneity across a model's continuation distribution. We introduce distribution-level unsupervised feature discovery, which clusters sampled continuations using both semantic content and sequence-level mechanistic attributions, without manually specifying target outputs. Our method represents each continuation with a semantic embedding and a prefix-to-continuation attribution signature, then optimizes a rate-distortion objective that trades off semantic coherence, mechanistic consistency, and cluster granularity. Across clustering and steering analyses, the discovered clusters expose continuation modes that single-view baselines miss and provide interventional evidence that cluster signatures correspond to actionable mechanistic factors. Overall, our approach complements circuit analysis and behavioral evaluation by providing a scalable audit of the mechanisms underlying a model's continuation distribution.
- Abstract(参考訳): 大規模言語モデルがハイテイクな設定でデプロイされる傾向にあるため、モデル出力だけでなく、それらを生成する内部計算も監査するツールの必要性が高まっている。
回路解析は機械的解釈可能性において中心的なアプローチであるが、通常は目標条件付きであり、選択された完了とペアの1つのプロンプトを説明する。
この目標条件設定は、モデルの継続分布をまたいだ不均一性を引き起こす。
本稿では,意味的内容とシーケンスレベルの機械的属性の両方を用いて,対象の出力を手動で指定することなく連続をサンプリングする分布レベルの非教師付き特徴発見手法を提案する。
提案手法は,セマンティック・埋め込みとプレフィックス・ツー・コンティニュエーション・アトリビューション・シグネチャを用いて各継続を表現し,セマンティック・コヒーレンス,メカニスティック・一貫性,クラスタの粒度をトレードオフするレート・歪み目標を最適化する。
クラスタリングとステアリング解析を通して、発見されたクラスタは、単一ビューベースラインが見逃す継続モードを公開し、クラスタシグネチャが実行可能な機械的要因に対応するという介入的な証拠を提供する。
提案手法は,モデル継続分布の基盤となるメカニズムのスケーラブルな監査を提供することにより,回路解析と行動評価を補完する。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Explainable cluster analysis: a bagging approach [3.5173697454104844]
同様の観察をどの特徴がグループ化するかについての洞察を与える方法はめったにない。
本稿では,バギングと機能ドロップアウトを統合したアンサンブルベースのクラスタリングフレームワークを提案する。
その効果は、複数のシミュレートされた実世界のデータセットで実証されている。
論文 参考訳(メタデータ) (2026-03-20T10:34:04Z) - Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents [81.79110139097297]
汎用埋め込みモデルは意味的類似性を認識するのに優れているが、ユーザ命令で指定されたテキストの特徴を捉えることができない。
我々は、命令追従クラスタリングを生成タスクとして再編成し、大規模推論モデルを自律的なクラスタリングエージェントとして訓練する。
我々の推論駆動学習パイプラインは、LEMがハイレベルクラスタリング命令を解釈し、対応する潜在グループを推測することを可能にする。
論文 参考訳(メタデータ) (2026-03-06T10:15:54Z) - GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering [9.33534873952683]
本稿では,非教師付き時系列クラスタリングのための局所的およびグローバル的対実的説明性を橋渡しする,最初の統一フレームワークであるGALACTICを紹介する。
インスタンスレベル(ローカル)では、GALACTICはクラスタ認識最適化の目的を通じて摂動を生成する。
クラスタレベル(グローバル)では、認知負荷を軽減し、解釈可能性を高めるため、代表的なCE選択問題を定式化する。
論文 参考訳(メタデータ) (2026-03-05T15:59:33Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Causal Unsupervised Semantic Segmentation [60.178274138753174]
教師なしセマンティックセグメンテーションは、人間のラベル付きアノテーションなしで高品質なセマンティックセマンティックセグメンテーションを実現することを目的としている。
本稿では、因果推論からの洞察を活用する新しいフレームワークCAUSE(CAusal Unsupervised Semantic sEgmentation)を提案する。
論文 参考訳(メタデータ) (2023-10-11T10:54:44Z) - Robust Hierarchical Clustering for Directed Networks: An Axiomatic
Approach [13.406858660972551]
有向ネットワークに対するロバストな階層的クラスタリング手法の完全な分類学的特徴を提供する。
本稿では,階層クラスタリングにおけるロバスト性に関連する3つの実用的特性について紹介する。
また,本手法の実装に対処し,実データへのアプリケーション記述を行う。
論文 参考訳(メタデータ) (2021-08-16T17:28:21Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。