論文の概要: Rational Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2606.14990v2
- Date: Tue, 16 Jun 2026 02:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.723174
- Title: Rational Sparse Autoencoder
- Title(参考訳): 合理的スパースオートエンコーダ
- Authors: Naiyu Yin, Yue Yu,
- Abstract要約: 本稿では、固定エンコーダアクティベーションをトレーニング可能な有理関数に置き換えるRational Sparse Autoencoder(RSAE)を紹介する。
RSAEは、リコンストラクションサイドメトリクスと下流ビヘイビアメトリクスの両方において、微調整後の厳格な改善を行っている。
これらのゲインはホスト言語モデル、ベースラインアクティベーションファミリ、そしてテストしたベースラインの完全範囲にわたって一貫しています。
- 参考スコア(独自算出の注目度): 14.27315714880774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are standard tools for mechanistic interpretability, but current SAE families are constrained by fixed encoder nonlinearities such as ReLU, JumpReLU, and TopK. This hard-codes a particular sparsity mechanism into the model and can distort the reconstruction-versus-sparsity trade-off. We introduce the Rational Sparse Autoencoder (RSAE), which replaces the fixed encoder activation with a trainable rational function. Rational activations are flexible enough to uniformly approximate the activation primitives used by existing SAE families on compact domains (for TopK, the thresholded gate obtained after a separating top-k threshold is supplied), while also providing a richer function class for adapting to the observed pre-activation geometry. We realise this idea through a two-stage pipeline: an initialisation procedure that copies the pre-trained baseline SAE weights, plugs in rational coefficients obtained by the relaxed Remez exchange on synthetic data, and calibrates the scale parameters along with the rational coefficients; followed by a fine-tuning step under the standard sparsity-regularised reconstruction objective. Empirically, on residual-stream activations of three open-weight language models and across all three baseline activation families, the RSAE strictly improves on it after the fine-tuning step, both on reconstruction-side metrics and on downstream-behaviour metrics, without sacrificing feature-level interpretability under sparse probing. These gains are consistent across host language models, across baseline activation families, and across the full range of baseline sparsity we tested, while the upgrade itself adds only a handful of scalar parameters per autoencoder and runs in minutes on a single consumer GPU.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は機械的解釈の標準的なツールであるが、現在のSAEファミリーはReLU、JumpReLU、TopKなどの固定エンコーダ非線形性によって制約されている。
これにより、特定の疎結合機構をモデルにハードコードし、再構成対疎結合のトレードオフを歪ませることができる。
本稿では、固定エンコーダアクティベーションをトレーニング可能な有理関数に置き換えるRational Sparse Autoencoder(RSAE)を紹介する。
合理的なアクティベーションは、コンパクトドメイン上の既存のSAEファミリーが使用するアクティベーションプリミティブ(TopKの場合、トップk閾値の分離後に得られる閾値ゲートが供給される)を均一に近似するのに十分柔軟であり、また、観察された事前アクティベーション幾何に適応するためのよりリッチな関数クラスを提供する。
このアイデアは、2段階のパイプラインを通して実現される: 事前訓練されたベースラインSAE重みをコピーし、緩和されたRemez交換によって得られた有理係数を合成データ上にプラグインし、その有理係数とともにスケールパラメータを校正する初期化手順。
実験的に、3つのオープンウェイト言語モデルの残ストリームアクティベーションと3つのベースラインアクティベーションファミリーの残ストリームアクティベーションにおいて、RSAEは、スパースプローブ下での特徴レベルの解釈性を犠牲にすることなく、再構築側メトリクスと下流側メトリクスの両方において、微調整後の厳密な改善を行う。
これらのゲインは、ホスト言語モデル、ベースラインアクティベーションファミリ、そして私たちがテストしたベースラインの完全範囲にわたって一貫していますが、アップグレード自体はオートエンコーダ毎にわずかなスカラーパラメータのみを追加し、単一のコンシューマGPU上で数分で実行します。
関連論文リスト
- Temporal Functional Circuits: From Spline Plots to Faithful Explanations in KAN Forecasting [0.0]
ヴィジュアライゼーションとは異なり、KAN(Kolmogorov-Arnold Networks)はすべてのコネクションで学習可能なエッジ関数を明示する。
本稿では,kanエッジ関数を忠実な説明に変換するフレームワークであるTemporal Functional Circuitsを紹介する。
論文 参考訳(メタデータ) (2026-05-07T05:23:39Z) - ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation [3.8707695363745214]
ReHARKは、グローバルな近位正規化を通じて、少数ショット適応を再解釈する、トレーニング不要のフレームワークである。
ワンショット適応のための新しい最先端技術がReHARKによって確立され、平均精度は65.83%である。
論文 参考訳(メタデータ) (2026-03-12T04:59:09Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。