論文の概要: The Standard Interpretable Model: A general theory of interpretable machine learning to deductively design interpretable methods using Lagrangian mechanics
- arxiv url: http://arxiv.org/abs/2606.12289v1
- Date: Wed, 10 Jun 2026 16:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.562741
- Title: The Standard Interpretable Model: A general theory of interpretable machine learning to deductively design interpretable methods using Lagrangian mechanics
- Title(参考訳): 標準解釈モデル:ラグランジアン力学を用いた解法設計のための解釈可能な機械学習の一般理論
- Authors: Pietro Barbiero, Giovanni De Felice, Mateo Espinosa Zarlenga, Francesco Giannini, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra, Ruggero Noris,
- Abstract要約: ラグランジュ力学を基礎とした標準解釈モデル(SIM)を導入し,解釈可能な手法の導出設計を可能にする。
SIMが既存の手法の限界を特定し,解決することを実証的に示す。
SIMは、解釈可能性カリキュラムの教育的基盤を提供し、長い間断片化されてきた分野に対する科学コミュニティの視点を変える可能性がある。
- 参考スコア(独自算出の注目度): 37.30653132093503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Artificial Intelligence models grow in complexity, interpretability has become an indispensable tool for understanding, debugging, and controlling their computations. However, interpretability lacks general theories to deductively design interpretable methods. This gap between theories and methods results in a fragmented literature and inconsistent evaluation protocols. To fill this gap, we introduce the Standard Interpretable Model (SIM), a general theory grounded in Lagrangian mechanics that enables the deductive design of interpretable methods. Specifically, the SIM summarises, in a set of premises, what interpretability is for a target user. From these premises, the SIM systematically derives interpretability symmetries and corresponding constraints, which shape the landscape of a Lagrangian whose minima correspond to optimal interpretable models. To reach the minima, one can either update the parameter values of an opaque model to make it more interpretable or compile constraints into an interpretable architecture. We empirically show that the SIM identifies and solves limitations of existing methods (including traditional, concept-based, and mechanistic interpretability), highlights underexplored research directions, and informs the design of core programming interfaces. Beyond being a research method, the deductive nature of the SIM offers pedagogical grounding for interpretability curricula and may shift the scientific community's perspective of a discipline that has long been fragmented.
- Abstract(参考訳): 人工知能モデルが複雑さを増すにつれ、解釈可能性(interpretability)は、その計算を理解し、デバッグし、制御するための欠かせないツールになっている。
しかし、解釈可能性には解釈可能な手法を導出的に設計する一般的な理論が欠けている。
この理論と方法のギャップは、断片化された文献と一貫性のない評価プロトコルをもたらす。
このギャップを埋めるために,ラグランジュ力学を基礎とした一般理論である標準解釈モデル(SIM)を導入し,解釈可能な手法の導出設計を可能にする。
具体的には、SIMは、一連の前提において、ターゲットユーザにとっての解釈可能性について要約する。
これらの前提から、SIMは解釈可能性対称性とそれに対応する制約を体系的に導き出し、最小値が最適解釈可能なモデルに対応するラグランジアンの風景を形作る。
ミニマに到達するために、不透明なモデルのパラメータ値を更新して、より解釈可能なアーキテクチャに制約をコンパイルすることができる。
SIMは既存の手法(伝統的,概念ベース,機械的解釈可能性を含む)の限界を特定し,解決することを実証的に示し,探索されていない研究の方向性を強調し,コアプログラミングインタフェースの設計を通知する。
SIMの誘引的な性質は、研究方法の他に、解釈可能性のカリキュラムの教育的基盤を提供し、長い間断片化されてきた分野に対する科学コミュニティの視点をシフトさせる可能性がある。
関連論文リスト
- Tracking Equivalent Mechanistic Interpretations Across Neural Networks [13.885265796951705]
機械的解釈可能性(MI)は、ニューラルネットワークを解釈するための新たなフレームワークである。
可能な実装がすべて同値であれば,モデルの2つの解釈が等価である,という原則を提案し,定式化する。
我々は、モデルのアルゴリズム解釈、回路、表現を同時に関連付ける保証を提供する。
論文 参考訳(メタデータ) (2026-03-31T16:57:52Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Information Science Principles of Machine Learning: A Causal Chain Meta-Framework Based on Formalized Information Mapping [7.299890614172539]
本研究は、機械学習における重要な課題、すなわち、統一的な形式的理論的枠組みの欠如と、モデル解釈可能性と倫理的安全性に関する基礎理論の欠如に対処する。
まず、一般的な機械学習段階における存在論的状態とキャリアマッピングを明確に定義し、形式的な情報モデルを構築する。
学習可能な述語と処理可能な述語を導入し、学習と処理機能を導入することにより、機械学習プロセスを管理する因果連鎖論理と制約法を解析する。
論文 参考訳(メタデータ) (2025-05-19T14:39:41Z) - Linearly-Interpretable Concept Embedding Models for Text Analysis [9.340843984411137]
線形解釈可能な概念埋め込みモデル(licEM)を提案する。
licEMs分類精度は既存の解釈可能なモデルよりも優れており、ブラックボックスモデルと一致する。
私たちのモデルが提供する説明は、既存のソリューションに対してより介入可能であり、慎重に整合していることを示します。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。