論文の概要: Explaining Black-Box Language Models: Learning to Optimize Linguistically-Structured Word Subsets
- arxiv url: http://arxiv.org/abs/2606.08497v1
- Date: Sun, 07 Jun 2026 07:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.160743
- Title: Explaining Black-Box Language Models: Learning to Optimize Linguistically-Structured Word Subsets
- Title(参考訳): ブラックボックス言語モデルの説明:言語学的に構造化された単語サブセットを最適化する学習
- Authors: Minyoung Hwang, Seokhyun Lee, Changhee Lee,
- Abstract要約: ディープ言語モデル(DLM)は、医療などの高度な領域にますますデプロイされている。
これらのDLMがブラックボックスシステムとして動作する場合、この重要なレベルの解釈可能性を達成することは特に困難である。
入力単語の小さな情報サブセットを選択することで,DLMの予測を説明する手法を提案する。
- 参考スコア(独自算出の注目度): 14.370360290704197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As deep language models (DLMs) are increasingly deployed in high-stakes domains such as healthcare, understanding their decision rationale becomes paramount for ensuring trust, safety, and accountability. However, achieving this vital level of interpretability is particularly challenging when these DLMs operate as black-box systems (e.g., via APIs), where access to internal model states (e.g., parameters, gradients) is restricted. Despite numerous efforts, existing explanation methods often fail to concurrently satisfy three key desiderata: (i) inference-time efficiency, (ii) black-box compatibility without inducing out-of-distribution behavior, and (iii) comprehensible explanations grounded in the input's linguistic structure. To address these challenges, we propose a method that explains predictions of DLMs by selecting a small, informative subset of input words. We formulate this as an amortized optimization problem, enabling efficient one-shot inference without the need for input-specific search. Our selection policy is trained via REINFORCE-style policy gradients, allowing discrete word selection in a fully gradient-free setting. To enhance interpretability and align with human linguistic intuition, we integrate graph-structured knowledge into this selection process, fostering linguistically coherent subsets that result in explanations both highly informative and cognitively meaningful to end-users. We evaluated our method on diverse DLM architectures and multiple real-world datasets. It consistently identifies word subsets with enhanced discriminative power and stronger alignment with linguistically salient cues, outperforming both conventional black-box compatible methods and gradient-based approaches that are given oracle access to the black-box model's gradients for a more challenging benchmark. Our code is available at here.
- Abstract(参考訳): ディープ・ランゲージ・モデル(DLM)は、医療などのハイテイクな領域にますます導入されているため、信頼、安全、説明責任を確保する上で、彼らの意思決定の根拠を理解することが最重要となる。
しかし、これらのDLMがブラックボックスシステム(例えばAPI)として機能し、内部モデル状態(例えばパラメータ、勾配)へのアクセスが制限される場合、この重要なレベルの解釈可能性を達成することは特に困難である。
多くの努力にもかかわらず、既存の説明方法は3つの重要なデシダータを同時に満たさないことが多い。
(i)推論時間の効率
(二)配当行為を誘発しないブラックボックス互換性、及び
三 入力の言語構造に根ざした理解可能な説明。
これらの課題に対処するために、入力単語の小さな情報サブセットを選択することにより、DLMの予測を説明する手法を提案する。
我々はこれを償却最適化問題として定式化し、入力固有探索を必要とせずに効率的なワンショット推論を可能にする。
我々の選択ポリシーはREINFORCEスタイルのポリシー勾配によって訓練されており、完全に勾配のない環境で個別の単語選択を可能にする。
解釈可能性を高め,人間の言語的直観と整合させるため,我々はグラフ構造化された知識をこの選択プロセスに統合し,言語的に一貫性のあるサブセットを育成し,エンドユーザーにとって極めて有意義かつ認知的に意味のある説明をもたらす。
本手法は,多種多様なDLMアーキテクチャと実世界の複数のデータセットを用いて評価した。
識別力の強化と言語的に有能な手がかりとの整合性を高めた単語サブセットを一貫して定義し、従来のブラックボックス互換手法と、より困難なベンチマークのためにブラックボックスモデルの勾配へのオラクルアクセスを与えられる勾配に基づくアプローチの両方より優れている。
私たちのコードはここにある。
関連論文リスト
- Joint Semantic Token Selection and Prompt Optimization for Interpretable Prompt Learning [57.91658393667469]
Interpretable Prompt Learningは、個別の意味トークンの選択と連続的なプロンプト最適化を交互に行うハイブリッドフレームワークである。
我々のフレームワークはプラグイン・アンド・プレイであり、既存の即興学習手法とシームレスに統合できる。
論文 参考訳(メタデータ) (2026-05-06T02:38:59Z) - Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading [34.923407379006626]
多くのシーケンシャルな意思決定問題は階層構造を示し、ハイレベルなセマンティックな選択は下流の動作を制限し、フィードバックは遅延し曖昧である。
この課題は、資産対選択のための長期水平意味推論と、部分的可観測性の下での短期水平実行を自然に組み合わせたドメインであるペアトレーディングを通じて研究する。
階層的強化学習問題としてペアトレーディングを定式化し,高レベルかつ低レベルのポリシを大言語モデル(LLM)でパラメータ化し,即時更新によってのみ最適化する言語駆動型最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-03T16:37:52Z) - SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - Beyond the Black Box: Integrating Lexical and Semantic Methods in Quantitative Discourse Analysis with BERTopic [0.0]
MAXQDAやNVivoのようなブラックボックスソフトウェアは、方法論的透明性と研究目標との整合性を損なうリスクがある。
本稿では, 三角法, 三角法, 解釈可能性を実現するために, 語彙的, 意味的手法を組み合わせたQDA用ハイブリッド・透明なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T15:00:04Z) - Instruction Learning Paradigms: A Dual Perspective on White-box and Black-box LLMs [29.224895952158274]
両パラダイムの長所をシームレスにマージする新しいフレームワークを導入する。
私たちのアプローチは、最先端のベースラインを一貫して上回ります。
このブラックボックスの初期化と高度なセマンティックリファインメントの融合は、スケーラブルで効率的な解をもたらす。
論文 参考訳(メタデータ) (2025-06-14T14:27:54Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Uniform Discretized Integrated Gradients: An effective attribution based method for explaining large language models [0.0]
統合グラディエンス(Integrated Gradients)は、ディープラーニングモデルを説明するテクニックとしてよく知られている。
本稿では,UDIG(Uniform Discretized Integrated Gradients)と呼ばれる手法を提案する。
本手法は,2種類のNLPタスクに対して,3つのメトリクスビズログオッズ,包括性,十分性に対する感性分類と質問応答について検討した。
論文 参考訳(メタデータ) (2024-12-05T05:39:03Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。