論文の概要: Selective Capability Unlearning in End-to-End Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2606.24063v1
- Date: Tue, 23 Jun 2026 02:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.731829
- Title: Selective Capability Unlearning in End-to-End Spoken Language Understanding
- Title(参考訳): エンド・ツー・エンドの音声言語理解における選択能力の学習
- Authors: Akanksha Singh, Vinod Kumar Kurmi,
- Abstract要約: 自己回帰モデルでは、対象の意図を抑圧することは、その意図に条件付けされたスロットを生成する条件マッピングを排除しない。
このマッピングの基盤となる意図条件付き方向を分離するフレームワークであるtextitunderline BindingSubspace (BSU) を提案する。
- 参考スコア(独自算出の注目度): 2.2373411568845225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern spoken language understanding (SLU) systems are increasingly deployed in real-world settings, where specific functionalities may need to be removed due to policy or safety constraints. In SLU, a functionality corresponds to an intent and its associated slot-generation behavior. However, in autoregressive models, suppressing a target intent does not eliminate the conditional mapping that generates slots conditioned on that intent. When the intent prefix is externally supplied, the model can reconstruct the original intent-slot structure. We identify this structural failure as \textbf{\emph{capability persistence}}. We propose \textit{\underline{B}inding \underline{S}ubspace (BSU)}, a representation-level framework that isolates and attenuates intent-conditioned directions underlying this mapping. Across SLU benchmarks, BSU substantially reduces forced-prefix recoverability while preserving retained performance.
- Abstract(参考訳): 現代の音声言語理解(SLU)システムは、ポリシーや安全性の制約により特定の機能が取り除かれる必要があるような現実世界の環境において、ますます多くデプロイされている。
SLUでは、ある機能はインテントとその関連するスロット生成の振る舞いに対応する。
しかし、自己回帰モデルでは、目的の意図を抑えることは、その意図に条件付けされたスロットを生成する条件マッピングを排除しない。
インテントプレフィックスが外部に供給されると、モデルはオリジナルのインテントスロット構造を再構築することができる。
この構造的障害を \textbf{\emph{capability persistence}} とみなす。
Inding \underline{S}ubspace (BSU) は、このマッピングに基づいて意図条件付き方向を分離・減衰する表現レベルのフレームワークである。
SLUベンチマーク全体では、BSUは保持性能を維持しながら強制修正の回復性を著しく低下させる。
関連論文リスト
- Intent Signal Theory: A Computational Framework for Intent-State Control in Human-AI Interaction [0.585480332059272]
現在のAIインタラクションモデルは、プロンプトを主要な交換対象として扱い、重要なレイヤを省略する。
ここでは、この欠落した意図層を形式化する計算フレームワークであるIntent Signal Theory (IST)を紹介する。
ISTは、遅延ソースインテント(I*)、観測可能なインテントプロキシ(I-hat)、エンコードされたキャリア(P)、モデル出力(O)の4つのオブジェクトを日常的に混同している。
論文 参考訳(メタデータ) (2026-05-24T13:10:33Z) - PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments [59.07829883257003]
5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:59:47Z) - From Hallucination to Structure Snowballing: The Alignment Tax of Constrained Decoding in LLM Reflection [0.0]
「大型言語モデル(LLM)における固有の自己補正は、幻覚雪球によるオープンエンド推論タスクでしばしば失敗する」
本研究は,制約付き復号法により構造的反射を純粋に強制することが,追加の訓練を伴わずに誤りの伝播を阻害するかどうかを考察する。
論文 参考訳(メタデータ) (2026-04-07T16:47:37Z) - Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints [9.698319722490043]
SructAttackは、ブラックボックス設定下でシンプルだが効果的な単一クエリのジェイルブレイクフレームワークである。
StructAttackはLVLMの推論を利用してこれらのスロットをコヒーレントな有害な意味論に組み立てることを示す。
複数のモデルとベンチマーク実験により,提案したStructAttackの有効性が示された。
論文 参考訳(メタデータ) (2026-03-08T11:22:41Z) - Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation [57.427604620940734]
TextscConceptBankは、視覚的証拠とプロンプトの整合性を取り戻すためのフレームワークだ。
我々のアプローチは、クラスワイドなビジュアルプロトタイプによるターゲットドメインの証拠をアンロックし、(textitii)マイニングの代表者はデータドリフト下でのアウトリーチを抑えることをサポートし、(textitiii)コンセプトドリフトの修正のために候補概念を融合させる。
論文 参考訳(メタデータ) (2026-02-06T02:59:11Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - AlignSAE: Concept-Aligned Sparse Autoencoders [47.18866175760984]
本稿では,SAE の機能と定義オントロジーを"pre-train, then-train" カリキュラムで整合させる手法である AlignSAE を紹介する。
初期教師なしトレーニングフェーズの後、特定の概念を専用潜在スロットにバインドするために教師付きポストトレーニングを適用する。
この分離により、非関係な特徴から干渉することなく、特定の関係を検査・制御できる解釈可能なインターフェースが生成される。
論文 参考訳(メタデータ) (2025-12-01T18:58:22Z) - Self-Regularization with Sparse Autoencoders for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文 参考訳(メタデータ) (2025-02-19T22:27:59Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。