論文の概要: LoMC: Localized Multidirectional Correction for Refusal Suppression in Routed Foundation Models
- arxiv url: http://arxiv.org/abs/2606.13709v1
- Date: Wed, 10 Jun 2026 08:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.508886
- Title: LoMC: Localized Multidirectional Correction for Refusal Suppression in Routed Foundation Models
- Title(参考訳): LoMC: ファウンデーションモデルにおける拒絶抑制のための局所的多方向補正
- Authors: Yan Hong, Kedong Xiu, Wei Li, Jun Lan, Huijia Zhu, Shuheng Zhou, Zhongcai Lyu, Weiqiang Wang, Jianfu Zhang,
- Abstract要約: Localized Multidirectional Correction (LoMC) は、サポート-then-correction実行順序に従うサポート付き介入フレームワークである。
LoMCは、コンパクトな介入フットプリント下での汎用性を保ちながら、非拒絶的目標応答挙動を大幅に改善する。
- 参考スコア(独自算出の注目度): 29.955389586346133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study controlled post-training refusal suppression in routed MoE and hybrid-MoE foundation models, aiming to increase non-refusal target-response behavior while preserving general capability under a compact intervention footprint. Existing broad direction-based edits can perturb general-purpose computation, whereas support-only expert edits often lack sufficient capacity to correct heterogeneous refusal representations. To address this limitation, we introduce Localized Multidirectional Correction (LoMC), a support-gated intervention framework that follows a support-then-correction execution order: it first identifies a compact edit support, then aggregates prototype correction directions into layer-wise correction directions, and finally applies rank-one layer-wise correction only within the selected support. By using the edit support as a structural gating constraint, LoMC increases correction capacity without expanding the intervention scope. Experiments on text-only and multimodal safety benchmarks across four routed backbones show that LoMC substantially improves non-refusal target-response behavior while maintaining general capability under a compact intervention footprint.
- Abstract(参考訳): 本研究は,経路付きMoEおよびハイブリッドMoE基盤モデルにおける学習後拒絶抑制を制御し,コンパクトな介入フットプリント下での汎用性を保ちつつ,非拒否的目標応答性を向上させることを目的とした。
既存の方向に基づく編集は汎用的な計算を混乱させる可能性があるが、サポートのみの専門家による編集は不均一な拒絶表現を修正できる十分な能力に欠けることが多い。
この制限に対処するため,我々はLoMC(Localized Multidirectional Correction)を導入した。LoMC(Localized Multidirectional Correction)は,まず,コンパクトな編集支援を識別し,次にプロトタイプの修正方向を階層的な補正方向に集約し,最終的に選択したサポート内でのみランクワン層補正を行う,サポートゲート付き介入フレームワークである。
編集支援を構造的ゲーティング制約として使用することにより、LOCは介入範囲を広げることなく補正能力を向上させる。
テキストのみの安全性ベンチマークとマルチモーダル安全性ベンチマークの実験により、LOMCは、コンパクトな介入フットプリント下での汎用性を保ちながら、非拒絶的目標応答挙動を大幅に改善することが示された。
関連論文リスト
- REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning [5.853890728403084]
最近のテキストモデルは、散在する不均一なタスクのコレクション上で、対照的な事前ファインタニング(PFT)によって、しばしば特殊ドメインに適合する。
このアプローチは多くの場合、ドメイン知識と並行してタスクによって引き起こされるバイアスを導入し、制御されていない表現シフトをもたらす。
埋め込み前ファインタニング中の表現シフトを明示的に制御する表現正規化フレームワークであるRを提案する。
論文 参考訳(メタデータ) (2026-04-19T04:41:55Z) - CD-Buffer: Complementary Dual-Buffer Framework for Test-Time Adaptation in Adverse Weather Object Detection [6.119587600205796]
Test-Time Adaptation (TTA)は、オフラインでトレーニングすることなく、ドメインシフトへのリアルタイム適応を可能にする。
近年,ドメイン感受性チャネルを除去するサブトラクティブなアプローチが代替の方向として現れている。
本稿では,CD-Bufferを提案する。CD-Bufferは,サブトラクティブと付加的な機構が反対方向に作用する,新しい補完的な二重バッファフレームワークである。
論文 参考訳(メタデータ) (2026-03-27T05:43:21Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Prompt Tuning for CLIP on the Pretrained Manifold [53.797958617168966]
事前学習された多様体上で即時チューニングを行うフレームワークであるManiPTを提案する。
ManiPTはテキストと画像の両モードにコサイン一貫性の制約を導入する。
また, インクリメンタルな修正を強制する構造バイアスを導入し, 伝達可能な方向に沿った適応を導く。
論文 参考訳(メタデータ) (2026-02-22T13:58:41Z) - Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization [72.83292830785336]
ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
論文 参考訳(メタデータ) (2025-11-25T12:38:28Z) - Towards Generalized Range-View LiDAR Segmentation in Adverse Weather [65.22588361803942]
我々は、厳しい天候下でのLiDARセグメンテーションの一般化に影響を及ぼす固有の課題を特定し、分析する。
既存のモデルのコアアーキテクチャを変更することなく、ロバスト性を高めるモジュール式で軽量なフレームワークを提案する。
提案手法は,推定オーバーヘッドを最小限に抑え,悪天候への一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-06-10T16:48:27Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - REACT: Representation Extraction And Controllable Tuning to Overcome Overfitting in LLM Knowledge Editing [42.89229070245538]
本稿では,正確かつ制御可能な知識編集のためのフレームワークであるREACTを紹介する。
最初の段階では、調整された刺激を用いて、潜在的な事実表現を抽出する。
第2段階では,大小スカラーのベクトルを用いて,制御可能な摂動を隠蔽状態に適用する。
論文 参考訳(メタデータ) (2025-05-25T01:57:06Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - FACM: Intermediate Layer Still Retain Effective Features against
Adversarial Examples [18.880398046794138]
ディープニューラルネットワーク(DNN)に対する強力な敵攻撃では、生成された敵の例がDNNに実装された分類器を誤解させる。
我々は,textbfFeature textbfAnalysis と textbfConditional textbfMatching textbfPrediction textbfDistribution (CMPD) 補正モジュールと決定モジュールを提案する。
我々のモデルは微調整によって達成でき、他のモデル固有の防御と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-02T08:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。