論文の概要: To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending
- arxiv url: http://arxiv.org/abs/2606.11201v1
- Date: Wed, 22 Apr 2026 05:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.825853
- Title: To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending
- Title(参考訳): 介入すべきか否か:確率論的モデルブレンディングによる推論時間アライメントの誘導
- Authors: Jin Gan, Xin Li, Jun Luo,
- Abstract要約: BlendInは、バイナリ決定から、両方のモデルの知識を統合するハイブリッドディストリビューションへとシフトする、推論時アライメントフレームワークです。
BlendInは、品質を意識したアライメントを実行し、信頼性に基づいて各モデルのコントリビューションを比例的に重み付けすることで、推論時アライメントを安定化する。
- 参考スコア(独自算出の注目度): 9.4417382684481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The wide deployment of LLMs has made model alignment necessary to make newly trained models safely and effectively respond to user instructions. Among different methods, inference-time alignment is often cheaper as it intervenes (i.e., offers guidances) only during output generation. Existing proposals apply guidances extracted from certain aligned models without properly assessing their reliability. Nonetheless, our systematic evaluation reveals that guidance effectiveness varies drastically across models; since ineffective guidances lead to further confusion and thus further interventions, the resulting excessive interventions typically indicate poor performance. To make interventions more effective and thus more efficient, we introduce BlendIn, an inference-time alignment framework that shifts from binary decisions to creating hybrid distributions integrating both models' knowledge. BlendIn stabilizes inference-time alignment by performing quality-aware alignment and proportionally weighting each model's contribution based on reliability. Compared with existing works, it preserves beneficial guidance while downweighting unreliable suggestions. BlendIn provides both diagnostic signals and mitigation strategies for misaligned guidance, achieving consistent and up to 50% performance improvement on challenging model pairs. Our code is available at: https://github.com/DecayingSeart/BlendIn.
- Abstract(参考訳): LLMの広範な展開により、新しい訓練されたモデルを安全かつ効果的にユーザ指示に応答させるために、モデルアライメントが必要になった。
様々な手法の中で、推論時アライメントは、出力生成時にのみ介入する(すなわち、ガイダンスを提供する)ため、しばしば安価である。
既存の提案では、信頼性を適切に評価することなく、特定の整列モデルから抽出したガイダンスを適用している。
しかしながら, 系統的な評価では, 誘導の有効性はモデルによって大きく異なっており, 非効率な指導はさらなる混乱と更なる介入をもたらすため, 結果として生じる過剰な介入は性能の低下を示すのが一般的である。
介入をより効果的かつ効率的にするために、BlendInを紹介します。BlendInは、推論時アライメントフレームワークで、バイナリ決定から、両方のモデルの知識を統合するハイブリッドディストリビューションにシフトします。
BlendInは、品質を意識したアライメントを実行し、信頼性に基づいて各モデルのコントリビューションを比例的に重み付けすることで、推論時アライメントを安定化する。
既存の作品と比較すると、信頼できない提案を軽視しながら、有益なガイダンスを保っている。
BlendInは、誤ったガイダンスのための診断信号と緩和戦略の両方を提供する。
私たちのコードは、https://github.com/DecayingSeart/BlendInで利用可能です。
関連論文リスト
- Inference-time Alignment via Sparse Junction Steering [25.464612964225484]
推論時間アライメントのための重要なアプローチとして、トークンレベルのステアリングが登場している。
既存の手法はデコードの各ステップで密接な介入に依存している。
密接な介入は不要であり,スパースジャンクションステアリングを提案する。
論文 参考訳(メタデータ) (2026-01-30T08:40:47Z) - Navigating the Alignment-Calibration Trade-off: A Pareto-Superior Frontier via Model Merging [35.958192369444056]
ポストトレーニングの「アライメント税」は通常、タスクの正確さの低下として表される。
また、キャリブレーションが著しく失われ、モデルが過度に信頼され、信頼性が低く、モデル出力がより多様になることも示しています。
このトレードオフは、モデルの重みの補間とアライメント前後の補間という、単純なポストホック介入によって効果的にナビゲートできることを示す。
論文 参考訳(メタデータ) (2025-10-20T11:12:41Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Learning Under Adversarial and Interventional Shifts [36.183840774167756]
分散シフトの集合に対してロバストなモデルを設計するための新しい定式化 RISe を提案する。
分散的に堅牢な最適化フレームワークを使用して、教師付きおよび強化学習設定の両方で結果の目標を最適化する。
論文 参考訳(メタデータ) (2021-03-29T20:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。