論文の概要: Towards Spec Learning: Inference-Time Alignment from Preference Pairs
- arxiv url: http://arxiv.org/abs/2606.24004v1
- Date: Mon, 22 Jun 2026 23:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.710894
- Title: Towards Spec Learning: Inference-Time Alignment from Preference Pairs
- Title(参考訳): 投機学習に向けて--選好ペアからの推論時間アライメント
- Authors: Dhriti Krishnan, Tejas Goyal, Jaromir Savelka,
- Abstract要約: 本稿では,簡単なユーザ指導と少数の選好判断に依存するフレームワークであるスペックラーニングを提案する。
コンパイルされた仕様に基づいて生成された応答は、特定のドメインのデータセット上で直接選好最適化(DPO)よりも優れていることを示す。
重み更新とは異なり、得られた仕様は人間可読であり、それらを生成した選好信号の解釈可能で透明な書体として二重である。
- 参考スコア(独自算出の注目度): 0.10195618602298682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering a large language model (LLM) toward a desired behavior typically relies on an iterative process of hand-crafting a prompt based on a careful inspection of the model's responses. This is an involved, brittle, and error-prone process. Preference-based fine-tuning is a more rigorous but often prohibitively expensive solution. We propose spec learning, a framework that relies on a brief user instruction and a small set of preference judgments. These are compiled into specifications in the form of natural-language prompts for an LLM. Specifications condition LLMs at inference time, and no parameter updates to the underlying models are required. We show that the responses generated based on the compiled specifications often outperform direct preference optimization (DPO) on datasets from specialized domains whose preference signal is dense. Unlike opaque weight updates, the resulting specifications are human-readable and double as interpretable and transparent written embodiments of the preference signal that produced them.
- Abstract(参考訳): 大きな言語モデル(LLM)を望ましい振る舞いに向ける場合、通常、モデルの反応を注意深く検査した上でプロンプトを手作りする反復的なプロセスに依存する。
これは複雑で脆く、エラーを起こしやすいプロセスです。
優先順位に基づく微調整は厳格だが、しばしば高額なソリューションである。
本稿では,簡単なユーザ指導と少数の選好判断に依存するフレームワークであるスペックラーニングを提案する。
これらはLLMの自然言語プロンプトの形で仕様にコンパイルされる。
仕様条件 LLM は推論時に設定され、基礎となるモデルに対するパラメータ更新は不要である。
本稿では,コンパイルされた仕様に基づいて生成された応答が,優先信号が密集した特定ドメインのデータセット上で直接選好最適化(DPO)よりも優れていることを示す。
不透明な重量の更新とは異なり、得られた仕様は人間可読であり、それらを生成した選好信号の解釈可能で透明な文字の具体化として二重である。
関連論文リスト
- SpecAlign: Efficient Specification-Grounded Alignment of Large Language Models via Synthetic Data [46.83043333985018]
我々は、プロバイダが承認したモデル仕様を主アライメントターゲットとして扱う新しいアライメントパラダイムである仕様基底アライメントを提案する。
仕様文書から直接アライメントデータを合成するフレームワークであるSpecAlignを紹介する。
論文 参考訳(メタデータ) (2026-06-15T06:30:52Z) - Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - Toward Preference-aligned Large Language Models via Residual-based Model Steering [9.241565393225953]
本稿では,Residual Steering (PaLRS) を用いた大規模言語モデルの参照アライメントを提案する。
PaLRSは、Large Language Modelsの残留ストリームに符号化された好み信号を利用する。
各種小型オープンソースLLM上でのPaLRSの評価を行った。
論文 参考訳(メタデータ) (2025-09-28T17:16:16Z) - Configurable Preference Tuning with Rubric-Guided Synthetic Data [0.6526824510982799]
本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。
トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
論文 参考訳(メタデータ) (2025-06-13T12:17:38Z) - Demystifying optimized prompts in language models [2.2673740207821647]
本稿では,最適化プロンプトの構成と,最適化プロンプトからLMが解析・構築するメカニズムについて検討する。
最適化されたプロンプトは主に、トレーニングデータでより稀な句読点と名詞トークンで構成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-04T22:04:14Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。