論文の概要: Prefill Awareness in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.12747v1
- Date: Wed, 10 Jun 2026 23:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.500552
- Title: Prefill Awareness in Large Language Models
- Title(参考訳): 大規模言語モデルにおける準備的認識
- Authors: Andy Wang, Parv Mahajan, David Demitri Africa, Alexandra Souly, Jordan Taylor, Robert Kirk,
- Abstract要約: 本研究は,言語モデルが,教師なしと教師なしのアシスタント側コンテキストを区別できるかどうかを考察する。
私たちはフロンティアモデルに十分な事前認識があることに気付きました。
以上の結果から, プリフィルの意識は, 既にいくつかのプリフィル方式にかなり相反していることが示唆された。
- 参考スコア(独自算出の注目度): 42.57596462680195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-relevant studies of language models, including alignment and jailbreaking evaluations and AI control protocols, often rely on prefilling model outputs. If AI models can recognize and act on the fact their prior assistant messages have been inserted or edited, the effectiveness and validity of these methods could be compromised. We investigate whether frontier language models can distinguish between tampered and untampered assistant-side context, a capability we call prefill awareness. To do so, we construct a binary preference benchmark across three prefill mechanisms, filtering for cases where models show consistent stances. We find that frontier models show substantial prefill awareness: Claude Opus 4.5 detects prefills opposing its preferences in 9-35% of cases with a 0% false positive rate when prompted; additionally, models often revert towards baseline behavior without explicitly reporting that the prefill was foreign. Controlled ablations later also show that detection and resistance rely on different cues, where stylistic mismatch mainly affects whether models flag a prefill as foreign, while preference mismatch mainly affects whether they revert toward their baseline answer. We also examine more realistic agentic settings such as misalignment-continuation evaluations and SWE-bench trajectories, where frontier models sometimes disavow prefilled assistant turns in ways that depend strongly on dataset, task success, and hidden formatting artifacts. Our results indicate that prefill awareness is already a substantial confound for some prefill-based methods. We recommend that model developers track this capability in frontier systems.
- Abstract(参考訳): アライメントやジェイルブレイク評価、AI制御プロトコルなど、言語モデルの安全性に関する研究は、しばしばモデル出力のプリフィルに依存している。
もしAIモデルが、以前のアシスタントメッセージが挿入されたり編集されたりしたという事実を認識し、行動することができるなら、これらの方法の有効性と妥当性は損なわれる可能性がある。
我々は,フロンティア言語モデルが,事前充足認識(prefill awareness)と呼ばれる,改ざんされたアシスタント側コンテキストと未改ざんされたアシスタント側コンテキストを区別できるかどうかを検討する。
そこで我々は,モデルが一貫した姿勢を示す場合のフィルタとして,三つのプリフィル機構にまたがる二分選好ベンチマークを構築した。
クロードオプス4.5は、刺激が0%の偽陽性率の9~35%のケースにおいて、その嗜好に反するプリフィルを検出する。
制御された説明は後に、検出と抵抗は異なる手がかりに依存しており、スタイリスティックなミスマッチは、主にモデルがプレフィルを外国人としてフラグづけするかどうかに影響を及ぼし、一方、好みのミスマッチは、彼らがベースラインの答えに逆戻りするかどうかに大きく影響していることを示している。
また、フロンティアモデルでは、データセット、タスク成功、隠されたフォーマットアーティファクトに強く依存する方法で、フロンティアモデルが時には未完成のアシスタントを回避できるような、ミスアライメント・コンティニュエーション評価やSWE-ベンチ・トラジェクトリといったより現実的なエージェント設定についても検討する。
以上の結果から, プリフィル認知は, 既にいくつかのプリフィルベース手法のかなりの相違点であることが示唆された。
私たちはモデル開発者がこれをフロンティアシステムで追跡することを推奨します。
関連論文リスト
- CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs [100.38986535324284]
我々は、フロンティアモデル全体でのtextbfcontrol textbfintervention (CI) の認識を測定するベンチマークである textbfCIAware-Bench を紹介する。
CIAware-Benchは、モデルが自身の軌跡を制御介入によって修正されたものと区別できるかどうかをテストする。
論文 参考訳(メタデータ) (2026-06-09T16:24:16Z) - Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。
これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。
Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文 参考訳(メタデータ) (2026-01-29T07:40:58Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Persona Features Control Emergent Misalignment [9.67070289452428]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。
内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。
また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文 参考訳(メタデータ) (2025-06-24T17:38:21Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [28.234859617081295]
RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。