論文の概要: READER: Robust Evidence-based Authorship Decoding via Extracted Representations
- arxiv url: http://arxiv.org/abs/2606.10794v2
- Date: Wed, 10 Jun 2026 08:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.395387
- Title: READER: Robust Evidence-based Authorship Decoding via Extracted Representations
- Title(参考訳): READER: 抽出表現によるロバストなエビデンスベースのオーサシップデコーディング
- Authors: Jiaxu Liu, Sunnan Mu, Dong Huang, Liuyin Wang, Jing Shao, Jie Zhang,
- Abstract要約: 我々は動的ブラックボックス LLM Provenance について検討し、クエリが変化し、未定義のプロンプトによって引き起こされる世代からソース LLM を同定する。
本稿では,フリーズプロキシ LLM を隠されたオーサシップ証拠の読者として扱う軽量な証明フレームワーク READER を紹介する。
Agent500では、エージェントスタイルのプロンプトから構築された50ターゲットのデータセットが、単一のレスポンスから31.0$-42.4%$トップ1の精度で、50レスポンスから70.0$-84.0%$に達する。
- 参考スコア(独自算出の注目度): 28.346447904547556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As agentic applications increasingly route user tasks through official and third-party LLM APIs, provenance becomes an operational question: which model generated a given black-box response? We study Dynamic Black-Box LLM Provenance: identifying the source LLM from generations elicited by query-varying, non-predefined prompts rather than a fixed input set or benchmark suite. This setting is difficult because prompt semantics dominate the text, while model-specific authorship traces are weak and inconsistent at the surface level. We introduce READER (Robust Evidence-based Authorship Decoding via Extracted Representations), a lightweight provenance framework that treats a frozen proxy LLM as a reader of hidden authorship evidence. READER maps black-box outputs into proxy activation space, temporally filters token states within each response, and performs Bayesian Evidence Accumulation by summing single-response log-posterior evidence across independently sampled prompts. This avoids fragile mean-pooling of prompt-specific representations while preserving the query-wise evidence needed for calibrated confidence. On Agent500, a 50-target dataset built from agent-style prompts, READER reaches $31.0$-$42.4\%$ top-1 accuracy from a single response and $70.0$-$84.0\%$ from 50 responses, substantially outperforming sentence-encoder fingerprints. Scaling across nine proxy readers further shows that stronger LLMs expose more linearly decodable authorship structure, suggesting that authorship perception is already present in frozen LLM representations and can be converted into reliable multi-query attribution.
- Abstract(参考訳): エージェントアプリケーションは、公式およびサードパーティのLDM APIを通じて、ユーザタスクをルーティングする傾向にあるため、プロファイランスは運用上の問題となる。
我々は,動的ブラックボックス LLM Provenance について検討する: 固定された入力セットやベンチマークスイートではなく,クエリが変化し,未定義のプロンプトによって引き起こされる世代からソース LLM を識別する。
この設定は、素早いセマンティクスがテキストを支配しているのに対して、モデル固有のオーサリングトレースは、表面レベルでは弱く一貫性がないため、難しい。
本稿では,READER(Robust Evidence-based Authorship Decoding via Extracted Representations)について紹介する。
READERはブラックボックス出力をプロキシアクティベーション空間にマッピングし、各応答内のトークン状態を時間的にフィルタリングし、独立にサンプリングされたプロンプトにまたがって単一応答のログポストエビデンスをまとめてベイズ証拠蓄積を実行する。
これにより、アクセプティブ固有の表現の脆弱な平均プールを回避すると同時に、キャリブレーションされた信頼性に必要なクエリワイドなエビデンスを保存することができる。
Agent500はエージェントスタイルのプロンプトから構築された50ターゲットのデータセットで、単一のレスポンスから31.0$-$42.4\%$トップ1の精度で、50レスポンスから70.0$-$84.0\%の精度で、文エンコーダの指紋よりもかなり優れている。
9つのプロキシリーダーにまたがるスケーリングにより、より強いLLMがより線形にデオード可能なオーサリング構造を露出していることが示され、オーサリングの認識がすでに凍結されたLLM表現に存在しており、信頼性の高いマルチクエリ属性に変換可能であることが示唆された。
関連論文リスト
- Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation [51.55755193937205]
提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
論文 参考訳(メタデータ) (2026-04-19T08:39:21Z) - Who Wrote the Book? Detecting and Attributing LLM Ghostwriters [35.478075071337784]
我々は著者属性のデータセットであるGhostWriteBenchを紹介する。
また,解釈可能かつ軽量な新しい指紋認証手法TRACEを提案する。
論文 参考訳(メタデータ) (2026-03-30T05:41:12Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。