論文の概要: GIF: Locally Sound Geometric Information Flow Control for LLMs
- arxiv url: http://arxiv.org/abs/2606.23277v1
- Date: Mon, 22 Jun 2026 12:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:11:01.842048
- Title: GIF: Locally Sound Geometric Information Flow Control for LLMs
- Title(参考訳): GIF:LLMのための局所的幾何学的情報フロー制御
- Authors: Adam Storek, Nikolaus Holzer, Zhuo Zhang, Suman Jana,
- Abstract要約: 大規模言語モデルは、エージェントシステムにおけるセンシティブなデータ、信頼できない入力、特権的なアクション間の相互作用を仲介する。
近年のインフォメーションフロー制御(IFC)ベースのディフェンスは、モデル自体を通しての情報フローを推論するための原則的なセマンティック基盤を欠いている。
本稿では,入力トークンから出力への情報フローを追跡するセマンティックフレームワークであるGeometric Information Flow (GIF)を提案する。
- 参考スコア(独自算出の注目度): 12.598128612710523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly mediate interactions between sensitive data, untrusted inputs, and privileged actions in agentic systems, creating security and privacy risks. These range from prompt injections that manipulate downstream tool use to leakage of confidential information through model outputs. Recent Information Flow Control (IFC)-based defenses show promise but lack a principled semantic foundation for reasoning about information flow through the model itself. Since any input token may influence any output token in an autoregressive LLM, existing approaches suffer from severe taint explosion. We present Geometric Information Flow (GIF), a semantic framework for tracking information flow from input tokens to outputs. GIF uses the LLM Jacobian and local output geometry to upper-bound the Shannon mutual information between perturbed input spans and model outputs, yielding a scalable measure computable on large models via automatic differentiation and low-rank approximation. Unlike attention-based or correlational attribution heuristics, GIF satisfies local geometric soundness, and we provide a fully mechanized Lean 4 proof that it upper-bounds the true information flow induced by a given prompt under local regularity assumptions. We evaluate GIF on integrity and confidentiality tasks across multiple prompt-injection and privacy-leakage benchmarks. GIF achieves near-perfect recall even without a downstream declassifier, outperforming attention-based baselines. Combined with lightweight LLM-based declassifiers, it matches or exceeds the F1 of direct LLM-as-judge baselines such as GPT-5.5 xhigh reasoning while using up to 81x lower token cost. GIF flows detected with small surrogate models transfer to larger state-of-the-art models and other model families, even when the surrogate is up to 200x smaller, suggesting black-box deployment without gradient access.
- Abstract(参考訳): 大規模言語モデルは、機密データ、信頼できない入力、エージェントシステムにおける特権的行動の間の相互作用をますます仲介し、セキュリティとプライバシのリスクを生み出す。
これらは、下流ツールを操作できるプロンプトインジェクションから、モデル出力による機密情報の漏洩まで幅広い。
近年のインフォメーションフロー制御(IFC)ベースのディフェンスは、モデル自体を通しての情報フローを推論するための原則的なセマンティック基盤を欠いている。
入力トークンは自己回帰LDMの任意の出力トークンに影響を与える可能性があるため、既存のアプローチは深刻な汚染による爆発に悩まされる。
本稿では,入力トークンから出力への情報フローを追跡するセマンティックフレームワークであるGeometric Information Flow (GIF)を提案する。
GIF は LLM Jacobian と局所出力幾何を用いて摂動入力スパンとモデル出力の間のシャノンの相互情報を上位にバウンドし、自動微分と低ランク近似によって大規模モデル上で計算可能なスケーラブルな測度を与える。
注意に基づくあるいは相関的な帰属ヒューリスティックスとは異なり、GIFは局所的な幾何学的健全さを満足し、局所正規性仮定の下で与えられたプロンプトによって引き起こされる真の情報フローを上界とする完全に機械化されたLean 4証明を提供する。
我々は,複数のプロンプトインジェクションおよびプライバシ推論ベンチマークにおいて,完全性および機密性に関するGIFを評価した。
GIFは、下流の非分類装置がなくてもほぼ完璧なリコールを実現し、注目ベースのベースラインを上回っている。
軽量なLCMベースの非分類器と組み合わせて、最大81倍のトークンコストを使用しながら、GPT-5.5 xhigh推論のような直接LCM-as-judgeベースラインのF1と一致するか、超える。
小さな代理モデルで検出されたGIFフローは、より大きな最先端モデルや他のモデルファミリに転送される。
関連論文リスト
- FLARE: Diffusion for Hybrid Language Model [72.60770374799634]
FLAREは、ハイブリッドアテンションな大規模言語モデルのための体系的な変換フレームワークである。
トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。
この結果から,実際のdLLMは復号化アルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率によって制限されていることが示唆された。
論文 参考訳(メタデータ) (2026-06-01T06:58:15Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Gradient-Based Model Fingerprinting for LLM Similarity Detection and Family Classification [6.008384763761687]
大規模言語モデル(LLM)は、現代のアプリケーションにおいて重要なソフトウェアコンポーネントである。
類似性検出と家族分類のための勾配型フィンガープリントフレームワークGuardを提示する。
本稿では,ランダムな入力摂動に対する応答を解析することにより,モデル固有の行動シグネチャを抽出する。
広く採用されているセーフテンソルフォーマットをサポートし、勾配特性の統計解析を通じて高次元指紋を構築する。
論文 参考訳(メタデータ) (2025-06-02T13:08:01Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Permissive Information-Flow Analysis for Large Language Models [21.563132267220073]
大規模言語モデル(LLM)は、大規模ソフトウェアシステムのコモディティコンポーネントになりつつある。
これは自然なセキュリティとプライバシの問題を引き起こします。あるコンポーネントから取得した有毒なデータは、モデルの振る舞いを変更し、システム全体を侵害します。
LLMクエリを通じて情報フローラベルを伝搬する新しい,より寛容な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T00:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。