論文の概要: SV-Detect: AI-generated Text Detection with Steering Vectors
- arxiv url: http://arxiv.org/abs/2606.07313v1
- Date: Fri, 05 Jun 2026 14:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.780275
- Title: SV-Detect: AI-generated Text Detection with Steering Vectors
- Title(参考訳): SV-Detect:ステアリングベクトルを用いたAI生成テキスト検出
- Authors: Mikhail Vishnyakov, Tatiana Gaintseva,
- Abstract要約: 凍結言語モデルの隠れ表現から抽出したステアリングベクトルに基づく偽テキスト検出手法を提案する。
これらの投影特徴に基づいて訓練された軽量な分類器は、最終的な検出スコアを得る。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting machine-generated text is especially difficult under distribution shift, such as transfer across domains, source models, and editing attacks. We propose a fake-text detector based on steering vectors extracted from the hidden representations of a frozen language model. At each layer, we construct a direction that separates human-written from machine-generated text, and represent each input by its layer-wise alignment with these directions. A lightweight classifier trained on these projection features yields the final detection score. Our method achieves strong performance both in-distribution and under distribution shift, including across domains, source models, and machine-editing transformations such as polishing and rewriting. Interpretation analyses show that the learned directions align with recognizable stylistic cues while capturing substantial additional signal beyond surface features. These results position fake-text detection as a representation-space probing problem and show that steering vectors provide a simple and effective solution.
- Abstract(参考訳): マシン生成テキストの検出は、ドメイン間の転送、ソースモデル、編集攻撃など、分散シフト下では特に困難である。
本研究では,凍結言語モデルの隠れ表現から抽出したステアリングベクトルに基づく偽テキスト検出手法を提案する。
各層において、機械生成テキストから人書き文字を分離する方向を構築し、各入力をそれらの方向と階層的に一致させて表現する。
これらの投影特徴に基づいて訓練された軽量な分類器は、最終的な検出スコアを得る。
本手法は,ドメイン間やソースモデル,研磨や書き換えなどのマシン編集変換など,分散と分散の両面において高い性能を実現する。
解釈解析により、学習方向は認識可能なスタイリスティックな手がかりと一致し、表面的特徴を超えてかなりの付加的な信号を取得することが示された。
これらの結果は、表現空間探索問題として偽テキスト検出を位置づけ、ステアリングベクトルが単純かつ効果的な解であることを示す。
関連論文リスト
- Reward-Guided Semantic Evolution for Test-time Adaptive Object Detection [82.2968697030677]
Grounding DINOのような視覚言語モデル(VLM)を用いたオープン語彙オブジェクト検出は、テスト時間分布シフト時の性能劣化に悩まされる。
Reward-Guided Semantic Evolution (RGSE) は、テスト時にテキストの埋め込みを直接洗練するトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-05-06T06:17:41Z) - LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection [64.23509202768945]
パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。
実験により, 個別設定における検出器間の性能差が大きいことが示された。
パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
論文 参考訳(メタデータ) (2025-10-14T13:10:23Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。