論文の概要: SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents
- arxiv url: http://arxiv.org/abs/2606.18946v1
- Date: Wed, 17 Jun 2026 11:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.129131
- Title: SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents
- Title(参考訳): SenFlow: ハイブリッド文書におけるAI生成テキスト検出のための文間フローモデリング
- Authors: Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei,
- Abstract要約: SenFlowはグラフベースの文間伝搬と線形チェーンCRFデコーディングを,文グラフ上の単一の文書レベルパスに統合する。
SenFlowはMOSAICで最先端のパフォーマンスに達し、クロスドメイン転送では平均4.15ppのマクロF1マージンを持つ。
- 参考スコア(独自算出の注目度): 6.691712707958945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence-level AI-generated text detection (S-AGTD) for hybrid documents, where humans and LLMs co-author one text, faces two gaps: existing methods classify each sentence in isolation, discarding inter-sentence dependencies, and existing benchmarks omit the newest generation of generators. We construct MOSAIC, a benchmark of 16,000 hybrid documents over PubMed and XSum, generated by DeepSeek-V3.2 and Kimi K2 under stringent quality controls including a perplexity-consistency filter absent from prior benchmarks. We recast S-AGTD as structured prediction over the document sentence sequence and instantiate it as SenFlow, integrating graph-based inter-sentence propagation with linear-chain CRF decoding in a single document-level pass over a sentence graph. SenFlow reaches state-of-the-art performance on MOSAIC, with a +4.15 pp average Macro-F1 margin on cross-domain transfer, the hardest of three protocols of increasing difficulty. We further find that even after the perplexity filter equalizes overt cues, AI insertions retain a generator-dependent sentence-length gap that sentence-level detectors still exploit. Code and data: https://github.com/luojingkun22/SenFlow
- Abstract(参考訳): ハイブリッドドキュメント用の文レベルAI生成テキスト検出(S-AGTD)では、人間とLLMが1つのテキストを共著者している。
我々は,DeepSeek-V3.2 と Kimi K2 によって生成された PubMed と XSum 上の16,000 のハイブリッドドキュメントのベンチマークである MOSAIC を構築した。
我々は、S-AGTDを文書文シーケンス上の構造化予測として再キャストし、それをSenFlowとしてインスタンス化し、グラフベースの文間伝搬と線形チェーンCRF復号を文グラフ上の単一の文書レベルパスに統合する。
SenFlowはMOSAIC上で最先端のパフォーマンスに達し、クロスドメイン転送において平均4.15ppのマクロF1マージンを持つ。
さらに、パープレキシティフィルタがオーバートキューを等しくした後でも、AI挿入は、文レベルの検出器が依然として利用しているジェネレータ依存の文長ギャップを保持する。
コードとデータ:https://github.com/luojingkun22/SenFlow
関連論文リスト
- Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics [49.443264461057645]
拡散および連続フローベースの言語モデルは、言語モデリングに対する非自己回帰的な主要な代替手段として現れている。
両方のパラダイムの進歩は、生成的複雑度(gen-PPL)によって圧倒的に追跡される。
我々は、この指標は正しくないと主張している。構築により、gen-PPLは、文法性やセマンティックコヒーレンスではなく、スコアARの下でのみ予測可能性を測定する。
論文 参考訳(メタデータ) (2026-06-07T02:35:56Z) - Operation-Guided Progressive Human-to-AI Text Transformation Benchmark for Multi-Granularity AI-Text Detection [49.41415417307568]
OpAI-Benchは、プログレッシブな人間とAIのテキスト変換を研究するためのオペレーションガイド付きベンチマークである。
我々は、AIテキスト検出能力は、AI編集コンテンツの割合だけでなく、編集操作、ドメイン、累積修正履歴によっても支配されていることを示す。
論文 参考訳(メタデータ) (2026-06-04T17:58:05Z) - Fidelity Probes for Specification--Code Alignment [7.754687669049819]
我々は,コード由来の接地真実解を持つ参照アーティファクトから生成した自然依存問題である忠実度プローブを紹介する。
忠実度プローブは矛盾とカバレッジギャップ率に分解され、ターゲット仕様の編集を収束させる。
15のプログラムで約12kラインのベンチマークを行い、8回のイテレーションで0.63から0.94に凍結テスト仕様の忠実度を上げました。
論文 参考訳(メタデータ) (2026-05-17T04:05:54Z) - Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation [37.78791777901399]
テキスト条件付きMeanFlow生成プロセスを初めて開発する。
従来のトレーニング戦略を用いた強力なテキストエンコーダの統合は、満足のいくパフォーマンスをもたらす。
この研究が、テキスト条件のMeanFlow生成に関する将来の研究に、汎用的で実用的なリファレンスを提供してくれることを願っている。
論文 参考訳(メタデータ) (2026-04-20T12:28:58Z) - Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation [3.088244520495001]
人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案
我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。
評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
論文 参考訳(メタデータ) (2025-09-22T14:22:55Z) - A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。
既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。
我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-08-12T07:56:04Z) - From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models [16.89823786392689]
本稿では, シリアル, パラレル, ハイブリッドの3つの戦略を持つ多種多様な共生型透かしフレームワークを提案する。
このハイブリッドフレームワークはトークンエントロピーとセマンティックエントロピーを使用して透かしを適応的に埋め込み、検出可能性、堅牢性、テキスト品質、セキュリティのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-15T03:12:36Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。