論文の概要: Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics
- arxiv url: http://arxiv.org/abs/2606.08417v1
- Date: Sun, 07 Jun 2026 02:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.097046
- Title: Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics
- Title(参考訳): 生成の複雑さをハックする:なぜ非条件のテキスト評価が分散メトリクスを必要とするのか
- Authors: Antonio Franca, Alexander Tong,
- Abstract要約: 拡散および連続フローベースの言語モデルは、言語モデリングに対する非自己回帰的な主要な代替手段として現れている。
両方のパラダイムの進歩は、生成的複雑度(gen-PPL)によって圧倒的に追跡される。
我々は、この指標は正しくないと主張している。構築により、gen-PPLは、文法性やセマンティックコヒーレンスではなく、スコアARの下でのみ予測可能性を測定する。
- 参考スコア(独自算出の注目度): 49.443264461057645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternatives to language modeling. Progress in both paradigms is overwhelmingly tracked by generative perplexity (gen-PPL): the per-token negative log-likelihood of samples under a frozen autoregressive (AR) scorer such as gpt2-large, typically paired with an empirical-entropy guardrail to rule out low-entropy collapse. We argue that this metric is unsound. By construction, gen-PPL measures only predictability under the scoring AR, not grammaticality or semantic coherence -- and the set of predictable but still low-quality sequences is combinatorially large. To make this concrete, we construct a suite of zero-parameter, deliberately naive samplers that achieve state-of-the-art gen-PPL on LM1B and OpenWebText at non-degenerate entropy, surpassing recently published diffusion and continuous-flow models while producing text that is incoherent by construction. We recommend evaluation suites that directly quantify the distributional divergence between generated and reference text, and use such a suite to re-benchmark recent non-autoregressive models, recovering a more faithful picture of the current state of the art.
- Abstract(参考訳): 拡散および連続フローベースの言語モデルは、言語モデリングに対する非自己回帰的な主要な代替手段として現れている。
両方のパラダイムの進歩は、生成的複雑度(gen-PPL)によって圧倒的に追跡される: gpt2-largeのような凍結自己回帰(AR)スコアラーの下でのサンプルの1対の負の対数類似性であり、通常、経験的エントロピーガードレールと組み合わせて低エントロピー崩壊を排除している。
この計量は正しくないと主張する。
構築によって、gen-PPLは文法性やセマンティックコヒーレンスではなく、スコアARの下での予測可能性のみを測定する。
この具体化のために,非退化エントロピーにおいてLM1BおよびOpenWebText上で最先端のgen-PPLを実現するために,ゼロパラメータ,故意に無作為なサンプルセットを構築した。
生成したテキストと参照テキスト間の分布のばらつきを直接定量化する評価スイートを推奨し、そのようなスイートを用いて最近の非自己回帰モデルを再ベンチマークし、現状のより忠実なイメージを復元する。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。