論文の概要: Summarization is Not Dead Yet
- arxiv url: http://arxiv.org/abs/2606.08000v1
- Date: Sat, 06 Jun 2026 06:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.609859
- Title: Summarization is Not Dead Yet
- Title(参考訳): 要約はまだ終わっていない
- Authors: Dongqi Liu, Chenxi Whitehouse, Zheng Zhao, Zhuchen Cao, Jian Li, Yabiao Wang,
- Abstract要約: 大規模言語モデル(LLM)の進歩は、モデル生成サマリーが人間による参照に匹敵する、あるいは超えているという主張に拍車をかけた。
5つの多様なデータセットと5つの最先端LCMをカバーするマルチトラック評価を通じて、この物語を再検討する。
以上の結果から,人間の参照要約が情報的・忠実性の優位性を示し続ける,より曖昧な風景が明らかとなった。
- 参考スコア(独自算出の注目度): 28.302567995407532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The progress of large language models (LLMs) has fueled claims that model-generated summaries rival or even surpass human-written references, raising questions about whether summarization remains an open research problem. We re-examine this narrative through a multi-track evaluation covering five diverse datasets and five state-of-the-art LLMs, combining controlled human assessment, bias-mitigated LLM-as-Judge protocols, factuality verification against external knowledge, and corpus-level linguistic analysis. Our findings reveal a more nuanced landscape in which human reference summaries continue to demonstrate advantages in informativeness and faithfulness, whereas LLM outputs are preferred mainly for surface-level coherence and fluency. Factuality verification indicates that human references remain more reliable, particularly for claims involving reasoning or synthesis, and linguistic analysis uncovers a pattern of stylistic homogeneity across different models. These observations suggest that current LLMs have raised the floor of summarization quality, but the ceiling of their performance remains below human capabilities.
- Abstract(参考訳): 大規模言語モデル(LLMs)の進歩は、モデル生成の要約が人間による参照に匹敵する、あるいは超えるという主張を加速させ、要約がオープンな研究問題のままであるかどうかについての疑問を提起している。
我々は,5つの多様なデータセットと5つの最先端LCMを網羅した多トラック評価,制御された人的評価,バイアス緩和LDM-as-Judgeプロトコル,外部知識に対する事実性検証,コーパスレベルの言語分析を組み合わせることで,この物語を再検討する。
以上の結果から,LLMの出力は主に表面のコヒーレンスやフラエンシに好まれるが,人間の参照要約は情報的・忠実性の優位性を示す傾向にあることが明らかとなった。
ファクチュアリティ検証(英語版)は、人間の参照が、特に推論や合成に関わる主張に対してより信頼できるままであることを示し、言語学的分析は、異なるモデルにまたがるスタイリスティックな同質性のパターンを明らかにする。
これらの観察から,現在のLCMは要約品質のフロアを上昇させたが,その性能の天井は人間の能力より劣っていることが示唆された。
関連論文リスト
- Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。
これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-27T15:36:24Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。