論文の概要: DEFINED: A Data-Efficient Computational Framework for Fine-Grained Creativity Assessment in Debate Scenarios
- arxiv url: http://arxiv.org/abs/2606.07226v2
- Date: Wed, 10 Jun 2026 03:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.340654
- Title: DEFINED: A Data-Efficient Computational Framework for Fine-Grained Creativity Assessment in Debate Scenarios
- Title(参考訳): DEFINED: 議論シナリオにおける細粒度創造性評価のためのデータ効率のよい計算フレームワーク
- Authors: Tongzhou Yu, Mingjia Li, Hong Qian, Wenkai Wang, Zongbao Zhang, Yaoyu Jiang, Xiangfeng Wang, Aimin Zhou, Jiajun Guo,
- Abstract要約: DEFINEDは、議論シナリオにおけるきめ細かいクリエイティビティ評価のための、データ効率のよいフレームワークである。
DEFINEDは階層的な8次元計量システムを通じて議論の創造性を運用する。
我々のスコアリングモデルは正確で安定したスコアリングを実現し、プロンプトベースの大規模言語モデル評価器より優れている。
- 参考スコア(独自算出の注目度): 25.233538120209857
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human creativity has emerged as a critical competency in the era of large language models. Assessing creativity in complex, open-ended environments is a grand challenge in data mining, currently hindered by a reliance on standardized simple tasks and the scarcity of fine-grained expert data. As an ecologically valid assessment context, debate reflects multiple dimensions of creativity, encompassing both divergent thinking and convergent thinking. Moreover, debate is a data-rich domain, with a large volume of publicly accessible materials. Current mainstream automated scoring methods are poorly suited to complex settings such as debate, and therefore still rely on costly human evaluation. To this end, this paper proposes DEFINED, a data-efficient computational framework for fine-grained creativity assessment in debate scenarios. DEFINED operationalizes debate creativity through a hierarchical eight-dimensional metric system, implemented via a pre-trained autoregressive language model with a hierarchical scoring head that supports both fine-grained and coarse-grained evaluation. Statements and their associated expert scores were obtained from authentic debate competitions, and a constrained data augmentation strategy was employed to address the elite bias inherent in the original data. DEFINED adopts a mixed-granularity training strategy enabling robust learning from limited fine-grained supervision annotated by trained graduate experts. To rigorously validate ecological validity beyond synthetic benchmarks, we incorporate an empirical study with debate-naive participants, utilizing these authentic data to serve as a qualitative case study for mid-to-low proficiency populations. Across our evaluation protocol, our scoring model achieves accurate and stable scoring, outperforming prompt-based large language model evaluators and existing debate scoring methods.
- Abstract(参考訳): 人間の創造性は、大きな言語モデルの時代において重要な能力として現れてきた。
複雑なオープンエンド環境での創造性を評価することは、データマイニングにおいて大きな課題であり、現在、標準化された単純なタスクときめ細かい専門家データの不足によって妨げられている。
生態学的に有効な評価の文脈として、議論は多次元の創造性を反映し、散発的思考と収束的思考の両方を包含する。
さらに、議論はデータ豊富な領域であり、大量の公開資料が公開されている。
現在のメインストリームの自動スコアリング手法は、議論のような複雑な設定には適さないため、それでもコストのかかる人的評価に依存している。
そこで本研究では,議論シナリオにおける詳細なクリエイティビティ評価のためのデータ効率計算フレームワークであるDEFINEDを提案する。
DEFINEDは、階層的な8次元計量システムを通じて議論の創造性を運用し、階層的なスコアリングヘッドを持つ事前訓練された自己回帰言語モデルによって実装され、きめ細かい評価と粗い評価の両方をサポートする。
論文とその関連する専門家のスコアは、真正な議論のコンペから得られ、元のデータに固有のエリートバイアスに対処するために、制約付きデータ拡張戦略が採用された。
DEFINEDは、訓練された卒業生が注釈付けした限定的なきめ細かい監督から堅牢な学習を可能にする混合粒度トレーニング戦略を採用している。
総合的なベンチマークを超えて生態学的妥当性を厳格に検証するため,本研究は,これらの真正データを利用して,中~低習熟度集団の定性ケーススタディとして活用する実証研究を取り入れた。
評価プロトコル全体にわたって、評価モデルは正確で安定したスコアリングを実現し、プロンプトベースの大規模言語モデル評価器や既存の議論スコアリング手法よりも優れています。
関連論文リスト
- Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。
我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-23T17:58:14Z) - Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator [26.89750429841565]
大規模言語モデル(LLM)の創造性評価は依然として挑戦的なフロンティアである
本稿では,テキストの創造性を評価するためのペアワイズ比較フレームワークを提案する。
CreataSetのトレーニングを通じて, CrEvalというLCMに基づく評価器を開発した。
論文 参考訳(メタデータ) (2025-05-25T17:25:23Z) - ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges [23.179246872272362]
今日の分極環境では、計算的議論がますます重要になっている。
そこで本研究では,現実世界のWebサイトを基盤とした,議論されたトピックに関する,長く複雑な人間による議論を特徴とする新しいベンチマークを提案する。
提案した LLM Judges と ConQRet ベンチマークは,計算議論の急速な進展を可能にする。
論文 参考訳(メタデータ) (2024-12-06T17:35:52Z) - Evaluating the Performance of Large Language Models via Debates [43.40134389150456]
大規模言語モデル(LLM)は急速に進化し、様々な分野に影響を与えています。
パフォーマンス評価の現在のほとんどのアプローチは、固定されたドメイン固有の質問に基づいているか、あるいは人間の入力に依存している。
本稿では,LLM間の議論に基づく自動ベンチマークフレームワークを提案する。
この方法は、ドメイン知識だけでなく、議論的推論や矛盾認識といったスキルも評価する。
論文 参考訳(メタデータ) (2024-06-16T19:02:31Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。