論文の概要: Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage
- arxiv url: http://arxiv.org/abs/2606.12767v1
- Date: Thu, 11 Jun 2026 00:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.512108
- Title: Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage
- Title(参考訳): 手続き的推論のための評価データセットの構築:自然性・接地・マルチホップ被覆のバランス
- Authors: Sarah Elshabrawy, Rahul K. Dass, Ashok K. Goel,
- Abstract要約: 本研究では,TMKに基づく質問生成手法が,手続き的およびマルチホップ推論におけるデータセット品質に与える影響について検討する。
23の教示トピックと690の質問応答ペアで、厳密なTMK生成は、全体的な品質が最も高い。
Transcript-first 生成はより学習的な質問を生成するが、文脈に依存したり弱く接地された項目がより多く生成される一方、TMK-aware 生成は高い生のマルチホップカバレッジをもたらすが、接地度は低い。
- 参考スコア(独自算出の注目度): 1.873444918172383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating procedural reasoning in AI-supported learning systems requires question-answer datasets that are both learner-like and grounded in the instructional knowledge the system is expected to use. We study how TMK-based question generation strategies affect dataset quality for procedural and multi-hop reasoning. We compare three strategies: strict generation from Task-Method-Knowledge (TMK) models, transcript-first generation with post-hoc TMK filtering, and TMK-aware generation that combines transcripts with structured guidance. To evaluate generated items, we introduce a grounding validation framework based on closed-set evidence units extracted from TMK models. The framework measures whether answers are supported by the underlying representation, whether questions are self-contained, and whether they target multi-hop procedural reasoning. Across 23 instructional topics and 690 generated question-answer pairs, strict TMK generation achieves the strongest overall quality, with 96.5% grounded questions and 92.6% usable questions. Transcript-first generation produces more learner-like questions but more context-dependent or weakly grounded items, while TMK-aware generation yields high raw multi-hop coverage but lower grounding. These results show that procedural richness and natural phrasing do not guarantee representational grounding, motivating explicit representation-aware validation for evaluation datasets in AI-supported learning.
- Abstract(参考訳): AI支援学習システムにおける手続き的推論を評価するには、学習者らしく、システムが使用するであろう教育的知識に基づく質問応答データセットが必要である。
本研究では,TMKに基づく質問生成手法が,手続き的およびマルチホップ推論におけるデータセット品質に与える影響について検討する。
我々は,タスクメソッド知識(TMK)モデルからの厳密な生成,ポストホックTMKフィルタリングによるトランスクリプトファースト生成,構造化ガイダンスと組み合わせたTMKアウェア生成の3つの戦略を比較した。
生成項目を評価するために,TMKモデルから抽出したクローズド・セット・エビデンス・ユニットに基づくグラウンドティング・バリデーション・フレームワークを提案する。
このフレームワークは、答えが基礎となる表現によって支持されるかどうか、質問が自己完結しているかどうか、そして、それらがマルチホップ手続き的推論をターゲットにしているかどうかを測定する。
23の教示トピックと690の生成した質問応答ペアで、厳密なTMK生成は96.5%の根拠のある質問と92.6%の有用な質問で、最も高い品質を実現している。
Transcript-first 生成はより学習的な質問を生成するが、文脈に依存したり弱く接地された項目がより多く生成される一方、TMK-aware 生成は高い生のマルチホップカバレッジをもたらすが、接地度は低い。
これらの結果から,AI支援学習における評価データセットに対する明示的表現認識検証の動機付けとして,手続き的豊かさと自然な言い回しが表現的根拠を保証しないことが示唆された。
関連論文リスト
- BMGQ: A Bottom-up Method for Generating Complex Multi-hop Reasoning Questions from Semi-structured Data [8.52473384574856]
本稿では,半構造化知識ソースから高難易度,訓練可能なマルチホップ質問を自動生成するフレームワークを提案する。
このシステムは、自然言語推論(NLI)に基づく関係型付けと多様性を意識した拡張を通じて、多様な、論理的にラベル付けされたエビデンスクラスタを成長させる。
論文 参考訳(メタデータ) (2025-10-28T07:43:15Z) - Automatic Question & Answer Generation Using Generative Large Language Model (LLM) [0.0]
本研究では,NLPにおける教師なし学習手法の活用を提案する。
カスタマイズされたモデルは、教育者、インストラクター、テキストベースの評価に従事する個人に対して効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-26T23:36:13Z) - Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI [0.10995326465245928]
本稿では,マレーシアの教育システムにおけるスケーラブルで高品質な教育評価ツールの必要性について論じる。
生成AI(GenAI)の可能性を強調しながら、事実の正確性とカリキュラムの整合性を保証するという課題を認識している。
論文 参考訳(メタデータ) (2025-08-06T13:30:51Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Prompt-Engineering and Transformer-based Question Generation and
Evaluation [0.0]
本稿では,変換器モデルを用いてテキストデータから質問を生成する最良の方法を見つけ,エンジニアリングを急ぐことを目的とする。
生成した質問は、SQuADデータセットのベースライン質問と比較し、4つの異なるプロンプトの有効性を評価した。
論文 参考訳(メタデータ) (2023-10-29T01:45:30Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。