論文の概要: PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding
- arxiv url: http://arxiv.org/abs/2606.18624v1
- Date: Wed, 17 Jun 2026 02:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.975301
- Title: PragReST: Self-Reinforcing Counterfactual Reasoning for Pragmatic Language Understanding
- Title(参考訳): PragReST: 実用的な言語理解のための自己強化対実推論
- Authors: Jihyung Park, Minchao Huang, Leqi Liu, Elias Stengel-Eskin,
- Abstract要約: PragReSTは、実用的なQAデータを構築する、自己教師型フレームワークである。
反事実的推論トレースを生成し、それらを内部化するモデルを訓練する。
- 参考スコア(独自算出の注目度): 20.011014649243673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language understanding often depends on meanings that are implied rather than explicitly stated, requiring pragmatic reasoning. Despite strong performance on math and logical reasoning, large language models (LLMs) still struggle with making pragmatic inferences, often choosing literal interpretations. To improve LLM pragmatic reasoning, we introduce PragReST, a self-supervised framework that constructs pragmatic QA data, generates counterfactual reasoning traces, and trains models to internalize them through supervised fine-tuning and reinforcement learning, without human-labeled training data or distillation from a stronger teacher. Across four pragmatic benchmarks (PragMega, Ludwig, MetoQA, and AltPrag), PragReST improves over backbone models, task-specific pragmatic tuning baselines, and non-counterfactual variants of the same pipeline. On accuracy-based benchmarks, PragReST improves over the instruct backbone by 5.37 and 5.50% (absolute) for Qwen3-8B and Qwen3-14B, respectively. Our error analysis and ablations underscore the importance of counterfactual reasoning: PragReST primarily reduces errors caused by failures to contrast observed utterances with plausible alternatives, and removing counterfactual reasoning substantially reduces performance. Moreover, our training preserves out-of-domain performance on general-knowledge and mathematical reasoning benchmarks.
- Abstract(参考訳): 自然言語の理解はしばしば、明示的に述べられるのではなく、暗示される意味に依存し、実践的な推論を必要とする。
数学と論理的推論に強い性能があるにもかかわらず、大きな言語モデル(LLM)は実用的推論に苦慮し、しばしばリテラル解釈を選択する。
LLMの実践的推論を改善するために,実践的QAデータの構築,反実的推論トレースの生成,教師による微調整と強化学習による内部化のためのモデルトレーニングを行う自己教師型フレームワークであるPragReSTを導入する。
4つの実用ベンチマーク(PragMega、Ludwig、MetoQA、AltPrag)において、PragReSTはバックボーンモデル、タスク固有の実用的チューニングベースライン、同じパイプラインの非実用的バリエーションを改善している。
精度に基づくベンチマークでは、PragReSTは、それぞれQwen3-8BとQwen3-14Bのインストラクションバックボーンを5.37と5.50%改善している。
PragReSTは主に、観測された発話と可視な代替語を対比する失敗による誤りを減らし、反実的推論を削除することで、性能を大幅に低下させる。
さらに,本トレーニングでは,一般知識と数学的推論のベンチマークにおいて,ドメイン外の性能を保っている。
関連論文リスト
- LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse [0.18268488712787334]
大規模言語モデル(LLM)は、大規模に教育対話を自動的にラベル付けし分析するために、ますます多くデプロイされている。
本研究では,LLMが生成した推論がモデル自身の予測の正確性を予測するのに有効かどうかを検討する。
授業の対話から30,300人の教師の発話を分析し,複数の最先端LPMでラベル付けし,指導的移動構造とそれに伴う推論を行った。
論文 参考訳(メタデータ) (2026-02-10T14:38:13Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - Understand the Implication: Learning to Think for Pragmatic Understanding [34.34828731466766]
プラグマティクス(英: Pragmatics)とは、文字通りの解釈を超えて意味を推測する能力である。
既存の手法は注釈付きラベルに依存しているが、人間が暗黙の意味を解釈するために自然に使用する推論プロセスを見落としている。
我々は、正しい解釈と誤解釈の両方に対して明確な推論(思考)を含む、新しい実用的データセット、ImpliedPreferenceを導入する。
論文 参考訳(メタデータ) (2025-06-16T14:45:08Z) - Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。