論文の概要: More Yap Less Meaning: Uncovering Self-Improvement Behavior in SLMs
- arxiv url: http://arxiv.org/abs/2606.08471v1
- Date: Sun, 07 Jun 2026 06:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.128039
- Title: More Yap Less Meaning: Uncovering Self-Improvement Behavior in SLMs
- Title(参考訳): よりヤップの少ない意味:SLMにおける自己改善行動の発見
- Authors: Marina Igitkhanian, Erik Arakelyan,
- Abstract要約: 本研究では,小言語モデル(SLM)の自己補正能力について検討する。
本稿では,SLMの初期回答を収集する最小3ステップの自己補正パイプラインを提案する。
本研究では,算術的および論理的推論ベンチマークを用いた実験装置において,様々な命令調整および推論SLMを評価した。
- 参考スコア(独自算出の注目度): 3.373200015661364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, language models have made rapid progress across various domains and applications. However, their capability for self-improvement, i.e., whether they are adept at recognising and correcting flaws in their own reasoning, remains dubious. In this study, we address this question by constructing a sufficiency test to rigorously examine the self-correction capabilities of small language models (SLMs). We propose a minimal three-step self-correction pipeline that collects initial SLM answers, prompts the same model to generate hints for its incorrect responses given the ground truth, and feeds the model the same question with its own feedback to refine the initial answer. We evaluate a variety of instruction-tuned and reasoning SLMs in this experimental setup on arithmetic and logical reasoning benchmarks. Our findings show that SLMs with injected hint sentences yield only a 4.4 percent gain over initial question-answering accuracy. Even though the correct answer was provided alongside the model's incorrect reasoning, the evaluated SLMs fail to understand what was missing in their reasoning and show minimal semantic difference between hints that lead to corrections and ones that do not. Furthermore, our experiments show that longer hints are positively correlated with incorrect final answers, suggesting that longer deliberation on problems can hinder the reasoning process, meaning that SLMs do not necessarily scale in performance with a larger compute budget.
- Abstract(参考訳): 近年、言語モデルは様々な分野やアプリケーションで急速に進歩している。
しかし、自己改善の能力、すなわち、彼ら自身の推論の欠陥を認識し修正する能力があるかどうかは、疑わしいままである。
本研究では,小言語モデル(SLM)の自己補正能力を厳格に検証するために,十分性テストを構築することで,この問題に対処する。
そこで本研究では,SLMの初期回答を収集する最小3ステップの自己補正パイプラインを提案する。
本研究では,算術的および論理的推論ベンチマークを用いた実験装置において,様々な命令調整および推論SLMを評価した。
その結果, ヒント文を挿入したSLMでは, 質問応答精度が4.4%向上した。
正しい答えはモデルの誤った推論と共に提供されたが、評価されたSLMは、彼らの推論に欠けていることを理解できず、修正に繋がるヒントと、修正しないヒントとの間には最小限の意味的差異を示す。
さらに,提案実験では,長いヒントが不正確な最終回答と正に相関していることが示され,問題に対する長い検討が推論の妨げとなることが示唆された。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [34.350505059394536]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2024-02-12T23:11:01Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。