論文の概要: Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.09856v1
- Date: Tue, 26 May 2026 15:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.812438
- Title: Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models
- Title(参考訳): 確率的プログラムを用いた大規模言語モデルにおける帰納的推論の訓練
- Authors: Liyi Zhang, Akshay K. Jagadish, Brenden M. Lake, Thomas L. Griffiths,
- Abstract要約: 多くの現実世界の推論問題は帰納的であり、エージェントは曖昧で曖昧な観察から不確実な信念を推測しなければならない。
帰納的推論に標準的な微調整法を用いるには課題がある。
これらの制約に対処するために,PPT(Program Posterior Training)を導入する。
- 参考スコア(独自算出の注目度): 10.489066116287221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training Large Language Models (LLMs) for reasoning typically focuses on deductive tasks such as mathematics and coding where correctness is verifiable. Yet, many real-world reasoning problems are inductive: agents must infer uncertain beliefs from sparse, ambiguous observations. There are challenges to using standard fine-tuning methods for inductive reasoning, including difficulties in curating large-scale, high-quality labeled datasets and in handling targets that are inherently distributional. In this work, we introduce a novel approach, called Program-based Posterior Training (PPT), to address these limitations: we use an LLM to generate diverse open-world scenarios as probabilistic programs, run probabilistic inference to produce distributional target responses to queries, and then fine-tune on these probabilistic soft labels. Using this approach, we fine-tune LLMs on 10,000 programmatically generated scenarios and evaluate on held-out motifs, human-labeled judgments, and external benchmarks. Overall, PPT substantially improves estimation accuracy on held-out inductive tasks, increases alignment with human judgments, and transfers to external benchmarks for estimation and calibration. Additionally, the gains in raw calibration are not subsumed by post-hoc temperature scaling, showing that the models have more deeply internalized uncertainty compared to output rescaling. Together, these results suggest that probabilistic-program-mediated fine-tuning is a promising approach for post-training LLMs to reliably perform approximate inductive inference.
- Abstract(参考訳): 推論のための訓練後の大規模言語モデル(LLM)は一般的に、正確さが検証可能な数学やコーディングのような演能的なタスクに焦点を当てる。
しかし、現実の推論問題の多くは帰納的であり、エージェントは不明瞭で曖昧な観察から不確実な信念を推測しなければならない。
インダクティブ推論に標準的な微調整手法を使用することには、大規模で高品質なラベル付きデータセットのキュレーションの難しさや、本質的に分散的なターゲットの扱いなど、課題がある。
本研究では,プログラムベースポストリアトレーニング(PPT)と呼ばれる新しい手法を導入し,これらの制約に対処する。LLMを用いて確率的プログラムとして多様なオープンワールドシナリオを生成し,確率論的推論を行い,クエリに対する分布的ターゲット応答を生成し,それらの確率的ソフトラベルを微調整する。
このアプローチを用いて,プログラムで生成したシナリオ1万件のLCMを微調整し,ホールドアウトモチーフ,人間ラベルによる判断,および外部ベンチマークで評価する。
全体として、PTは保持された帰納的タスクの推定精度を大幅に改善し、人間の判断との整合性を高め、見積もりとキャリブレーションのための外部ベンチマークに転送する。
さらに, 熱後温度スケーリングでは生キャリブレーションの利得は仮定されず, モデルが出力再スケーリングよりも深い内部不確実性を有することを示す。
これらの結果から,確率的プログラムによる微調整は,学習後のLLMが近似帰納的推論を確実に行う上で有望な手法であることが示唆された。
関連論文リスト
- TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning [44.20336483508951]
テーブル推論は、意味的理解と正確な数値操作を共同で行うモデルを必要とする。
これらの制約に対処するため、我々は以前TableMindをチューニングベースの自律型プログラムエージェントとして提案した。
この基盤をTableMind++に拡張し、新しい不確実性を認識した推論フレームワークを導入しました。
論文 参考訳(メタデータ) (2026-03-08T08:31:33Z) - From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty [9.798854302346802]
解釈可能で校正された不確実性を表現できる大規模言語モデル(LLM)は、高い領域において不可欠である。
そこで我々は,LLM後の3段階パイプラインを提案し,その応答に対する不確実性評価を効率的に推定する。
実験により、パイプラインでトレーニングされたモデルは、ベースラインよりもキャリブレーションが良く、さらなる処理をすることなく、目に見えないタスクに一般化できることが示された。
論文 参考訳(メタデータ) (2026-03-06T14:21:42Z) - Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models [13.41454380481593]
不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T23:31:43Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。