論文の概要: Counterexample Guided Learning in the Large using Reasoning Agents
- arxiv url: http://arxiv.org/abs/2606.11521v1
- Date: Tue, 09 Jun 2026 23:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.217357
- Title: Counterexample Guided Learning in the Large using Reasoning Agents
- Title(参考訳): 共振器を用いた大規模学習における逆例指導
- Authors: Hongyi Liu, Frederic Sala, Thomas Reps, Adithya Murali,
- Abstract要約: 検証器のフィードバックは,課題抽出作業におけるサンプル効率を大幅に向上させ,必要なラベル付き例の数を削減し,標準のプロンプトが失敗する複雑なターゲット表現の学習を可能にすることを示す。
これらの結果から,LSMを付加的なデータとして扱うこと以外に,LLMに基づくプログラム合成と形式推論のための堅牢な検証者誘導手法の扉を開くことのメリットが示唆された。
- 参考スコア(独自算出の注目度): 15.424030391880677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs and LLM agents should improve when given feedback, but identifying when they are able to do so is difficult: feedback is heterogeneous, domain-specific, and difficult to control. We approach this challenge by asking LLMs to perform regular-expression induction, a classical symbolic learning problem where precise mechanisms for feedback exist in the form of counterexamples. In counterexample-guided learning, a learner (LLM) proposes candidate regular expressions from positive/negative-labeled strings, and the teacher (verifier) returns counterexamples showcasing the difference between the candidate and target languages. We identify novel counterexample-guided refinement strategies that enable effective regex learning, such as regularization and symbolic counterexample clusters. We also explore agentic strategies such as reflection and repair loops. Empirically, we find that verifier feedback substantially improves sample efficiency on challenging regex-induction tasks, reducing the number of labeled examples required and enabling learning of complex target expressions where standard prompting fails. For example, on the hardest task groups, our counterexample-guided framework improves success from 3.2% to 38.1% and from 38.9% to 74.1% on two different regex domains. These results suggest that LLMs can benefit from rich feedback beyond treating it as additional data, opening the door for robust verifier-guided methods for LLM-based program synthesis and formal reasoning.
- Abstract(参考訳): LLMとLLMエージェントはフィードバックが与えられたときに改善されるべきであるが、それがいつ可能かを特定することは難しい。
我々は,従来のシンボリック学習問題であり,フィードバックの正確なメカニズムが反例の形で存在するLLMに対して,正規表現誘導の実行を依頼することで,この問題に対処する。
逆例誘導学習において、学習者(LLM)は正・負のラベル付き文字列から候補正規表現を提案し、教師(検証者)は、候補言語と対象言語の違いを示す反例を返す。
我々は,正規化やシンボリックな反例クラスタなど,効果的な再帰学習を可能にする新しい反例誘導型洗練戦略を同定する。
また,リフレクションやリフレクションループなどのエージェント戦略についても検討する。
実験により,検証者フィードバックは,残響誘導課題におけるサンプル効率を大幅に向上し,必要なラベル付き例の数を削減し,標準のプロンプトが失敗する複雑なターゲット表現の学習を可能にする。
例えば、最も難しいタスクグループでは、我々の逆例誘導フレームワークは、2つの異なるregexドメインで3.2%から38.1%、38.9%から74.1%に改善します。
これらの結果から,LSMを付加的なデータとして扱うこと以外に,LLMに基づくプログラム合成と形式推論のための堅牢な検証者誘導手法の扉を開くことのメリットが示唆された。
関連論文リスト
- Deliberate Evolution: Agentic Reasoning for Sample-Efficient Symbolic Regression with LLMs [52.89778838903305]
Deliberate Evolution (DE) は、検索制御からシンボル生成を分離するエージェントフレームワークである。
LLM-SRBenchの実験では、DEMは様々な科学領域でLLMベースのSRベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-06-03T02:22:16Z) - Learning to Disprove: Formal Counterexample Generation with Large Language Models [26.262810717227108]
数学における現在のAIの取り組みは、ほとんど証明構築にのみ焦点をあてている。
我々はこのタスクを形式的な逆例生成として定式化する。
多様なトレーニングデータを合成するシンボリックな突然変異戦略を導入する。
論文 参考訳(メタデータ) (2026-03-19T22:42:49Z) - Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks [40.48180253367968]
汎用LLMの一般化能力を向上する文脈内学習手法を提案する。
このアプローチでは反復的なサンプル選択戦略を採用しており、いくつかの例を段階的に調整して構築する。
実験の結果, より単純な例では, LLMではより優れた一般化性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-01T08:54:45Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Exploring Iterative Controllable Summarization with Large Language Models [22.80433394369022]
大言語モデル(LLM)は抽象的な要約タスクにおいて顕著な性能を示した。
以上の結果から,LLMは言語属性よりも数値属性に苦しむことが明らかとなった。
制御可能な要約のためのガイド・ツー・説明フレームワーク(GTE)を提案する。
論文 参考訳(メタデータ) (2024-11-19T12:36:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。