論文の概要: LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis
- arxiv url: http://arxiv.org/abs/2606.13220v1
- Date: Thu, 11 Jun 2026 11:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.758095
- Title: LLM-as-an-Investigator: Evidence-First Reasoning for Robust Interactive Problem Diagnosis
- Title(参考訳): LLM-as-an-investigator:ロバストな対話型問題診断のためのエビデンスファースト推論
- Authors: Fabrizio Marozzo, Pietro Liò,
- Abstract要約: 本稿では、ロバストな問題診断のためのエビデンスファーストのエージェントAI手法であるLSM-as-an-Investigatorを紹介する。
このアプローチは、初期問題記述の曖昧さを見積もるソリューション調査エージェントによって実装される。
その結果,提案手法は直接的プロンプトや推論のみのベースラインよりも精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 13.258011377627822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as interactive assistants for technical problem solving. However, when users provide incomplete descriptions or plausible but unverified explanations, LLMs may prematurely align with these assumptions and propose solutions before collecting sufficient evidence. We refer to this behavior as user-driven sycophancy: the tendency of an LLM to reinforce a user-provided hypothesis instead of testing alternative explanations. This paper introduces LLM-as-an-Investigator, an evidence-first agentic AI methodology for robust problem diagnosis. The approach is implemented through a Solution Investigator Agent, which estimates the ambiguity of an initial problem description, generates candidate hypotheses, asks targeted clarification questions, and updates hypothesis probabilities after each answer. Rather than producing an immediate response, the agent continues the investigation until the evidence makes one candidate explanation stronger than the alternatives. To evaluate the approach, we build a benchmark from solved technical forum threads in mechanical, electrical, and hydraulic domains. We use a three-agent evaluation pipeline in which a Problem-Solution Extractor Agent converts solved threads into structured cases, a Ground-Truth Evaluator Agent simulates the user while hiding the known solution, and the tested assistant attempts to recover the solution through dialogue. The experiments compare standard assistants, reasoning-oriented LLMs, and the proposed investigator-based model across LLM backbones. In addition to diagnostic accuracy, we analyze how standard assistants follow misleading user hypotheses in diagnostic cases. The results show that the proposed approach identifies the problem more accurately than direct prompting and reasoning-only baselines, while its evidence-first protocol helps reduce user-induced conversational bias.
- Abstract(参考訳): 大規模言語モデル(LLM)は、技術的問題解決のための対話型アシスタントとしてますます使われている。
しかし、ユーザが不完全な説明や検証不可能な説明を提供する場合、LCMはこれらの仮定に早急に一致し、十分な証拠を収集する前に解決策を提案する。
我々は、この振る舞いをユーザ主導の梅毒(英語版)と呼び、LCMは代替説明をテストするのではなく、ユーザが提供する仮説を補強する傾向にある。
本稿では、ロバストな問題診断のためのエビデンスファーストのエージェントAI手法であるLSM-as-an-Investigatorを紹介する。
このアプローチは、初期問題記述の曖昧さを推定し、候補仮説を生成し、対象とする明確化の質問を行い、各回答の後に仮説の確率を更新するソリューション調査エージェントによって実現される。
エージェントは即時応答を生成するのではなく、証拠が1つの候補説明を他の候補よりも強くするまで調査を続ける。
提案手法を評価するため,機械,電気,油圧の領域で解決された技術フォーラムスレッドからベンチマークを構築した。
問題解決エクストラクタエージェントが解決したスレッドを構造化されたケースに変換する3エージェント評価パイプラインを使用し、グラウントトラス評価エージェントは既知のソリューションを隠蔽しながらユーザをシミュレートし、テストされたアシスタントは対話を通して解を回復しようとする。
実験は、標準アシスタント、推論指向LLM、およびLLMバックボーン間の探索モデルと比較した。
診断精度に加えて,診断症例において,標準アシスタントが誤ったユーザ仮説に従う方法を分析する。
その結果,提案手法は直接的プロンプトや推論のみのベースラインよりも精度が高く,エビデンス優先プロトコルはユーザによる会話バイアスの低減に役立つことがわかった。
関連論文リスト
- Drift-Bench: Diagnosing Cooperative Breakdowns in LLM Agents under Input Faults via Multi-Turn Interaction [20.610305266852638]
textbfDrift-Benchは、入力故障下でエージェントの実用性を評価する最初の診断ベンチマークである。
方法ブリッジは、安全でない実行に繋がる障害の体系的な診断を可能にする、明確化研究とエージェントの安全性評価を橋渡しする。
論文 参考訳(メタデータ) (2026-02-02T18:46:16Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems [28.38783951577184]
AInsteinは、AI研究問題に対する有効なソリューションを、大規模言語モデルが生成できるかどうかをテストするためのフレームワークである。
受け入れ層により層状化された1,214 ICLR紙上でのAInsteinの評価を行った。
論文 参考訳(メタデータ) (2025-10-06T22:50:41Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions [16.815772962323628]
Ask-Before-Detect (AskBD) フレームワークを導入し,大規模言語モデル(LLM)を用いて適応参照ソリューションを生成し,エラー検出を強化する。
GSM8Kの200例の実験では、AskBDがバイアスを効果的に軽減し、性能を向上させることが示されている。
論文 参考訳(メタデータ) (2024-12-22T03:08:36Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。