論文の概要: Position: Correct Answer, Wrong Mechanism -- When AI Scientists Defend General Claims Their Own Data Contradicts
- arxiv url: http://arxiv.org/abs/2606.23175v1
- Date: Mon, 22 Jun 2026 11:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:38:58.072711
- Title: Position: Correct Answer, Wrong Mechanism -- When AI Scientists Defend General Claims Their Own Data Contradicts
- Title(参考訳): 正しい答え、誤ったメカニズム-AI科学者が自身のデータ矛盾を擁護する時
- Authors: Steven Young Eulig,
- Abstract要約: コーディングエージェントは信頼できるツールを証明しているが、オープンエンドのクレーム作成のための信頼性の低い科学的共著者である。
一段階の体制シフトチェックは、エージェントのクレームのみを必要とし、過度に一般化されたケースにフラグを付ける。
コンパニオン再計算は、正しいオブザーバブルがわかっている場合の残りのケースをフラグする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI scientist systems are described as tools, coauthors, or founders, but we evaluate them as if only the final answer matters. This position paper argues that outcome-only evaluation is insufficient, and that task outcome, mechanism fidelity, and epistemic honesty must be measured separately. Our evidence comes from 28 episodes of a coding agent attempting to rediscover a known particle identification observable in a Geant4 simulation, including an 8-episode probe across two additional frontier models. In 4/20 primary-model and 3/8 cross-model episodes, agents reach right-looking results through incorrect reasoning that breaks when conditions change, which we call Correct Answer, Wrong Mechanism (CAWM). Honesty and mechanism fidelity dissociate within a single agent trajectory. When given a partially misleading prior, all five agents reject the false component on evidence, yet one defends its chosen observable with physics inconsistent with its own data. In the simulation-based discovery setting studied here, coding agents prove reliable tools but unreliable scientific co-authors for open-ended claim-making, where co-author trust requires mechanism-fidelity verification they do not reliably self-apply. The failure is detectable, and we propose a lightweight test. A one-step regime-shift check needs only the agent's claim and flags the over-generalized cases. A companion recomputation flags the remaining cases when the correct observable is known. Together, these checks flag every CAWM case in this study.
- Abstract(参考訳): AI科学者システムは、ツール、共著者、あるいは創業者として説明されていますが、最終的な答えだけが重要であるかのように評価します。
本論では, 結果のみの評価は不十分であり, 作業結果, メカニズムの忠実度, 認識的誠実度を別々に測定する必要があると論じる。
我々の証拠は、Geant4シミュレーションで観測可能な既知の粒子識別を再発見しようとするコーディングエージェントの28エピソードから来ています。
4/20の一次モデルと3/8のクロスモデルエピソードでは、エージェントは、条件が変わったときに壊れる誤った推論によって正しい結果を得る。
誠実さとメカニズムの忠実さは1つのエージェント軌道内で解離する。
部分的に誤解を招く前に、すべての5つのエージェントは証拠について偽の要素を拒絶するが、その選択された観測可能な物理データと自身のデータとの矛盾を擁護する。
ここで研究されたシミュレーションベースの発見設定では、コーディングエージェントは信頼できるツールを証明しているが、オープンエンドなクレーム作成のための信頼性の低い科学的共著者である。
故障は検出可能であり、我々は軽量なテストを提案する。
一段階の体制シフトチェックは、エージェントのクレームのみを必要とし、過度に一般化されたケースにフラグを付ける。
コンパニオン再計算は、正しいオブザーバブルがわかっている場合の残りのケースをフラグする。
この調査では、これらのチェックはすべてのCAWMケースにフラグを付ける。
関連論文リスト
- HypoAgent: An Agentic Framework for Interactive Abductive Hypothesis Generation over Knowledge Graphs [52.91976391891331]
知識グラフに対する帰納的推論は、観察された実体や事実を説明する論理的仮説を生成することを目的としている。
既存の制御可能な仮説生成手法により、ユーザーは明示的な条件でこのプロセスをガイドすることができる。
本稿では,知識グラフ上での対話的帰納的仮説生成のためのエージェントフレームワークであるHypoAgentを提案する。
論文 参考訳(メタデータ) (2026-05-29T14:40:37Z) - When Should an AI Scientist Stop? Verifiable Experiment Steering and Refusal for Autonomous Discovery [0.0]
CARTOGRAPHは、AI科学者のための検証レイヤーである。
未解決宇宙実験ステアリング(選択)、明示的曖昧性閉鎖(解決)、残差に基づくライブラリ不整合検出(再利用)の2つを結合する。
論文 参考訳(メタデータ) (2026-05-26T18:19:16Z) - CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists [28.253879252786632]
LLMエージェントによる対話的因果発見を評価するスケーラブルな環境であるCausaLabを紹介する。
以前の評価とは異なり、CausaLabは、エージェントが因果的証拠を用いて問題を解くことができるかどうか、そしてその答えが忠実に回復された因果的メカニズムに根ざされているかどうかを評価している。
論文 参考訳(メタデータ) (2026-05-25T16:57:06Z) - A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification [0.0]
自律的な操作エージェントに関する実証的な主張は、ほとんど不可能である。
コードエージェントは「機能する」検証基板を持ち、高速でファルサブルで地味な信号に変換する。
ターゲットクラスタに障害を注入するクローズドループ計測フレームワークである Agent-breakage を提案する。
論文 参考訳(メタデータ) (2026-05-21T21:47:52Z) - VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - To Throw a Stone with Six Birds: On Agents and Agenthood [0.0]
Six Birds Theory (SBT)は、マクロな物体を原始体ではなく誘導的閉包として扱う。
SBT内では,タイプ正当性評価を行う。
我々はこの契約を4つのチェック可能なコンポーネントを用いて有限制御システムで運用する。
論文 参考訳(メタデータ) (2026-02-03T10:46:23Z) - AI-Assisted Engineering Should Track the Epistemic Status and Temporal Validity of Architectural Decisions [0.0]
LLMコーディングアシスタントは、チームが検証できるよりも早く意思決定を生成する。
広く採用されているフレームワークは、検証された知識と推測を区別するものではない。
責任あるAI支援工学の3つの要件を提案する。
論文 参考訳(メタデータ) (2026-01-28T23:12:07Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。