論文の概要: PseudoBench: Measuring How Agentic Auto-Research Fuels Pseudoscience
- arxiv url: http://arxiv.org/abs/2606.18060v1
- Date: Tue, 16 Jun 2026 15:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.51613
- Title: PseudoBench: Measuring How Agentic Auto-Research Fuels Pseudoscience
- Title(参考訳): PseudoBench: 人為的オートリサーチが擬科学にどう影響するかを計測する
- Authors: Xinyang Liao, Lingyu Li, Huacan Liu, Tianle Gu, Yang Yao, Tong Zhu, Yan Teng, Yingchun Wang,
- Abstract要約: PseudoBenchはエージェント自動検索システムが疑似科学的物語を識別し、抵抗できるかどうかを評価するための逆ベンチマークである。
現在のシステムでは、疑似科学的前提とほぼゼロの拒絶率と最も高い抵抗率の27.4%に一致した説得レポートが容易に作成されている。
- 参考スコア(独自算出の注目度): 18.677430424642885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Model based agents enter autonomous scientific research, their ability to resist pseudoscience becomes increasingly important. Otherwise, such systems may rapidly generate plausible yet misleading studies that contaminate academic literature and erode trust in science. We present PseudoBench, an adversarial benchmark for evaluating whether agentic auto-research systems can identify and resist pseudoscientific narratives. PseudoBench contains 200 curated pseudoscientific claim-evidence pairs across five domains and evaluates agents through an end-to-end research pipeline from experiments to writing. Testing seven state-of-the-art agents, we find that current systems readily produce persuasive reports that align with pseudoscientific premises with near-zero refusal rates and the highest resistance of only 27.4%. Stronger agents risk packaging pseudoscience in more sophisticated scientific language, increasing its apparent credibility. These findings reveal an alarming capacity to fuel pseudoscience, calling for scientific alignment before widespread deployment.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントが自律的な科学研究に入るにつれ、疑似科学に抵抗する能力はますます重要になる。
さもなければ、そのようなシステムは、学術文献を汚染し、科学への信頼を損なう、もっともらしいが誤解を招く研究を急速に生み出すかもしれない。
PseudoBenchはエージェント自動検索システムが疑似科学的物語を識別し、抵抗できるかどうかを評価するための逆ベンチマークである。
PseudoBenchには、5つのドメインにわたる200のキュレートされた疑似科学的クレームエビデンスペアが含まれており、実験から執筆までのエンドツーエンドの研究パイプラインを通じてエージェントを評価する。
7つの最先端のエージェントをテストしたところ、現在のシステムは疑似科学的前提とほぼゼロの拒絶率と27.4%の抵抗率で一致した説得レポートを容易に生成していることがわかった。
より強力なエージェントは、より洗練された科学的言語で擬似科学をパッケージングする危険性があり、その明らかな信頼性を高めている。
これらの発見は、広く展開される前に科学的アライメントを求めることで、疑似科学を促進するための警告能力を示している。
関連論文リスト
- ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research [142.29356526274387]
我々は自律的な科学的研究を評価するためのベンチマークであるResearchClawBenchを紹介する。
各タスクは、実際の論文に基づき、関連する文献や生データを提供し、評価中に対象の論文を隠蔽する。
論文 参考訳(メタデータ) (2026-05-28T16:27:40Z) - AI scientists produce results without reasoning scientifically [3.100302590436282]
大規模言語モデル(LLM)ベースのシステムは、科学的研究を自律的に行うためにますます多くデプロイされている。
そこで本研究では,8つの領域にまたがるLSMに基づく科学的エージェントの評価を行い,その実行と仮説に基づく調査を行った。
論文 参考訳(メタデータ) (2026-04-20T20:23:42Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Autonomous Agents for Scientific Discovery: Orchestrating Scientists, Language, Code, and Physics [82.55776608452017]
大規模言語モデル(LLM)は、人間の科学者、自然言語、コンピュータ言語とコード、物理学との相互作用を編成する柔軟性と汎用性を備えたフレームワークを提供する。
本稿では, LLMを基盤とした科学エージェントの展望と展望と, 科学発見のライフサイクルを変革する上でのその役割について述べる。
オープンな研究課題を特定し、より堅牢で汎用的で適応的な科学エージェントを構築するための有望な方向性を概説する。
論文 参考訳(メタデータ) (2025-10-10T22:26:26Z) - Matter-of-Fact: A Benchmark for Verifying the Feasibility of Literature-Supported Claims in Materials Science [1.8145608070564014]
本稿では,仮説の妥当性をクレームとして決定するための課題データセットであるMatter-of-Factを紹介する。
ファクト・オブ・ファクトには、4つのインパクトの高い現代材料科学のトピックにまたがる科学論文から抽出された8.4kのクレームが含まれている。
論文 参考訳(メタデータ) (2025-06-04T19:43:18Z) - Towards an AI co-scientist [48.11351101913404]
Gemini 2.0上に構築されたマルチエージェントシステムであるAIコサイシストを紹介する。
このAIの共同科学者は、新しい独創的な知識を解明し、明らかに新しい研究仮説を定式化することを目的としている。
システムの設計には、科学的手法にインスパイアされた仮説生成への生成、議論、進化のアプローチが組み込まれている。
論文 参考訳(メタデータ) (2025-02-26T06:17:13Z) - Decoding Knowledge Claims: The Evaluation of Scientific Publication Contributions through Semantic Analysis [0.3374875022248865]
本稿では,RWMD(Relaxed Word Mover's Distance)という意味的テキスト類似度尺度を用いて,論文の新規性を評価する。
我々は,1)H-Index関連論文,2)サイエントメトリック研究,3)非関連論文の3つのグループでRWMDの結果を比較し,冗長な文献や誇大広告を真のイノベーションから識別することを目的とした。
論文 参考訳(メタデータ) (2024-07-26T10:28:59Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - SciClops: Detecting and Contextualizing Scientific Claims for Assisting
Manual Fact-Checking [7.507186058512835]
本稿では,オンライン科学の誤報に対処する手法であるSciClopsについて述べる。
SciClopsは、オンラインニュース記事やソーシャルメディア投稿に見られる科学的主張を処理するための3つの主要なステップを含んでいる。
複雑な科学的クレームの検証において、非専門家のファクトチェックを効果的に支援し、商業的なファクトチェックシステムより優れている。
論文 参考訳(メタデータ) (2021-10-25T16:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。