論文の概要: Skill-Augmented AI Agents for Medical Research Analysis: An Exploratory Multi-Model Human Evaluation in an NSCLC Transcriptomic Biomarker Task
- arxiv url: http://arxiv.org/abs/2606.11830v1
- Date: Wed, 10 Jun 2026 09:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.37687
- Title: Skill-Augmented AI Agents for Medical Research Analysis: An Exploratory Multi-Model Human Evaluation in an NSCLC Transcriptomic Biomarker Task
- Title(参考訳): 医学研究分析のためのスキル強化AIエージェント:NSCLC転写バイオマーカータスクにおける探索的多モデル人間評価
- Authors: Qianyu Yao, Fei Sun, Bocheng Huang, Wei Chen, Jiarui Jiang, Shu Quan, Yifei Chen, Wenjie Xu, Bo li, Liping Su, Ruoqiong Wu, Huhai Hong, Huimei Wang,
- Abstract要約: 医療研究用スキルパッケージへの自律的アクセスが、高品質なAI生成型トランスクリプトーム研究分析出力と結びついているかどうかを評価した。
スキル強化されたアウトプットは、ネイティブAIアウトプットよりも専門家全体の品質が順に高かった。
- 参考スコア(独自算出の注目度): 20.392151164052404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background. Large language models and AI agents are increasingly used to support biomedical research, but native model outputs may omit key analytical steps, misuse methods, or overstate conclusions. We evaluated whether autonomous access to a medical research skill package was associated with higher-quality AI-generated transcriptomic research-analysis outputs compared with native AI without skills. Methods. We conducted an exploratory multi-model human evaluation using a non-small cell lung cancer immunotherapy biomarker task. Six model backbones were tested. The evaluation included 21 anonymized outputs: 9 native-AI outputs and 12 skill-augmented outputs generated through an AI agent implementation represented by OpenClaw. Four non-expert biomedical reviewers and two blinded experts evaluated each output, with two ratings from each reviewer type. The primary outcome was expert-rated overall quality. Results. Skill-augmented outputs showed directionally higher expert overall quality than native-AI outputs (mean 5.50 vs 5.11; difference=0.39; bootstrap 95\% CI, -0.04 to 0.90; Welch p=0.156). Non-expert reviewer quality showed the same direction (mean 4.72 vs 4.47; difference=0.26; bootstrap 95\% CI, -0.25 to 0.80; Welch p=0.373). Expert agreement was limited (single-rating ICC=-0.15), and model-specific effects were descriptive and heterogeneous. Conclusions. Autonomous skill access showed a directional quality signal in this exploratory sample, but the signal was smaller than expert-rating noise and should not be interpreted as confirmatory evidence. The findings primarily motivate larger evaluations of skill-augmented AI agents with stronger reliability controls, platform replication, and biological-validity assessment.
- Abstract(参考訳): 背景。
大規模言語モデルとAIエージェントは、バイオメディカル研究を支援するためにますます使われているが、ネイティブモデルのアウトプットは、重要な分析ステップ、誤用方法、あるいは過剰な結論を省略する可能性がある。
医療研究のスキルパッケージへの自律的アクセスが、スキルのないネイティブAIと比較して、高品質なAI生成のトランスクリプトーム分析出力と関連しているかどうかを評価した。
メソッド。
非小細胞肺癌免疫療法バイオマーカーを用いた探索的マルチモデルヒト評価を行った。
6つのモデルバックボーンが試験された。
評価には21の匿名出力が含まれている。9つのネイティブAI出力と、OpenClawで表現されたAIエージェント実装によって生成された12のスキル拡張アウトプットだ。
4名の非専門的バイオメディカル・レビュアーと2名の盲目の専門家がそれぞれのアウトプットを評価し、それぞれのレビュアータイプから2つの評価を行った。
主な成果は、専門家による全体的な品質評価でした。
結果。
Skill-augmented outputs showed a directionally overall quality than native-AI outputs (mean 5.50 vs 5.11; difference=0.39; bootstrap 95\% CI, -0.04 to 0.90; Welch p=0.156)。
非専門家のレビュアーの品質は同じ方向を示した(平均4.72対4.47、差=0.26、ブートストラップ95\% CI、-0.25対0.80、ウェルチp=0.373)。
専門家の合意は限定的であり(ICC=-0.15)、モデル固有の効果は説明的かつ不均一であった。
結論。
自律的なスキルアクセスは、この探索サンプルで指向性の品質信号を示したが、信号は専門家による音よりも小さく、確証的証拠として解釈するべきではない。
この発見は、信頼性の強いAIエージェント、プラットフォームのレプリケーション、生物学的妥当性評価など、スキル強化されたAIエージェントのより大きな評価を動機付けている。
関連論文リスト
- On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists [113.03797263688519]
多くの科学者は、AIレビュアーを研究を評価する専門知識のない確率的システムと見なしている。
既存のAIレビュアーの評価では、評決が人間の評決に合致するかどうかに焦点が当てられている。
論文 参考訳(メタデータ) (2026-05-20T03:33:55Z) - Nonstandard Errors in AI Agents [6.890249567932368]
我々は、現在最先端のAIコーディングエージェントが、同じデータと研究質問を与えられた場合、同じ経験的結果をもたらすかどうかを調査する。
我々は,AIエージェントが,分析選択におけるエージェント対エージェントのばらつきから不確実な,大きさのテクスチノンスタンダードエラー(NSE)を示すことを発見した。
これらの発見は、自動政策評価と実証研究におけるAIの利用の増加に影響を及ぼす。
論文 参考訳(メタデータ) (2026-03-17T16:21:22Z) - Explainable AI as a Double-Edged Sword in Dermatology: The Impact on Clinicians versus The Public [46.86429592892395]
説明可能なAI(XAI)は、AI意思決定の洞察を提供することによって、この問題に対処する。
フェアネスに基づく診断AIモデルと異なるXAI説明を組み合わせた2つの大規模実験の結果を報告する。
論文 参考訳(メタデータ) (2025-12-14T00:06:06Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - How Well Can AI Build SD Models? [0.0]
本稿では,AI生成因果写像の評価のための2つの指標について紹介する。
我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
論文 参考訳(メタデータ) (2025-03-19T14:48:47Z) - Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs -- A Multinational Study [3.8184255731311287]
6,669個の歯科用パノラマ線写真(DPR)を3つのデータセットから分析した。
性能指標には、受信機動作特性曲線(AUC-ROC)の感度、特異性、面積が含まれていた。
AIシステムは、人間の読者に匹敵する、あるいは優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-02-14T16:34:21Z) - Less Likely Brainstorming: Using Language Models to Generate Alternative
Hypotheses [45.720065723998225]
我々は、人間が関連性があると思われるが、起こりそうにないアウトプットを生成するためにモデルに要求する新しいタスク「非インブレインストーミング」を導入する。
目標として仮説の可能性が低いトレーニングのベースラインアプローチは、人間がほぼ半分の確率または無関係であると評価するアウトプットを生成する。
そこで本研究では,新たなコントラスト学習手法を用いたテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T18:05:34Z) - An Explainable-AI approach for Diagnosis of COVID-19 using MALDI-ToF
Mass Spectrometry [0.9250974571641537]
重症急性呼吸器症候群2型(SARS-CoV-2)は世界的なパンデミックを引き起こし、世界経済に大きな影響を与えた。
近年では、現在の金標準リアルタイムポリメラーゼ連鎖反応(RT-PCR)結果と高い一致を示す複数の代替プラットフォームが公表されている。
これらの新しい方法は鼻咽頭(NP)スワブを除去し、複雑な試薬の必要性を排除し、RT-PCRテスト試薬の供給の負担を軽減する。
本研究では,人工知能を用いたAIテスト手法を設計し,実験結果の信頼性について検討した。
論文 参考訳(メタデータ) (2021-09-28T23:29:31Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。