論文の概要: Hallucinations in Organization-backed AI advisors: Evidence about Skepticism, Verification, and Reliance in Goal-Directed Use
- arxiv url: http://arxiv.org/abs/2606.23491v1
- Date: Mon, 22 Jun 2026 15:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:43:22.058175
- Title: Hallucinations in Organization-backed AI advisors: Evidence about Skepticism, Verification, and Reliance in Goal-Directed Use
- Title(参考訳): 組織支援型AIアドバイザの幻覚 : 目標指向型使用における懐疑論、検証、信頼性の証拠
- Authors: Simon J. Blanchard, Aaron M. Garvey, Laura O'Laughlin,
- Abstract要約: AIが推奨する意思決定の中心的な問題は、ユーザーが不正確な情報を頼っているかどうかだけでなく、応答が検証を必要とする可能性があることを認識しているかどうかである。
既存の研究では,ユーザが提示された情報に懐疑的であるかどうか,確認が成功するかどうか,ユーザ検証の結果が情報に依存するかどうか,という3つの特徴を区別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI systems are increasingly used by organizations to deliver information to consumers, patients, students, employees, and citizens. These systems can hallucinate, producing plausible but inaccurate responses. A central question for AI-advised decisions is therefore not only whether users rely on inaccurate information, but whether they recognize that a response may require verification. To answer this question, we review emerging empirical evidence relevant to hallucination detection in goal-directed interactions, with a focus on organization-backed AI advisors. We distinguish three constructs that existing studies often conflate: whether users are skeptical of information presented, whether they check it, whether checking succeeds, and whether the result of user verification affects reliance on the information. Across studies examining product search, medical decision-making, content generation, and chatbot-assisted tasks, several patterns emerge. Nearly all studies measure reliance, while variables such as user skepticism and verification of the information are more often targeted by an intervention than measured directly. The cues used to prompt scrutiny of the AI response are predominantly related to the AI output, such as source citations, and the most deployable of these AI output interventions for organizations (general and specific warnings about the risk of hallucinations) show the weakest and most mixed effects in the studies reviewed. Although the existing literature posits that users may be more likely to scrutinize responses related to particular areas of content, no studies varied the content category, leaving this question open for further research. In future research, measuring skepticism and verification separately from reliance may clarify what current evidence shows, what it only implies, and which questions require further exploration.
- Abstract(参考訳): 生成AIシステムは、消費者、患者、学生、従業員、市民に情報を提供するために、組織によってますます利用されている。
これらのシステムは幻覚を生じさせ、もっともらしいが不正確な反応を引き起こす。
AIが推奨する意思決定の中心的な問題は、ユーザーが不正確な情報を頼っているかどうかだけでなく、応答が検証を必要とする可能性があると認識しているかどうかである。
この質問に答えるために、私たちは、目標指向インタラクションにおける幻覚検出に関連する新たな実証的証拠を、組織が支援するAIアドバイザに焦点をあててレビューする。
既存の研究では,ユーザが提示された情報に懐疑的であるかどうか,確認が成功するかどうか,ユーザ検証の結果が情報に依存するかどうか,という3つの特徴を区別する。
製品検索,医療意思決定,コンテンツ生成,チャットボット支援タスクなど,さまざまなパターンが出現する。
ほぼすべての研究が信頼度を測定する一方で、ユーザ懐疑主義や情報の検証といった変数は直接測定するよりも介入によって標的にされることが多い。
AI応答の精査を促すために使用される手がかりは、主にソース引用などのAI出力と関連しており、これらのAI出力介入のうち最も多くデプロイ可能なもの(幻覚のリスクに関する一般的な、特定の警告)は、レビューされた研究で最も弱く、最も混合した影響を示している。
既存の文献では、ユーザーは特定のコンテンツ領域に関する回答を精査する傾向が強いが、コンテンツカテゴリーの異なる研究は存在せず、この質問はさらなる研究のために開かれたままである。
将来の研究では、懐疑論を測り、信頼から別々に検証することで、現在の証拠が何を示すのか、それが何を意味するのか、どの疑問がさらなる調査を必要とするのかを明らかにすることができる。
関連論文リスト
- Steering the Verifiability of Multimodal AI Hallucinations [115.51077572812862]
マルチモーダルな大言語モデル(MLLM)は幻覚を起こす傾向があり、人間のユーザーにかなりのリスクをもたらす。
本研究では,覚醒と覚醒のための別々のプローブを学習するアクティベーション空間介入法を提案する。
そこで本研究では,異なる介入プローブを誘発し,モデルの妥当性をきめ細かな制御を可能にすることを明らかにする。
論文 参考訳(メタデータ) (2026-04-08T06:13:16Z) - AI summaries in online search influence users' attitudes [3.459756369056329]
本研究では,AIが生成した要約が,ユーザが異なる問題に対する考え方にどのように影響するかを検討した。
ユーザーは、AIサマリーが健康被害と福利厚生に重点を置いていると認識した。
これらの結果は、AIが生成した検索サマリーが公共の認識を著しく形作ることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T23:45:19Z) - Retrieval-augmented systems can be dangerous medical communicators [21.371504193281226]
患者は長年、健康に関する情報をオンラインで求めてきた。
検索強化生成と引用接地は、幻覚を減らし、AI生成応答の精度を向上させる方法として広く推進されている。
本論文は,資料から引き出された文字通り正確な内容が幻覚に反する場合でも,誤解を招く可能性があることを論じる。
論文 参考訳(メタデータ) (2025-02-18T01:57:02Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - The Ethics of ChatGPT in Medicine and Healthcare: A Systematic Review on Large Language Models (LLMs) [0.0]
ChatGPT, Large Language Models (LLMs) は医療分野で大きな注目を集めている。
その潜在的な利点にもかかわらず、研究者は様々な倫理的影響を過小評価してきた。
本研究は, LLMの医療・医療への展開の現段階を取り巻く倫理的景観を地図化することを目的としている。
論文 参考訳(メタデータ) (2024-03-21T15:20:07Z) - What Else Do I Need to Know? The Effect of Background Information on
Users' Reliance on QA Systems [23.69129423040988]
本研究では,予測に十分な情報がない場合のQAシステムとのインタラクションについて検討する。
本研究は,モデルの正しさを評価するのに十分な情報がない場合でも,利用者がモデル予測に頼っていることを明らかにした。
論文 参考訳(メタデータ) (2023-05-23T17:57:12Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。