Fugu-MT 論文翻訳(概要): Automated reproducibility assessments in the social and behavioral sciences using large language models

論文の概要: Automated reproducibility assessments in the social and behavioral sciences using large language models

arxiv url: http://arxiv.org/abs/2606.13670v1
Date: Thu, 11 Jun 2026 17:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.979528
Title: Automated reproducibility assessments in the social and behavioral sciences using large language models
Title（参考訳）: 大規模言語モデルを用いた社会・行動科学における再現性の自動評価
Authors: Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten, Felix Henninger, Stefan Rose, Sarah Ball, Bolei Ma, Frauke Kreuter, Markus Weinmann, Stefan Feuerriegel,
Abstract要約: 大規模言語モデル(LLM)が評価を自動化することを示す。 7つの研究において、LLMは有効効果の大きさを推定できなかった。比較のために、ヒトのリアナリストは34%の研究で元の効果の大きさを回復した。
参考スコア（独自算出の注目度）: 26.455702458475415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reproducibility in the social and behavioral sciences is typically evaluated by independent researchers who reanalyze the original data to assess whether the published findings can be recovered. However, such approaches are resource-intensive and difficult to scale. Here, we show that large language models (LLMs) can automate reproducibility assessments. Using N=76 published studies with predefined claims from the behavioral and social sciences, we compare LLM-generated analysis with the original findings and human reanalysis. For 7 studies, the LLM could not produce a viable effect size estimate. For the remaining studies, our LLM pipeline recovered the original effect sizes in 41% of studies using a +/-0.05 tolerance in Cohen's d. Further, our LLM pipeline reached the same qualitative conclusion as the original study in 96% of cases, where conclusions indicate whether the reanalysis supports the original claim. For comparison, human reanalysts recovered the original effect sizes in 34% of studies and reached the same qualitative conclusion in 74% of cases. Together, these results show that LLMs can serve as a scalable tool for automated reproducibility assessment and provide a foundation for systematic auditing of empirical results in the social and behavioral sciences.
Abstract（参考訳）: 社会的および行動科学における再現性は、一般に、公表された結果が回復可能かどうかを評価するために、元のデータを再解析する独立した研究者によって評価される。しかし、そのようなアプローチはリソース集約的でスケールが難しい。ここでは,大規模言語モデル (LLM) が再現性評価を自動化可能であることを示す。行動科学および社会科学の主張を事前に定義したN=76の論文を用いて, LLM生成分析と元の知見と人間の再分析を比較した。 7つの研究において、LLMは有効効果の大きさを推定できなかった。残りの研究では, コーエンdの+/-0.05耐性を用いた研究の41%でLLMパイプラインが元の効果サイズを回復した。さらに, LLMパイプラインは, 96%の症例において, 元の報告と同じ定性的な結論に達した。比較のために、ヒトのリアナリストは34%の研究で元の効果の大きさを回復し、74%のケースで同じ質的な結論に達した。これらの結果から, LLMは自動再現性評価のためのスケーラブルなツールとして機能し, 社会・行動科学における経験的成果の体系的監査の基盤となることが示唆された。

関連論文リスト

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文参考訳（メタデータ） (2026-03-01T21:46:27Z)
IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文参考訳（メタデータ） (2026-02-08T12:28:29Z)
Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。 LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文参考訳（メタデータ） (2025-11-26T09:50:42Z)
LLM-REVal: Can We Trust LLM Reviewers Yet? [70.58742663985652]
大規模言語モデル(LLM)は研究者に、学術的なワークフローに広く組み込むよう刺激を与えている。本研究は、LLMのピアレビューと研究プロセスへの深い統合が学術的公正性にどのように影響するかに焦点を当てる。
論文参考訳（メタデータ） (2025-10-14T10:30:20Z)
Identifying Non-Replicable Social Science Studies with Language Models [2.621434923709917]
オープンソース (Llama 3 8B, Qwen 2 7B, Mistral 7B) とプロプライエタリ (GPT-4o) 命令調整 LLM の複製可能と非複製可能の区別能力について検討した。 LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
論文参考訳（メタデータ） (2025-03-10T11:48:05Z)
LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。 PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文参考訳（メタデータ） (2024-12-04T09:39:56Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。