論文の概要: Flaws in the LLM Automation Narrative
- arxiv url: http://arxiv.org/abs/2606.11166v1
- Date: Tue, 09 Jun 2026 17:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.654747
- Title: Flaws in the LLM Automation Narrative
- Title(参考訳): LLMオートメーションナラティブの欠陥
- Authors: George Perrett, Javae Elliott, Jennifer Hill, Marc Scott,
- Abstract要約: 大規模言語モデル(LLM)は、知識経済タスクにおける人間の専門家のレベルでの行動として、ますます説明されてきている。
これらの主張は、LLMが標準化されたデータセットの平均パフォーマンスを測定するベンチマークタスクをどのように実行するかに基づいています。
我々の研究では、人間の専門家は、さまざまな指標で平均よりも優れたパフォーマンスを示し、パフォーマンスのバラツキが低いことを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly described as performing at the level of human experts on knowledge economy tasks. These claims are primarily based on how LLMs perform on benchmarking tasks that measure average performance across standardized datasets. Primary limitations of many benchmarking tasks are that they often measure performance based on content directly included in LLM training data, and they frequently do not assess the reliability of LLM performance or the magnitude of LLM errors. However, in high stakes contexts, these qualities are critically important. Through a novel LLM benchmarking task that requires writing computer code to complete a data analysis task, we compare the performance of a frontier LLM against submissions from human experts and explicitly measure the variance of responses and the magnitude of errors. Our study reveals that the human experts perform better on average on a range of metrics and demonstrate less variability in performance. Our results provide evidence that LLMs do not consistently perform at the level of human experts and demonstrate the importance of measuring variance and assessing error magnitude in LLM benchmark evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識経済タスクにおける人間の専門家のレベルでの行動として、ますます説明されてきている。
これらの主張は、LLMが標準化されたデータセットの平均パフォーマンスを測定するベンチマークタスクをどのように実行するかに基づいています。
多くのベンチマークタスクの主要な制限は、LLMトレーニングデータに含まれるコンテンツに基づいて、しばしばパフォーマンスを計測し、LLMパフォーマンスの信頼性やLLMエラーの大きさを評価できないことである。
しかし、高い利害関係においては、これらの性質は極めて重要である。
データ解析タスクを完了するためにコンピュータコードを記述する必要がある新しいLCMベンチマークタスクを通じて、フロンティアLSMの性能と人間の専門家による提案を比較し、応答のばらつきとエラーの大きさを明示的に測定する。
我々の研究では、人間の専門家は、さまざまな指標で平均よりも優れたパフォーマンスを示し、パフォーマンスのバラツキが低いことを示しています。
この結果から, LLM は人間専門家のレベルでは一貫して機能しないことを示すとともに, LLM ベンチマーク評価において, ばらつきを測定し, 誤差の大きさを評価することが重要であることを示す。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。