論文の概要: Are LLMs Bad at Moral Reasoning?
- arxiv url: http://arxiv.org/abs/2606.11635v1
- Date: Wed, 10 Jun 2026 03:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.281058
- Title: Are LLMs Bad at Moral Reasoning?
- Title(参考訳): LLMはモラル推論で悪いのか?
- Authors: Menghang Zhu, Seth Lazar,
- Abstract要約: 成長する研究機関は、今日の最も有能なAIシステムにおける道徳的能力を評価することを目的としている。
我々は、MoReBenchデータセットを再デプロイして、LLMの道徳的推論をより楽観的に表現できることを示します。
- 参考スコア(独自算出の注目度): 0.3645203900089911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For highly capable AI systems to operate safely in dynamic, open-ended environments, they must be able to identify, understand, and respond to moral reasons for action, and constrain their behaviour accordingly. A growing body of research aims to evaluate this capacity -- moral competence -- in today's most capable AI systems, recently reaching broadly pessimistic conclusions. One of the most ambitious such papers collects gold-standard human-authored rubrics for evaluating moral reasoning in 1,000 cases, and benchmarks frontier AI models against those rubrics, with underwhelming results. In this paper, we argue that the MoReBench dataset can be redeployed to give a much more optimistic picture of LLMs' moral reasoning (an essential part of moral competence). We show that if, instead of scoring LLMs' responses to these cases against these rubrics, we instead give the LLMs the same task given to humans -- to generate scoring rubrics for the moral analysis of particular cases -- the rubrics they generate are both better calibrated to the human rubrics than their open-ended responses, and, where they differ, plausibly reflect nothing more than the vast dimensionality of most moral problems, as well as highlighting some human departures from the "rubric for creating rubrics". Taking these points into consideration, the MoReBench dataset suggests that LLMs are significantly more capable at moral reasoning than was previously believed.
- Abstract(参考訳): 高度な能力を持つAIシステムが動的でオープンな環境で安全に動作するためには、行動の道徳的理由を特定し、理解し、対応し、それに応じて行動を制限する必要がある。
成長する研究機関は、今日の最も有能なAIシステムにおいて、この能力(道徳的能力)を評価することを目的としており、最近、悲観的な結論に達した。
最も野心的な論文の1つは、1000件のケースで道徳的推論を評価するために、ゴールドスタンダードの人間によるルーリックを収集し、それらのルーリックに対してフロンティアAIモデルをベンチマークし、その結果を圧倒する。
本稿では、LLMの道徳的推論(道徳的能力の本質的な部分)をより楽観的に表現するために、MoReBenchデータセットを再デプロイすることができると論じる。
これらの事件に対するLLMの反応をこれらのルーリックに対して評価する代わりに、LLMが人間に与えられたのと同じタスク - 特定のケースの道徳的分析のためのスコアリングルーリックを生成するために -- を与える場合、それらが生成するルーリックは、開放された応答よりも人間のルーリックにより良い校正され、それらが異なる場合には、最も道徳的な問題における次元の次元以上のものを、合理的に反映せず、また、「ルーリックを作成するルーブリック」からの人的離脱も強調することを示します。
これらの点を考慮すると、MoReBench のデータセットは LLM が以前信じられていたよりも道徳的推論にかなり優れていることを示唆している。
関連論文リスト
- Are Language Models Sensitive to Morally Irrelevant Distractors? [47.92026843851412]
低あいまいなシナリオであっても、道徳的気晴らし者が大きな言語モデルの道徳的判断を30%以上シフトできることを示す。
この研究は、人間の道徳的判断の安定性を仮定する理論に挑戦する。
論文 参考訳(メタデータ) (2026-02-10T05:18:05Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.14963505712040906]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。