論文の概要: Limited Marginal Benefit of Reasoning-Heavy LLM Deployment in ESG Narrative Scoring: A 4-Model Consensus Study on Japanese Listed Firms
- arxiv url: http://arxiv.org/abs/2606.13693v1
- Date: Fri, 22 May 2026 03:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.727775
- Title: Limited Marginal Benefit of Reasoning-Heavy LLM Deployment in ESG Narrative Scoring: A 4-Model Consensus Study on Japanese Listed Firms
- Title(参考訳): ESGナラティブ・スコーリングにおけるLLM展開の限定的マージナルベネフィット:日本の上場企業に関する4モデルコンセンサス研究
- Authors: Hiroyuki Kokubu,
- Abstract要約: 推論重フロンティアモデルがコストに相反する価値を付加するかどうかを評価する。
推論オンフロンティアモデルと3つの推論オフ同時代のモデルを組み合わせた4モデルコンセンサス設計を用いる。
我々は,スパンベースのESGナラティブスコアリングでは,推論-重デプロイメントは推論-オフのコンセンサスに対する結果を大幅に改善するものではないと結論づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scoring of ESG narrative disclosures with large language models (LLMs) is gaining traction, yet whether reasoning-heavy frontier models add value commensurate with their cost remains empirically unsettled. We evaluate this question on a corpus of ten Japanese listed firms across three rubric axes -- quantitative targets, progress-tracking infrastructure, and external-standard alignment -- using a four-model consensus design that combines a reasoning-on frontier model with three reasoning-off contemporaries. Across 120 firm x axis x model scores, the pooled mean absolute deviation between the reasoning-on model and each reasoning-off counterpart is 0.38 on a 5-point scale; only 2% of pairwise comparisons reach a two-point deviation, and none exceeds two points. Per-firm cost accounting shows the reasoning-on arm alone costs roughly 5.6x as much as the three-provider reasoning-off ensemble, for outcomes that differ only within small margins. We conclude that in span-based ESG narrative scoring, reasoning-heavy deployment does not materially improve outcomes relative to reasoning-off consensus, while substantially increasing operational cost. We discuss implications for cost-effective ESG auto-scoring pipelines and LLM deployment governance in applied accountability settings. An earlier version of this work is available on SSRN (Abstract ID 6683303).
- Abstract(参考訳): 大規模言語モデル (LLMs) を用いたESG物語開示の自動スコアリングが注目を集めているが、推論重大フロンティアモデルがコストと相容れない価値を付加するかどうかは実証的に未定のままである。
本研究は,3つのルーリック軸にまたがる10の企業,量的目標,進捗追跡インフラストラクチャ,および外部標準アライメントのコーパスにおいて,推論オンフロンティアモデルと3つの推論オフ同時代のモデルを組み合わせた4モデルコンセンサス設計を用いて,この問題を評価する。
120ホールド x 軸 x モデルスコアを超えると、プールされた平均的な推論オンモデルと各推論オフモデルとの絶対偏差は5点スケールで0.38であり、対比較のわずか2%が2点偏差に達し、いずれも2点を超えない。
確認されたコスト会計は、小さなマージンでのみ異なる結果に対して、3つのプロジェクターの推論オフアンサンブルの約5.6倍の価格であることを示している。
我々は,スパンベースのESGナラティブスコアリングにおいて,推論重大展開は,推論オフコンセンサスに対する結果を大幅に改善すると同時に,運用コストを大幅に増大させるものではないと結論付けた。
本稿では,費用対効果の高いESGオートスコーリングパイプラインと,適用された説明責任設定におけるLLMデプロイメントガバナンスの意義について論じる。
この作業の初期バージョンはSSRN(Abstract ID 6683303)で利用可能である。
関連論文リスト
- Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - Agentic Retrieval-Augmented Generation for Financial Document Question Answering [7.56842616602779]
FinAgent-RAGは、反復的な検索推論ループを自己組織化してオーケストレーションするエージェントRAGフレームワークである。
コントラシティブ・ファイナンシャル・レトリバー(Contrastive Financial Retriever)は、意味的には似ているが数値的に異なる金融パスを区別するために、厳しい負の採掘で訓練されたコントラシティブ・ファイナンシャル・レトリバーを統合している。
76.81%、78.46%、74.96%の精度で最強のベースラインを5.62-9.32ポイント上回っている。
論文 参考訳(メタデータ) (2026-05-06T19:59:51Z) - PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成において高い性能を示すが、通信顧客サポートにおけるドメイン固有の制約に対する評価と適応は依然として限られている。
本稿では,Qwen2.5-3Bに適用された低ランク適応(LoRA)を用いたパラメータ効率細調整(PEFT)の系統的研究を行い,ドメイン固有の対話アシスタントを構築する。
Gemini Geminiを動力とする生成パイプラインを通じて,1,560の異なる問題シナリオに対して約30,000のトレーニング例を生成する。
論文 参考訳(メタデータ) (2026-04-17T09:56:18Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。