論文の概要: MortarBench: Evaluating Mortgage Loan Origination Agents
- arxiv url: http://arxiv.org/abs/2606.19416v2
- Date: Mon, 22 Jun 2026 21:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.236732
- Title: MortarBench: Evaluating Mortgage Loan Origination Agents
- Title(参考訳): MortarBench: Mortgage Loan Origination Agentの評価
- Authors: Matthew Toles, Yunan Lu, Manav Munjal, Bojun Liu, Yuanhao Deng, Stephanie Selig, Derek Rindner, Cheng Li, Zhou Yu,
- Abstract要約: ローン起業エージェントベンチマークであるMortarBenchを紹介します。
最先端の大規模言語モデル(LLM)は性能が悪く、クローズドソースモデルは77.1%の精度で達成されている。
これらの弱点に留意して、信頼性校正フレームワークCRITを導入し、リスク管理のステアリングを改善し、バイアスを低減するとともに、精度を80.5%に向上させる。
- 参考スコア(独自算出の注目度): 14.831837275522327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Loan origination is the process by which a lender creates a new loan, from application and underwriting through approval and funding. This process serves a critical role in evaluating the eligibility and level of risk posed by an applicant. Recently, firms have begun using mortgage loan agents to augment human loan officers, despite a lack of any public benchmark. To fill this gap, we present MortarBench, a loan origination agent benchmark. MortarBench uses a financial data synthesis and mutation pipeline to generate examples with broad edge case coverage that match real-world distributions and questions. We find that state-of-the-art large language models (LLMs) perform poorly, with closed-source models achieving at most 77.1\% exact match accuracy. We also discover systematic biases in LLM perception of foreignness related to non-English names. Noting these weaknesses, we introduce CRIT, a confidence calibration framework. Our method increases accuracy to 80.5\% while improving risk management steering and reducing bias.
- Abstract(参考訳): ローンの起業(ローンのりょう、Loan Origination)とは、融資者が申請から承認と資金提供を通じて引受まで、新たなローンを創出する過程である。
このプロセスは、申請者によるリスクの適格性とレベルを評価する上で重要な役割を担います。
最近、公的ベンチマークの欠如にもかかわらず、融資業者を人事職員の増員に利用し始めた。
このギャップを埋めるために、ローン起因エージェントベンチマークであるMortarBenchを紹介します。
MortarBenchは、ファイナンシャルデータ合成と突然変異パイプラインを使用して、現実世界の分布と疑問にマッチする広いエッジケースカバレッジの例を生成する。
最先端の大規模言語モデル(LLM)は性能が悪く、クローズドソースモデルは77.1\%の精度で達成されている。
また、非英語名に関連する外国人のLLM知覚における系統的バイアスも発見する。
これらの弱点に留意し、信頼性校正フレームワークCRITを導入する。
本手法は,リスク管理のステアリングを改善し,バイアスを低減しつつ,精度を80.5\%に向上させる。
関連論文リスト
- Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - Credit Risk Meets Large Language Models: Building a Risk Indicator from Loan Descriptions in P2P Lending [1.1970409518725493]
Peer-to-peer (P2P) 貸与は、借り手と貸し手をオンラインプラットフォームを介して接続するが、重要な情報非対称性に悩まされる。
本稿では,テキスト中の文脈ニュアンスをキャプチャする能力で知られている大言語モデル(LLM)であるBERTを活用することで,この問題に対処する。
借り手が提供するローン記述を使って、デフォルトのローンと非デフォルトのローンを区別するためにBERTを微調整します。
論文 参考訳(メタデータ) (2024-01-29T10:11:05Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - Inclusive FinTech Lending via Contrastive Learning and Domain Adaptation [9.75150920742607]
フィンテックの貸与は、財政的包摂の促進に重要な役割を果たしてきた。
ローン審査中にアルゴリズムによる意思決定にバイアスがかかる可能性があるという懸念がある。
自己教師付きコントラスト学習とドメイン適応を用いたトランスフォーマーに基づくシーケンシャルローンスクリーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-05-10T01:11:35Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z) - Predicting Bank Loan Default with Extreme Gradient Boosting [0.0]
ローンのデフォルト予測には、XGBoostと呼ばれるExtreme Gradient Boostingアルゴリズムを使用します。
この予測は、ローン申請と申請者の人口統計の両方のデータセットを考慮に入れた、指導的銀行からのローンデータに基づいている。
論文 参考訳(メタデータ) (2020-01-18T18:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。