論文の概要: AgentFairBench: Do LLM Agents Discriminate When They Act?
- arxiv url: http://arxiv.org/abs/2606.16723v1
- Date: Mon, 15 Jun 2026 13:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.586568
- Title: AgentFairBench: Do LLM Agents Discriminate When They Act?
- Title(参考訳): AgentFairBench: LLMエージェントは行動する時に差別するのか?
- Authors: Triveni Morla, Rohith Reddy Bellibaltu, Manpreet Singh, Manmeet Singh Kapoor,
- Abstract要約: AgentFairBenchは、LLMエージェントの動作における人口格差に対する、安価で再現可能なマルチドメインベンチマークである。
これは、雇用、貸与、医療トリアージという、規制対象の3つの領域にまたがっている。
NumPyのみのハーネスは、反ファクト的なフリップ率、平均絶対スコア差(MASD)、アクションレートの相違、ツール起動の相違を計算する。
- 参考スコア(独自算出の注目度): 2.3004655342211078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents increasingly take actions (screening applicants, recommending credit, triaging patients), yet fairness for LLMs is still measured by grading answers. We introduce AgentFairBench, a cheap, reproducible, multi-domain benchmark for demographic disparity in the actions of LLM agents. Grounded in a companion framework, the Bias Conduction Framework (BCF, restated here), it spans three regulator-anchored domains: hiring, lending, and medical triage. Synthetic, demographic-neutral profiles are evaluated in counterfactual matched sets that vary only a name-coded race x gender signal (in the Bertrand Mullainathan tradition), under four agent scaffolds of increasing agency (direct, chain-of-thought, multi-agent deliberation, tool-augmented). A NumPy-only harness computes counterfactual flip rate, mean absolute score difference (MASD), action-rate disparity, and tool-invocation disparity, with bootstrap confidence intervals, paired tests, and false-discovery-rate control, for single-digit dollars per model. A live leaderboard with a held-out private split and a contamination canary admits external models by submission. Our pilot (864 decisions plus a test-retest replication) carries a methodological lesson: comparing a six-group score spread against a two-run noise difference overstates disparity by ~ 2.4X through statistic arity alone. Against an arity matched noise floor and an omnibus group test, claude haiku 4 5 shows no demographic effect above sampling noise (0 of 120 pairwise and 0 of 9 omnibus contrasts survive correction); a planted-bias test confirms the instrument detects disparity when present. The contribution is a sound, sensitive, adoption-ready instrument, the arity matched null methodology, and open artifacts to scale it. Code, data, and harness are released under open licenses, with an anonymized review artifact.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、ますます行動を起こす(応募者をスクリーニングし、クレジットを推奨し、患者をトリアージする)が、LCMの公平さは、依然として回答のグレードによって測定されている。
本稿では,LLMエージェントの動作における人口格差に対する,安価で再現可能なマルチベンチマークであるAgentFairBenchを紹介する。
Bias Conduction Framework (BCF, restated here) は、雇用、貸与、医療トリアージの3つの規制対象ドメインにまたがるフレームワークである。
シンセティックで人口統計学的なプロファイルは、(Bertrand Mullainathanの伝統において)名前付き人種xの性別信号だけが異なる反ファクトマッチングセットで評価され、増加するエージェンシーの4つのエージェント足場(直接的、連鎖的、マルチエージェント的熟考、ツール強化)で評価される。
NumPyのみのハーネスは、1モデル当たりの平均絶対スコア差(MASD)、アクションレートの相違、ツール呼び出しの相違、ブートストラップの信頼区間、ペアテスト、偽発見レートの制御を計算します。
プライベートスプリットと汚染カナリアを備えたライブのリーダーボードは、提出によって外部モデルを認める。
我々のパイロット(864の判定とテスト再テストの再現)は、統計的アリティのみによる差分が約2.4倍になる2ランノイズ差と6グループスコアの拡散を比較した方法論的な授業を行っている。
アリティ整合ノイズフロアとオムニバス群検定に対し、クロード俳句45はサンプリングノイズ以上の人口動態効果は示さない(オムニバスの0対120、オムニバスの0対9は生存補正)。
このコントリビューションは、健全で、センシティブで、採用可能な機器であり、arityはnullメソッドにマッチし、それをスケールするためのオープンアーティファクトである。
コード、データ、ハーネスは、匿名化されたレビューアーティファクトとともに、オープンライセンスでリリースされている。
関連論文リスト
- What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs [52.50210189669399]
視覚言語モデル(VLM)を駆動するには,操作設計領域(ODD)が定義する様々な条件のシーンを正確に理解する必要がある
SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
SliceNavは, 従来のスライス発見法よりも, 高リスクカバレッジギャップを効果的に表面化することを示す。
論文 参考訳(メタデータ) (2026-06-01T03:18:01Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification [0.0]
自律的な操作エージェントに関する実証的な主張は、ほとんど不可能である。
コードエージェントは「機能する」検証基板を持ち、高速でファルサブルで地味な信号に変換する。
ターゲットクラスタに障害を注入するクローズドループ計測フレームワークである Agent-breakage を提案する。
論文 参考訳(メタデータ) (2026-05-21T21:47:52Z) - How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents [35.69412546569078]
ツールを用いた医療エージェントは、特殊な視覚と言語モジュールを編成することにより、胸部X線質問応答を改善することができる。
MedRAXを用いた胸部X線剤の系統的評価を行った。
論文 参考訳(メタデータ) (2026-02-28T18:46:45Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Bias Similarity Measurement: A Black-Box Audit of Fairness Across LLMs [35.72288339965426]
バイアス類似度測定(BSM)は、公平性をモデル間の関係性として扱う。
オープンウェイトモデルは、プロプライエタリなシステムと一致したり、超えたりすることができる。
BSMは、調達、回帰テスト、系統スクリーニングのための監査ワークフローを提供する。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。