論文の概要: BehaviorBench: Benchmarking Foundation Models for Behavioral Science Tasks
- arxiv url: http://arxiv.org/abs/2606.24162v1
- Date: Tue, 23 Jun 2026 05:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.791845
- Title: BehaviorBench: Benchmarking Foundation Models for Behavioral Science Tasks
- Title(参考訳): BehaviorBench: 行動科学タスクのためのベンチマーク基礎モデル
- Authors: Jin Huang, Yutong Xie, Wanli Song, Xingjian Zhang, Walter Yuan, Matthew O. Jackson, Qiaozhu Mei,
- Abstract要約: 基礎モデルは、心理学、社会学、経済学のような行動科学領域にますます応用されている。
我々は4つのコア機能に沿って基礎モデルを評価する包括的なベンチマークであるBehaviorBenchを紹介した。
我々はさらにBe.FM-1.5を開発し、行動データに基づいて微調整された行動基礎モデルのBe.FMファミリーを拡張した。
- 参考スコア(独自算出の注目度): 11.874192835462111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have been increasingly applied to behavioral science domains such as psychology, sociology, and economics. While these models show promise in individual tasks such as survey response prediction and human-subject experiment simulation, there remains no systematic understanding of how well they perform across diverse behavioral science tasks, contexts, and populations. We introduce BehaviorBench, a comprehensive benchmark that evaluates foundation models along four core capabilities: (1) behavior prediction and simulation, (2) strategic decision-making, (3) subject-trait inference, and (4) behavioral knowledge application. Crucially, BehaviorBench evaluates model outputs at both the individual and distributional levels, capturing not only per-subject accuracy but also population-level alignment, an essential requirement for behavioral validity. Leveraging the tasks in BehaviorBench, we further develop Be.FM-1.5, extending the Be.FM family of behavioral foundation models fine-tuned on behavioral data. Our results reveal a considerable gap: proprietary general-purpose models excel at individual-level prediction and knowledge-intensive tasks, whereas behavioral foundation models, fine-tuned on behavioral data, achieve substantially stronger distributional alignment. Notably, Be.FM-1.5 leads on distributional metrics and remains competitive on individual-level metrics, suggesting that proper behavioral adaptation can close the gap. Our results highlight the importance of distributional evaluation, establish BehaviorBench as a foundation for developing and assessing behaviorally aligned AI systems, and demonstrate Be.FM-1.5's potential for a broad range of behavioral science studies. Our BehaviorBench and Be.FM-1.5 models can be accessed via https://umich-foreseer.github.io/behaviorbench/.
- Abstract(参考訳): 基礎モデルは、心理学、社会学、経済学のような行動科学領域にますます応用されている。
これらのモデルは、調査応答予測や人-物体実験シミュレーションのような個々のタスクにおいて有望であるが、様々な行動科学のタスク、文脈、個体群でどのように機能するかについての体系的な理解はいまだにない。
本研究では,(1)行動予測とシミュレーション,(2)戦略的意思決定,(3)主観的トレート推論,(4)行動知識応用の4つの基本機能に沿って基礎モデルを評価する総合ベンチマークであるBehavimentBenchを紹介する。
重要なことに、BehaviorBenchは個人レベルと分布レベルの両方でモデル出力を評価し、オブジェクトごとの精度だけでなく、集団レベルのアライメントも取得する。
行動ベンチのタスクを活用することで、Be.FM-1.5をさらに発展させ、行動データに基づいて微調整された行動基礎モデルのBe.FMファミリを拡張する。
個人レベルの予測や知識集約的なタスクにおいて,プロプライエタリな汎用モデルが優れているのに対して,行動基礎モデルは行動データに基づいて微調整され,より強力な分布アライメントを実現する。
特に、Be.FM-1.5は分布メトリクスを導いており、個々のレベルのメトリクスで競争力を維持しており、適切な行動適応がギャップを埋める可能性があることを示唆している。
本研究では,分布評価の重要性を強調し,行動整合型AIシステムの開発と評価の基礎としてBe.FM-1.5の行動科学研究への応用を実証する。
BehaviorBenchとBe.FM-1.5モデルはhttps://umich-foreseer.github.io/behaviorbench/を通じてアクセスできます。
関連論文リスト
- OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization [50.11607985532808]
異種タスクとサンプルのバランスをとるRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を紹介する。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0は行動タスク間で最高のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T08:35:59Z) - Understanding the Implicit Biases of Design Choices for Time Series Foundation Models [90.894232610821]
時系列基礎モデル(TSFM)は、時系列予測と関連する時間的タスクのための潜在的に強力で汎用的なツールのクラスである。
彼らの行動はデザインの微妙な帰納的バイアスによって強く形作られています。
モデルやデータの性質によって、これらのバイアスが直感的であるか、非常に直感的であるかを示す。
論文 参考訳(メタデータ) (2025-10-22T04:42:35Z) - Be.FM: Open Foundation Models for Human Behavior [19.07849836771506]
Be.FMは人間の行動モデリング用に設計された最初のオープンファンデーションモデルの一つである。
オープンソースの大規模言語モデルに基づいて構築されたBe.FMは、人間の意思決定を理解し予測するために使用することができる。
論文 参考訳(メタデータ) (2025-05-29T04:03:51Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - RealBehavior: A Framework for Faithfully Characterizing Foundation
Models' Human-like Behavior Mechanisms [45.97077960079147]
本稿では,モデルのヒューマノイドな振る舞いを忠実に特徴付けるためのフレームワークであるRealBehaviorを紹介する。
本研究は, 心理的ツールのシンプルな応用は, すべての人間の行動に忠実に特徴付けることはできないことを示唆している。
論文 参考訳(メタデータ) (2023-10-17T12:58:17Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness
for Predictive Student Models [0.0]
本稿では,モデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。
オンライン授業における学生の成功を予測するための共通課題に対するアプローチを,いくつかの共通予測分類モデルを用いて評価した。
論文 参考訳(メタデータ) (2023-05-24T16:55:49Z) - BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文 参考訳(メタデータ) (2021-07-17T05:53:24Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。