論文の概要: Where Does Social Reasoning Come From? Capability Provenance in Language Models
- arxiv url: http://arxiv.org/abs/2606.19625v1
- Date: Wed, 17 Jun 2026 22:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.55707
- Title: Where Does Social Reasoning Come From? Capability Provenance in Language Models
- Title(参考訳): ソーシャル推論はどこから来るのか? 言語モデルにおける能力保証
- Authors: Glenn Matlin, Chandreyi Chakraborty, Saehee Eom, Mika Okamoto, Rayan Castilla, Louis Jaburi, Alvin Deng, Taywon Min, Lucia Quirke, Stella Biderman, Mark Riedl,
- Abstract要約: OLMo3-7Bにおいて,プレトレーニングコーパスのどの領域が社会的推論とSTEM的推論をサポートするかを示す。
トレーニングデータ属性は、各トレーニング文書がベンチマークにおけるモデルの予測にどれほど強く影響するかを測定する。
分離したDolma3混合系から引き出された作業集合に対する勾配に基づく帰属性を計算する。
- 参考スコア(独自算出の注目度): 11.7652444083388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We use training-data attribution as an interpretable tool for capability discovery, mapping which regions of the pretraining corpus support social-reasoning versus STEM-reasoning in OLMo3-7B. Training-data attribution measures how strongly each training document influences a model's predictions on a benchmark, but document-level scores are too noisy to identify which corpus regions support which capabilities, and prior work has emphasized factual knowledge rather than reasoning. We compute gradient-based attribution (TrackStar via Bergson) over a working set drawn from the de-duplicated Dolma3 mix, aggregate influence across WebOrganizer's 24-format x 24-topic taxonomy (576 bins), and contrast benchmark pairs in a 2x2 design that varies domain (social vs. STEM) and capability type (reasoning vs. knowledge): SocialIQA and MMLU Social Sciences against ARC-Challenge and MMLU STEM. Social and STEM reasoning draw on qualitatively distinct corpus regions, and the contrast is sharper at the reasoning level than at the knowledge level. Targeted machine unlearning provides partial causal validation: forgetting high-attribution topic bins (e.g., Literature for SocialIQA) degrades the aligned benchmark more than within-bin random baselines, and we open-source all code, sampling manifests, the bin-level influence matrix, and unlearning checkpoints.
- Abstract(参考訳): 我々は,OLMo3-7Bにおける学習データ属性を,学習前コーパスのどの領域が社会的推論とSTEM推論をサポートするかをマッピングする,能力発見のための解釈可能なツールとして利用する。
トレーニングデータ属性は、各トレーニング資料がベンチマークにおけるモデルの予測にどれほど強く影響するかを測定するが、ドキュメントレベルのスコアは、どのコーパス領域がどの機能をサポートするかを特定するにはうるさすぎる。
我々は、分離されたDolma3ミックスから引き出された作業セット、WebOrganizerの24-format x 24-topic Taxonomy(576 bins)の総合的な影響、ドメイン(社会対STEM)と機能タイプ(推論対知識):SocialIQAとMMLU Social Sciences対ARC-ChallengeとMMLU STEMの2x2デザインにおけるコントラストベンチマークペアについて、勾配に基づく属性(TrackStar via Bergson)を計算する。
社会的およびSTEM推論は、定性的に異なるコーパス領域で引き起こされ、そのコントラストは知識レベルよりも推論レベルでシャープである。
ハイアトリビューションなトピック bins(例えば、SocialIQAのための文学)を忘れると、アライメントされたベンチマークがインインインインインインインランダムベースラインよりも劣化し、すべてのコードをオープンソースにし、マニフェストをサンプリングし、ビンレベルの影響行列とアンラーニングチェックポイントを出力します。
関連論文リスト
- A Survey of Machine Learning Models and Datasets for the Multi-label Classification of Textual Hate Speech in English [3.216132991084434]
この研究は、英語におけるこの新たな研究の展望について、科学文献の体系的および包括的調査を行った最初のものである。
マルチラベル分類モデルのトレーニングに適した28のデータセットを簡潔に概説する。
不均衡なトレーニングデータ、クラウドソーシングプラットフォームへの依存、小規模でスパースなデータセット、方法論的アライメントの欠如を識別する。
論文 参考訳(メタデータ) (2025-04-11T15:16:31Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。