論文の概要: LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations
- arxiv url: http://arxiv.org/abs/2606.14600v1
- Date: Fri, 12 Jun 2026 16:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.983364
- Title: LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations
- Title(参考訳): LoSoNA: グループ会話におけるローカルソーシャルノーム適応のベンチマーク
- Authors: Mateusz Winiarek, Maksymilian Bilski, Mateusz Jacniacki,
- Abstract要約: マルチパーティチャットにおけるローカルな社会的規範適応のためのベンチマークであるLoSoNAを紹介する。
各シナリオは、被写体モデルに、非対象の参加者が隠れた局所規範を示すような、キュレートされたグループチャットの書き起こしを与える。
我々は,4つの刺激条件下で,フロンティアモデルとオープンウェイトモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online group chats are social spaces with local conversational norms that are rarely stated explicitly. The ability and willingness of LLM-based agents to recognize and adapt to these norms remains mostly unexplored. We introduce LoSoNA, a benchmark for local social norm adaptation in multi-party chat. Each scenario gives a subject model a curated group-chat transcript in which non-subject participants demonstrate a hidden local norm, followed by a final elicitor turn that forces a response revealing whether the subject has inferred that norm. We evaluate eight frontier and open-weight models under four prompting conditions that vary how explicitly the model is told to treat the prior conversation as evidence for how it should answer. Naive prompting remains limited for most models; explicit norm-aware prompting helps unevenly, with Gemini 3.1 Pro reaching $84.2\%$ and Claude Fable 5 reaching $81.6\%$, while several other models show small gains or regressions. LoSoNA contributes to recent calls for evaluating LLM social capabilities by testing whether models can infer local conversational norms from precedent and use them in a one-turn group-chat response.
- Abstract(参考訳): オンライングループチャット(英: Online group chats)は、ローカルな会話の規範を持つソーシャルスペースであり、明確に述べられることはめったにない。
LLMをベースとしたエージェントがこれらの規範を認識し、適応する能力と意欲はほとんど未解明のままである。
マルチパーティチャットにおけるローカルな社会的規範適応のためのベンチマークであるLoSoNAを紹介する。
各シナリオは、被写体モデルに、非対象の参加者が隠れた局所的な規範を示し、続いて、被写体がその規範を推論したかどうかを明らかにする反応を強制する最後のエリシタターンを与える。
4つの条件下でのフロンティアモデルとオープンウェイトモデルの評価を行った。
Gemini 3.1 Proは84.2 %$、Claude Fable 5は81.6 %$、他のいくつかのモデルでは小さなゲインまたはレグレッションを示している。
LoSoNAは、モデルが前例から局所会話規範を推論し、一ターンのグループチャット応答でそれらを使用することができるかどうかをテストすることによって、LLMの社会的能力を評価するための最近の要求に貢献する。
関連論文リスト
- SCENE: Recognizing Social Norms and Sanctioning in Group Chats [0.0]
マルチパーティチャットにおける暗黙の規範と社会的制裁に焦点を当てたソーシャルインタラクションベンチマークであるSCENEを紹介する。
SCENEは、隠された規範に従うスクリプト付きペルソナで、もっともらしい非ロールプレイシナリオを生成する。
本稿では,2つの機能適応能力に対する行動評価指標を提案する。
論文 参考訳(メタデータ) (2026-05-08T14:53:04Z) - Social Norm Reasoning in Multimodal Language Models: An Evaluation [0.8181983928344693]
MLLM(Multimodal Large Language Models)は、ロボットが標準を識別し、推論するために使用するソフトウェアを開発するための有望な可能性を示す。
本稿では,30のテキスト・ストーリーと30のイメージ・ベース・ストーリーに基づく規範的質問に対する回答能力を評価することで,5つのMLLMの規範的推論能力について検討する。
その結果,MLLMは画像よりもテキストのノルム推論において優れた性能を示した。
論文 参考訳(メタデータ) (2026-03-03T23:48:21Z) - Where Norms and References Collide: Evaluating LLMs on Normative Reasoning [3.8431932182760296]
ロボットのような身体的エージェントは、コミュニケーションの成功が社会的規範の推論に依存することが多い場所にいる環境で対話する必要がある。
大規模な言語モデル(LLM)がこのような推論をサポートできるかどうかは不明だ。
SNIC(Situated Norms in Context)は,最先端のLCMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを探索する,有能な診断テストベッドである。
論文 参考訳(メタデータ) (2026-02-03T01:23:22Z) - The Inadequacy of Offline LLM Evaluations: A Need to Account for Personalization in Model Behavior [32.02851847409678]
我々は、同じ言語モデルに対する同一のベンチマーク質問が、ステートレスシステムに誘導された場合、顕著に異なる応答を生成できることを示す。
オフライン評価と、ChatGPTとGeminiの実際のユーザ800名によるフィールド評価を比較し、チャットインターフェースに提示された質問とを比較した。
論文 参考訳(メタデータ) (2025-09-18T20:41:20Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデル(LLM)は、ユーザ価値や文化にアウトプットを適応させる必要があります。
LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
我々はNormAd-Etiを作成した。これは、75か国における、社会的な倫理的関連文化規範を表す2.6kの状況記述のベンチマークである。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。