論文の概要: Should LLM Agents Decide in Social Simulations? Comparing Finite-State and LLM-Based Decision Policies
- arxiv url: http://arxiv.org/abs/2606.12369v1
- Date: Wed, 10 Jun 2026 17:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:04:13.33473
- Title: Should LLM Agents Decide in Social Simulations? Comparing Finite-State and LLM-Based Decision Policies
- Title(参考訳): LLMエージェントは社会シミュレーションで決定すべきか? : 有限状態とLCMに基づく決定法の比較
- Authors: Alejandro Buitrago López, Javier Pastor-Galindo, José A. Ruipérez-Valiente,
- Abstract要約: 本稿では,大規模言語モデルがオンラインソーシャルネットワークシミュレーションにおいて解釈可能な参照ポリシーを維持しているかどうかを評価する。
LLaMA 3.1、GPT-OSS、Mistral 24Bの3つのオープンウェイトLCMが試験されている。
その結果、LCMは参照ポリシーをいくつかの構成で近似できるが、確実に保存できないことがわかった。
- 参考スコア(独自算出の注目度): 44.05636851266385
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used as decision-making components in social simulations. This introduces a methodological risk: the simulation may deviate from the explicit behavioral policy defined by the researcher. In online social network (OSN) simulations, action choices shape system dynamics, interaction patterns, and model interpretability. This paper evaluates whether LLM action selectors preserve an interpretable reference policy in an OSN simulation. The reference is a finite state machine implemented as a first-order Markov model, with transition probabilities depending on the user type. The evaluation uses a synthetic network with 1,000 agents and 10,000 action decisions. Three open-weight LLMs are tested: LLaMA 3.1, GPT-OSS, and Mistral 24B. Each model is evaluated under three prompting strategies: base, guided, and probabilistic. Alignment is measured using Jensen-Shannon Divergence with Laplace smoothing, and execution time is reported. Results show that LLMs can approximate the reference policy in some configurations, but do not preserve it reliably. Alignment varies across models and prompts, and additional guidance can introduce systematic action biases. Even the best-aligned LLM configurations are several hundred times slower than direct Markov chain sampling. These findings indicate that LLM-based action selection is not a direct replacement for explicit decision policies: it can alter the intended behavior while increasing computational cost.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、社会シミュレーションにおいて意思決定の要素としてますます使われている。
シミュレーションは研究者によって定義された明示的な行動ポリシーから逸脱する可能性がある。
オンラインソーシャルネットワーク(OSN)シミュレーションでは、アクション選択はシステムダイナミクス、インタラクションパターン、モデル解釈可能性を形成する。
本稿はOSNシミュレーションにおいて, LLM アクションセレクタが解釈可能な参照ポリシーを保持するか否かを評価する。
参照は1次マルコフモデルとして実装された有限状態機械であり、遷移確率はユーザータイプによって異なる。
評価には1,000のエージェントと10,000のアクション決定を備えた合成ネットワークを使用する。
LLaMA 3.1、GPT-OSS、Mistral 24Bの3つのオープンウェイトLCMが試験されている。
各モデルは、ベース、ガイド、確率の3つのプロンプト戦略に基づいて評価される。
ラプラス平滑化によるジェンセン・シャノン分岐を用いてアライメントを測定し, 実行時間を報告する。
その結果、LCMは参照ポリシーをいくつかの構成で近似できるが、確実に保存できないことがわかった。
アライメントはモデルやプロンプトによって異なり、追加のガイダンスはシステマティックなアクションバイアスを導入することができる。
最整列 LLM の構成でさえ、直接マルコフ連鎖サンプリングよりも数百倍遅い。
これらの結果から,LSMに基づく行動選択は明示的な決定方針の直接的な置き換えではないことが示唆された。
関連論文リスト
- APS: Bias-Controlled Adaptive Prototype Simulation for Population-Scale LLM Agents [23.922499684047263]
本稿では,拡張性 LLM に基づくシミュレーションを,再帰的なオラクル配置問題として再設計するフレームワークを提案する。
Adaptive Prototype Simulation (APS) は、適応型コアプロトタイプ、選択されたシングルトンテールエージェント、シャドウ監査エージェントをクエリする。
APSは、完全なシミュレーションよりも381.1倍の削減を実現し、対応するフルLLM参照に対して0.094の参照整列最終ラウンドJSDを実現している。
論文 参考訳(メタデータ) (2026-05-19T08:45:41Z) - Optimizing Service Operations via LLM-Powered Multi-Agent Simulation [1.2997358113120427]
サービス操作を最適化するためのLLMを用いたマルチエージェントシミュレーションフレームワークを提案する。
我々は、決定に依存した不確実性を伴う最適化として問題を提起する。
本研究では,1つのシミュレーション実行時にゼロ階勾配推定を同時に構築し,定常状態性能を最適化するための設計パラメータを更新する軌道学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-04-06T03:14:33Z) - Addressing the alignment problem in transportation policy making: an LLM approach [0.3499870393443268]
交通計画における重要な課題は、異種旅行者の集団的嗜好が、モデル駆動型意思決定ツールによって生み出される方針からしばしば分かれることである。
本稿では,大規模言語モデル(LLM)がこのアライメント問題に対処するのに有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-10-15T04:36:38Z) - Reinforced Language Models for Sequential Decision Making [6.971286730860635]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェントとしての可能性を示している。
既存のポストトレーニング手法はシングルターンインタラクション用に設計されており、マルチステップエージェントタスクにおけるクレジット割り当てを処理できない。
この研究は、標的となるポストトレーニングが、シーケンシャルな意思決定エージェントを作成するためのモデルスケールに依存する、実用的で効率的な代替手段であることを実証している。
論文 参考訳(メタデータ) (2025-08-14T17:05:44Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models [27.313165173789233]
大規模言語モデルは、社会力学をシミュレートする古典的エージェントベースモデル(ABM)の強力な代替物として提案されている。
しかし、LLMのブラックボックスの性質から、LLMエージェントが実際に意図した意味論を実行するかどうかは不明である。
目的とする力学を近似するプロンプトを設計することは可能であるが、これらのシミュレーションの品質はプロンプトの特定の選択に非常に敏感である。
論文 参考訳(メタデータ) (2024-12-06T14:50:01Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。