論文の概要: Online Agent-as-a-Judge: Situation-Generating Evaluation for Interactive Agents
- arxiv url: http://arxiv.org/abs/2606.08200v1
- Date: Sat, 06 Jun 2026 14:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.966144
- Title: Online Agent-as-a-Judge: Situation-Generating Evaluation for Interactive Agents
- Title(参考訳): オンラインエージェント・アズ・ア・ジャッジ:インタラクティブエージェントの状況生成評価
- Authors: Hyogon Ryu, Jeonghwan Kim, Yewon Lim, Chaeun Lee, Jeongwook Kim, Donghoon Ham,
- Abstract要約: 対話型ソーシャルエージェントのための状況生成評価フレームワークであるOnline Agent-as-a-Judgeを提案する。
Online Agent-as-a-Judgeは、環境のネイティブ対話とアクションプロトコルを通じてターゲットエージェントと対話する、現実世界の評価エージェントをデプロイする。
オンラインエージェント・アズ・ア・ジャッジ(Online Agent-as-a-Judge)は、デザイナーによる32ドルの社会的基準を持つライフシミュレート環境において、人間のラベルに対する基準範囲と合意を改善している。
- 参考スコア(独自算出の注目度): 7.750851374657493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLM-powered interactive social agents is challenging because socially relevant behaviors depend not only on isolated outputs, but also on prior interactions, social roles, and downstream actions. Existing methods typically allow a target agent to act freely in an environment and then score the resulting trajectory. However, this passive setup can miss capabilities that only become observable under specific social circumstances; for example, conflict handling may remain untested if no disagreement arises. We propose Online Agent-as-a-Judge, a situation-generating evaluation framework for interactive social agents. Online Agent-as-a-Judge deploys an in-world evaluator agent that interacts with the target agent through the environment's native dialogue and action protocol, actively eliciting situations relevant to the evaluation criteria. The resulting trajectories provide evidence for assessing both immediate responses and subsequent behavior. In a life-simulation environment with $32$ designer-authored social criteria, Online Agent-as-a-Judge improves criteria coverage and agreement with human labels, yielding more reliable evidence-grounded evaluations of behaviors that passive methods can leave unobserved.
- Abstract(参考訳): LLMを利用した対話型ソーシャルエージェントの評価は、社会的に関係のある行動は、孤立したアウトプットだけでなく、事前の相互作用、社会的役割、下流行動にも依存するため、困難である。
既存の方法は、通常、ターゲットエージェントが環境下で自由に行動し、その結果の軌道を採点することを可能にする。
しかし、この受動的セットアップは、特定の社会的状況下でのみ観察可能な能力を失う可能性がある。
対話型ソーシャルエージェントのための状況生成評価フレームワークであるOnline Agent-as-a-Judgeを提案する。
Online Agent-as-a-Judgeは、環境のネイティブ対話およびアクションプロトコルを通じてターゲットエージェントと対話し、評価基準に関連する状況を積極的に引き出す、現実世界の評価エージェントをデプロイする。
結果として得られた軌道は、即時反応とその後の行動の両方を評価する証拠となる。
デザイナーが許可した社会的基準が32ドルある生活シミュレーション環境では、オンラインエージェント・アズ・ア・ジャッジは、人間のラベルとの基準範囲と合意を改善し、受動的手法が観察できない行動の評価をより信頼性の高い根拠で行う。
関連論文リスト
- Position: AI Agents Are Not (Yet) a Panacea for Social Simulation [62.891898598784415]
大規模言語モデル(LLM)の最近の進歩は、社会シミュレーションにLLM統合エージェントを使うことへの関心が高まっている。
このポジションペーパーは、LSMをベースとしたエージェントは社会シミュレーションのパナセアではないと主張している。
論文 参考訳(メタデータ) (2026-02-19T06:35:07Z) - Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。
既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。
我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文 参考訳(メタデータ) (2025-12-03T00:11:05Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。