論文の概要: Agentic Persona Generation with Critique-Refinement: An Industrial Evaluation
- arxiv url: http://arxiv.org/abs/2606.09637v1
- Date: Mon, 08 Jun 2026 15:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.462191
- Title: Agentic Persona Generation with Critique-Refinement: An Industrial Evaluation
- Title(参考訳): 批判的リファインメントによるエージェントペルソナ生成:工業的評価
- Authors: Mohammad Hossein Amini, David Dewar, Shiva Nejati, Mehrdad Sabetzadeh,
- Abstract要約: PerGentは業界グレードのペルソナ生成手法で、反復的批評・修正ループを中心に構築されている。
専門家のin-situ評価では、PerGentは最高専門家の承認率(96.9%)を達成した。
- 参考スコア(独自算出の注目度): 1.5821080783312833
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personas are widely used in software engineering to support requirements elicitation, design, and validation, but their manual creation is costly, time-consuming, and hard to scale. Recent LLM-based approaches automate persona generation from textual data; however, they typically rely on single-shot generation and subjective evaluations, limiting practical reliability. We present PerGent, an industry-grade method for persona generation built around an iterative critique-refinement loop. Specifically, PerGent uses a generator and a critic LLM agent, coordinated by an orchestrator, to iteratively refine personas using external resources such as interviews, surveys, and job postings through a critique-refinement loop with a user-defined maximum number of rounds. We deploy and evaluate PerGent in an industrial setting at Kinaxis, comparing it with three baselines, including one-shot methods. In an expert in-situ evaluation, PerGent achieved the highest expert approval rate (96.9%), exceeding all baselines. We further compare PerGent-generated personas with best-practice personas manually created by domain experts prior to the adoption of LLMs. Compared to baselines, PerGent reproduces a larger proportion of expert content while also contributing substantial new content beyond the pre-LLM personas. We conclude with lessons learned from deploying and evaluating PerGent at Kinaxis.
- Abstract(参考訳): ペルソナは、要件の付与、設計、検証をサポートするために、ソフトウェアエンジニアリングで広く使用されているが、手作業による作成は、コストがかかり、時間がかかり、スケールが困難である。
最近のLLMベースのアプローチは、テキストデータからペルソナ生成を自動化するが、通常は単発生成と主観評価に依存し、実用的信頼性を制限している。
本稿では,反復的批評・修正ループを中心に構築された,業界レベルのペルソナ生成手法であるPerGentを提案する。
特に、PerGentは、オーケストレータがコーディネートしたジェネレータと批評家のLLMエージェントを使用して、ユーザ定義の最大ラウンド数で批判的リファインメントループを通じて、インタビュー、調査、ジョブポストなどの外部リソースを使用して、ペルソナを反復的に洗練する。
我々は、Kinaxisの産業環境でPerGentをデプロイし、評価し、ワンショットメソッドを含む3つのベースラインと比較した。
専門家のin-situ評価では、PerGentはすべての基準を超える、最高専門家の承認率(96.9%)を達成した。
さらに,LLM導入前にドメインの専門家が手作業で作成したペルジェント生成ペルソナとベストプラクティスペルソナを比較した。
ベースラインと比較すると、PerGentはプロのコンテンツを多く再現すると同時に、LLM以前のペルソナを超えて、かなり新しいコンテンツに貢献している。
KinaxisでのPerGentのデプロイと評価から学んだ教訓で締めくくります。
関連論文リスト
- EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation [59.569634087474185]
EvalVerseは包括的でパイプライン対応で、専門家による評価フレームワークです。
まず、専門的な映画制作ワークフローに沿った評価分類にドメイン知識を整理する。
第2に、人間の専門家による判断を、大規模な人的アノテーションによるキュレートされたデータセットに蒸留する。
第3に、専門家による微調整戦略を通じて、この知識を視覚言語モデル(VLM)に注入する。
論文 参考訳(メタデータ) (2026-05-22T06:22:21Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX [1.3269144777389015]
POLLUXは、ロシア語で大規模言語モデル(LLM)の生成能力を評価するために設計されたベンチマークである。
各タスクタイプについて、一連の詳細な基準を定義し、スコアリングプロトコルを開発する。
これにより、従来のリソース消費による人的比較を超えて、透過的で基準駆動的な評価が可能になる。
論文 参考訳(メタデータ) (2025-05-30T14:08:17Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。