論文の概要: Accuracy and Satisfaction in Multi-Turn LLM Dialogues for NFR Assessment
- arxiv url: http://arxiv.org/abs/2606.24834v1
- Date: Tue, 23 Jun 2026 17:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.12988
- Title: Accuracy and Satisfaction in Multi-Turn LLM Dialogues for NFR Assessment
- Title(参考訳): マルチTurn LLM対話におけるNFR評価の精度と満足度
- Authors: Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan, Sepideh Ghanavati,
- Abstract要約: 本稿では,HIPAA規制遵守分野における開発者とLLMベースのエージェントとのマルチターン会話の精度と品質について検討する。
開発者はLSMアセスメントに同意する傾向にあるが、専門家の根拠の真偽に対する正確性は低い。
ユーザの満足度をモデル化し、より長いシステム応答と情報提供のターンがユーザの満足度に悪影響を及ぼすことを確認します。
- 参考スコア(独自算出の注目度): 0.7829352305480284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-based dialogue assistants have become mainstream tools for software developers, yet current evaluation benchmarks focus exclusively on functional correctness. This leaves a critical gap in assessing the quality and accuracy of these conversations when handling Non-Functional Requirements (NFRs), which are inherently vague, context-dependent, and involve many parts of a program. Evaluating how well these systems support collaborative reasoning about NFRs requires methods that go beyond single-turn accuracy to capture both the correctness of the system's outputs and the quality of the multi-turn interaction. In this paper, we investigate the accuracy and quality of multi-turn conversations between developers and an LLM-based agent in the domain of Health Insurance Portability and Accountability Act (HIPAA) regulatory compliance. We hired 49 programmers to interact with GitHub Copilot to assess 148 HIPAA-derived NFRs against the iTrust codebase, a system designed to comply with HIPAA regulations, across three dimensions: requirement satisfaction level, reasoning, and code localization. We find that developers tend to agree with LLM assessments, but accuracy against expert ground truth is low. We model user satisfaction and find that longer system responses and more information-providing turns negatively affect user satisfaction, whereas proactive interactions positively affect it. Our findings provide insights for designing LLM-based dialogue systems that support NFR assessment.
- Abstract(参考訳): LLMベースの対話アシスタントは、ソフトウェア開発者にとって主要なツールとなっているが、現在の評価ベンチマークは機能的正確性のみに焦点を当てている。
このことは、本質的に曖昧で文脈に依存し、プログラムの多くの部分を巻き込む非Functional Requirements (NFR) を扱う際に、これらの会話の品質と正確さを評価する上で重要なギャップを残している。
これらのシステムがNFRに関する協調推論をどの程度うまくサポートしているかを評価するには、システムの出力の正確さとマルチターンインタラクションの品質の両方を捉えるために、シングルターン精度を超える方法が必要である。
本稿では,HIPAA(Health Insurance Portability and Accountability Act)の規制コンプライアンスにおける開発者とLLMベースのエージェントとのマルチターン会話の精度と品質について検討する。
私たちは、GitHub Copilotと対話するために49人のプログラマを雇い、要求満足度レベル、推論、コードローカライゼーションという3つの側面にまたがって、HIPAA由来の148のNFRをiTrustコードベースに対して評価しました。
開発者はLSMアセスメントに同意する傾向にあるが、専門家の根拠の真偽に対する正確性は低い。
ユーザの満足度をモデル化し,より長いシステム応答と情報提供のターンがユーザの満足度に悪影響を及ぼすのに対して,積極的相互作用はそれに対して肯定的な影響を及ぼすことがわかった。
本研究は,NFR評価を支援するLLMベースの対話システムを設計するための知見を提供する。
関連論文リスト
- FERA: Uncertainty-Aware Federated Reasoning for Large Language Models [60.52562148874846]
我々は、サーバがプライベートなデモンストレーションを行う異種クライアントと協調することで、多段階推論を改善するフェデレーション推論について研究する。
重要な課題は、クライアントの信頼性がクエリ依存であるのに対して、サーバはクライアントデータを検査して、どのコントリビューションが信頼できるかを判断できません。
本稿では,サーバクライアントの反復的コリファインメントに基づくトレーニングフリーフレームワークである Uncertainty-Aware Federated Reasoning (FERA) を提案する。
論文 参考訳(メタデータ) (2026-05-11T07:04:51Z) - Compliance as a Trust Metric [1.0264137858888513]
本稿では,規制コンプライアンスを定量的かつダイナミックな信頼度として運用することで,この研究ギャップを埋める。
私たちのコントリビューションは、各違反の深刻度を、そのボリューム、時間、ブレッドス、臨界度など、複数の次元に沿って評価する定量的モデルです。
人工病院のデータセット上でACEを評価し,複雑なHIPAAおよびHIPAA違反を正確に検出できることを実証した。
論文 参考訳(メタデータ) (2026-01-03T21:14:40Z) - Evaluating Metrics for Safety with LLM-as-Judges [1.93892819796757]
本稿では、多くの自然言語処理タスクから決定論的評価を得ることはできないが、重み付けされたメトリクスのバスケットを採用することで、評価におけるエラーのリスクを低減することができると主張している。
論文 参考訳(メタデータ) (2025-12-17T17:24:49Z) - LLM-as-a-Judge: Rapid Evaluation of Legal Document Recommendation for Retrieval-Augmented Generation [40.06592175227558]
本稿では,法的な文脈における検索・拡張生成システムの評価に対する原則的アプローチについて検討する。
我々は、クリッペンドルフのαのような従来の合意メトリクスが、AIシステム評価の典型的な歪んだ分布に誤解をもたらす可能性があることを発見した。
本研究は,法的な応用によって要求される精度を維持するための,スケーラブルで費用効果の高い評価への道筋を示唆する。
論文 参考訳(メタデータ) (2025-09-15T19:20:21Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。
既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。
シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文 参考訳(メタデータ) (2024-06-11T00:35:39Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。