論文の概要: RASC+: Retrieval-Constrained LLM Adjudication for Clinical Value Set Authoring
- arxiv url: http://arxiv.org/abs/2606.23992v1
- Date: Mon, 22 Jun 2026 22:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.699538
- Title: RASC+: Retrieval-Constrained LLM Adjudication for Clinical Value Set Authoring
- Title(参考訳): RASC+ : Retrieval-Constrained LLM Adjudication for Clinical Value Set Authoring
- Authors: Sumit Mukherjee,
- Abstract要約: 臨床コードは大きく、バージョン管理されており、言語モデルによって確実に記憶されていない。
本研究では,候補プール構築をリコールに最適化し,制約付きLLM適応器を候補選択に最適化するステージワイズ方式を提案する。
- 参考スコア(独自算出の注目度): 1.066048003460524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical value sets define the standardized terminology codes used in quality measurement, phenotyping, cohort construction, and clinical decision support. The recently introduced Retrieval-Augmented Set Completion (RASC) benchmark showed that direct zero-shot large language model (LLM) generation is poorly suited to this task: clinical code systems are large, version-controlled, and not reliably memorized by language models. We study a stage-wise alternative in which candidate-pool construction is optimized for recall and a constrained LLM adjudicator is optimized for candidate selection. On the full 3,744-value-set RASC test split, Qwen3-based retrieval with vocabulary-aware expansion and code-display rescue retrieval increases candidate-pool recall from the original RASC retrieval baseline of 0.553 to 0.730; on the held-out-publisher stratum, pool recall is 0.655. The higher-recall pool alone is not sufficient: applying the original SAPBert cross-encoder to this expanded pool gives full-test macro F1 of 0.287 and held-out-publisher macro F1 of 0.233. Replacing the stage-2 selector with blinded GPT-5 adjudication over the same pool increases full-test macro F1 to 0.549 and held-out-publisher macro F1 to 0.533. These results show that retrieval-constrained LLM adjudication can substantially improve value set completion while preserving the safety constraint that all returned codes must come from an auditable candidate pool.
- Abstract(参考訳): 臨床値セットは、品質測定、表現型化、コホート構築、臨床決定支援に使用される標準化された用語コードを定義する。
最近発表されたRetrieval-Augmented Set Completion (RASC)ベンチマークでは、直接ゼロショットの大規模言語モデル(LLM)生成がこのタスクに適していないことが示されている。
本研究では,候補プール構築をリコールに最適化し,制約付きLLM適応器を候補選択に最適化するステージワイズ方式を提案する。
完全な3,744値セットRASCテスト分割では、Qwen3ベースの語彙対応拡張とコード表示検索により、元のRASC検索ベースラインである0.553から0.730への候補プールリコールが増加し、プールリコールは0.655である。
元のSAPBertクロスエンコーダをこの拡張プールに適用すると、フルテストのマクロF1は0.287、ホールドアウトのマクロF1は0.233となる。
ブラインドGPT-5によるステージ2セレクタを同一プール上に置き換えると、フルテストマクロF1が0.549に増加し、パブリッシャーマクロF1が0.533に保持される。
これらの結果から,検索制約付きLLM適応は,全ての返却符号が監査可能な候補プールから来る必要のある安全制約を保ちながら,値セットの完了を大幅に改善できることが示された。
関連論文リスト
- Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
現代の大規模言語モデル(LLM)エージェントは、行動の時点で決定に関連のある証拠を必要とする。
本稿では、事例コンテキストグラフを構築し、候補単位の決定指向ユーティリティを推定し、選択したエビデンスを型付きメモリカードに圧縮するCICLについて述べる。
CICLは、ツール使用エージェントの意思決定クリティカルコンテキストの測定、ランキング、圧縮のための実用的なレイヤを提供する。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。
この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。
このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。
本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T04:52:33Z) - Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring [51.497900015187675]
Themis-CodePreferenceは、これまでで最大のコード好みのオープンソースコレクションで、多言語コード報酬モデルのスイートであるThemis-RMのトレーニングに使用しています。
多様な嗜好に基づいてトレーニングを行う場合, 積極的なスケーリング傾向, 強い言語間移動を示す実験とアブリケーションを行った。
論文 参考訳(メタデータ) (2026-05-01T16:07:34Z) - Retrieve, Then Classify: Corpus-Grounded Automation of Clinical Value Set Authoring [1.3108798582758454]
臨床価値設定オーサリングは、臨床品質の測定と表現型化において繰り返し発生するボトルネックである。
提案するRASC(Retrieval-Augmented Set Completion: Retrieval-Augmented Set Completion): キュレートされたコーパスから最もよく似た値集合を検索して候補プールを形成する。
我々は,11,803個のVSAC値集合上でRASCの有用性を実証し,このタスクのための最初の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2026-04-16T04:57:21Z) - From Stochastic Answers to Verifiable Reasoning: Interpretable Decision-Making with LLM-Generated Code [0.0]
大規模言語モデル(LLM)は、高い意思決定にますます使われている。
ブラックボックスモデルはそれらの推論を曖昧にし、最近のLCMベースのルールシステムはサンプル単位の評価に依存している。
我々は,LLMをインスタンスごとの評価器ではなくコードジェネレータとして再フレーミングすることを提案する。
論文 参考訳(メタデータ) (2026-02-28T00:27:29Z) - Diagnosing LLM-based Rerankers in Cold-Start Recommender Systems: Coverage, Exposure and Practical Mitigations [0.0]
大規模言語モデル(LLM)とクロスエンコーダのリランカーはレコメンダシステムの改善に注目されている。
本稿では,Serendipity-2018データセットを用いた冷間開始映画レコメンデーションにおけるクロスエンコーダリランカーの系統的診断について述べる。
論文 参考訳(メタデータ) (2026-02-09T16:44:42Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Self-reflection in Automated Qualitative Coding: Improving Text Annotation through Secondary LLM Critique [1.5749416770494706]
大規模言語モデル(LLM)は、大規模なデータセットの高度な定性的な符号化を可能にする。
簡単な一般化可能な2段階のワークフローを提示する: LLMは人間設計のコードブックを適用し、二次LPM批評家は各正のラベルに対して自己回帰を行う。
我々は,Apache Software Foundationのプロジェクト評価に関する議論において,3,000件以上の高コンテンツメールに対する6つの定性的なコードに対して,このアプローチを評価した。
論文 参考訳(メタデータ) (2026-01-14T22:27:13Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。
RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。
BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文 参考訳(メタデータ) (2024-01-28T11:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。