論文の概要: Answer Engineering: Local Trajectory Editing for Protocol-Constrained Decision Making in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.21121v1
- Date: Fri, 19 Jun 2026 05:47:44 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:20:54.029902
- Title: Answer Engineering: Local Trajectory Editing for Protocol-Constrained Decision Making in Large Language Models
- Title(参考訳): Answer Engineering:大規模言語モデルにおけるプロトコル制約決定のための局所軌道編集
- Authors: Victor Lavrenko, Anastasiia Molodnitskaia,
- Abstract要約: 大規模言語モデルは、手続き的コンプライアンスが重要である領域において、自信はあるがプロトコル非有意義な答えを生み出すことができる。
本稿では,決定論的ランタイムおよびオーサリング層であるAnswer Engineeringについて述べる。
本手法は,突発性感音難聴に対する臨床評価基準を用いて評価した。
- 参考スコア(独自算出の注目度): 0.00304396936267654
- License:
- Abstract: Large language models can produce confident but protocol-invalid answers in domains where procedural compliance is critical. This paper presents Answer Engineering, a deterministic runtime and authoring layer that applies localized rule-guided interventions to the visible reasoning trajectory during standard autoregressive generation, without retraining, modifying model weights, or performing global search. The method is evaluated on a controlled clinical benchmark for sudden sensorineural hearing loss (SSNHL), where correct management depends on protocol-consistent interpretation of symptom timing, Weber/Rinne tuning-fork findings, and otoscopic findings. In the benchmark, step-by-step reasoning shifted rather than eliminated errors: compliant outcomes for SSNHL decreased from 54.5% under unguided generation to 25.1%, while acceptance on the conductive contrast condition increased from 1.6% to 58.9%. Local trajectory editing increased SSNHL compliance to 83.5% and conductive-case adherence to 77.9%, raising balanced accuracy from 42.0% under reasoning-only generation to 80.7%. The results support a systems-level view in which protocol adherence can be improved through auditable runtime control of reasoning trajectories, while also identifying limitations caused by rule coverage, trigger reliability, and persistent diagnosis-first generation dynamics.
- Abstract(参考訳): 大規模言語モデルは、手続き的コンプライアンスが重要である領域において、自信はあるがプロトコル非有意義な答えを生み出すことができる。
本稿では, 標準自己回帰生成において, モデル重みを変更したり, グローバル検索を行うことなく, 局所的ルール誘導による介入を視覚的推論軌道に適用する, 決定論的ランタイムおよびオーサリング層であるAnswer Engineeringを提案する。
本手法は,症状タイミングのプロトコル整合性解釈,Weber/Rinne調音フォーク所見,および耳科的所見に依存する突発性感音難聴 (SSNHL) の制御された臨床ベンチマークを用いて評価した。
SSNHLの適合結果は54.5%から25.1%に減少し、導電性コントラスト条件の受け入れは1.6%から58.9%に増加した。
局所軌道編集によりSSNHLのコンプライアンスは83.5%に増加し、導電性ケースのコンプライアンスは77.9%に向上し、推論のみの世代では42.0%から80.7%に向上した。
結果は、推論軌跡の監査可能なランタイム制御を通じてプロトコルの適合性を改善することができるシステムレベルのビューをサポートし、ルールカバレッジ、信頼性のトリガ、永続的な診断ファースト生成ダイナミクスによって引き起こされる制限を識別する。
関連論文リスト
- OptiLoop: Coordination-in-the-Loop Verification and Repair for LLM-Generated Optimization Agents [0.9543827270223156]
分散された決定問題は、複数の当事者が共有された決定を調整する必要がある。
大規模言語モデル(LLM)は、ローカル最適化エージェントを生成することで参加障壁を低くする有望な方法を提供する。
LLM生成最適化エージェントのコーディネーション・イン・ザ・ループ検証と修復を提案する。
論文 参考訳(メタデータ) (2026-05-26T19:49:41Z) - ReacTOD: Bounded Neuro-Symbolic Agentic NLU for Zero-Shot Dialogue State Tracking [2.2573512203799626]
本稿では,NLUを独立したツールコールとして再構成する有界神経シンボルアーキテクチャであるReacTODを提案する。
有界ReActループは反復自己補正を可能にし、MultiWOZ上のシングルパス推論よりも最大9.3ポイント精度を向上させる。
論文 参考訳(メタデータ) (2026-05-18T20:06:04Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering [1.295312759062166]
エージェント検索強化推論パイプラインは、より大きな言語モデルが臨床決定支援に外部証拠を組み込むかを構築するために、ますます使用されている。
これらのシステムは、計算済みのドメイン知識を反復的に検索し、回答の選択の前に構造化されたレポートに合成する。
このようなパイプラインはパフォーマンスを向上させることができるが、モデルの可変性の下での信頼性への影響は、まだ不明である。
論文 参考訳(メタデータ) (2026-03-06T13:31:54Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - Evaluating Spoken Language as a Biomarker for Automated Screening of Cognitive Impairment [37.40606157690235]
言語と言語の変化は、アルツハイマー病と関連する認知症を早期に予測できる。
音声言語からのADRDスクリーニングと重度予測のための機械学習手法の評価を行った。
リスク階層化と言語的特徴重要度分析は、予測の解釈可能性と臨床的有用性を高めた。
論文 参考訳(メタデータ) (2025-01-30T20:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。