論文の概要: Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture
- arxiv url: http://arxiv.org/abs/2606.09500v2
- Date: Tue, 09 Jun 2026 14:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.823487
- Title: Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture
- Title(参考訳): LLM支援臨床マニュアル作成のための決定論的統合ゲート--バイオメディカルインフォマティクスアーキテクチャー
- Authors: Yoojin Nam, Jinhoon Jeong, Namkug Kim,
- Abstract要約: 検証を伴うアーキテクチャペア生成を3つの原則に基づいて記述する。
この決定論的な分割は、整合性のある分類として組織化され、中核的な貢献である。
MedSci Skillsは、43のスキルのオープンソースツールキットで、21の決定論的階層を持ち、3つのパブリックデータセットパイプラインで評価されている。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous research agents and AI co-scientist systems push large language models (LLMs) from drafting toward end-to-end manuscript production, the bottleneck shifts from generation to verification. Fluent LLM output can hide fabricated citations, numbers that drift from source tables, and unmet reporting-guideline items; existing tools generate without verifying, and self-critique inherits the blind spots that produce confident fabrication. We describe an architecture pairing generation with verification, resting on three principles: decompose the workflow into self-contained skills, gate every stage transition with halt-on-failure, and resolve each integrity question with the cheapest sufficient mechanism, a deterministic, re-executable check where one suffices and a prose-level probe only where interpretation is unavoidable. This determinism-where-possible split, organized as an integrity-gate taxonomy, is the core contribution. It is realized as MedSci Skills, an open-source toolkit of 43 skills with a 21-detector deterministic tier, evaluated on three public-dataset pipelines (STARD, PRISMA, STROBE) and a seeded-defect ablation. Across the three pipelines every content-hash manifest verified clean and the gates surfaced real defects; on 27 identical injected defects the deterministic gates detected all 27 with no false positives on the matched clean fixtures, whereas a single-prompt LLM reviewer detected 11, its misses in code, bibliography, and style defects the prose hides. Determinism-where-possible verification yields an auditable, re-executable trail that exposes the evidence a human needs to check an LLM-assisted manuscript: feasibility and reproducibility evidence, not a claim of human-competitive quality, which a separate blinded study addresses. MedSci Skills is MIT-licensed and archived (v3.8.0).
- Abstract(参考訳): 自律的な研究エージェントとAIの共同科学者システムが、大規模言語モデル(LLM)をドラフトからエンドツーエンドの原稿生産へと押し上げるにつれ、ボトルネックは生成から検証へとシフトする。
フルエントLCM出力は、生成した引用、ソーステーブルからドリフトする数値、および未メートルのレポートガイドラインアイテムを隠蔽し、既存のツールは検証せずに生成し、自己批判は、確実な製造を生み出す盲点を継承する。
ワークフローを自己完結したスキルに分解し、ステージの遷移を停止してゲートし、各整合性の問題を最も安価なメカニズムで解決する。
この決定論的な分割は、整合性のある分類として組織化され、中核的な貢献である。
MedSci Skillsは、21-detector決定論的階層を持つ43のスキルのオープンソースツールキットであり、3つのパブリックデータセットパイプライン(STARD、PRISMA、STROBE)とシードデフェクトアブレーションで評価されている。
3つのパイプライン全体で、全てのコンテンツハッシュが証明され、ゲートが真の欠陥を表面化した。27の同一のインジェクトされた欠陥では、決定論的ゲートが、一致したクリーンフィクスチャに偽陽性がない27のすべてを検出し、一方、単一プロンプトのLCMレビュアーは、コード、書誌、スタイルの欠陥を11個検出した。
決定論(Determinism-where-possible)の検証は、人間がLCMの支援された原稿をチェックする必要がある証拠を明らかにする、監査可能な再実行可能なトレイルをもたらす。
MedSci SkillsはMITライセンスでアーカイブされている(v3.8.0)。
関連論文リスト
- Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation [0.0]
モデルが生成した統計量を検出する能力を持っているが、マルチソース合成においてこの能力を採用していないことを示す。
具体的には、ソースの影響は、解析テキストの分布レジスタに応答するが、数値の有効性には反応しない方法論登録ゲートによって制御される。
論文 参考訳(メタデータ) (2026-06-03T20:15:48Z) - From Attack Simulation to SIEM Rule: Deterministic Detection-as-Code Synthesis with Probe-Level Traceability [51.56484100374058]
セキュリティチームは、自身のシステムに対する攻撃をシミュレートして、監視が真の侵入者を捕まえるかどうかをチェックする。
人間はそのギャップを手でブリッジし、それぞれの発見を読み、対応するシグマルールを書きます。
ロックされたコーパスからプローブが引き出されると,この変換が部分的に自動化されることを示す。
論文 参考訳(メタデータ) (2026-06-03T14:26:25Z) - DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations [0.0]
既存の幻覚は、アウトプットの誤りによってエラーを分類します。
これらは診断に役立ちますが、別の質問に答えることはできません。
本稿では,検出可能性シグネチャによってエラーを分類する補完的な分類法を提案する。
論文 参考訳(メタデータ) (2026-06-01T14:11:11Z) - ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence [57.37494162084001]
チェーン・オブ・エビデンス(Chain-of-Evidence, CoE)は、すべてのクレームがエビデンス・ソースにトレース可能であることを要求する検証可能なフレームワークである。
CoE Auditはポストホック監査であり、スコア検証、仕様違反、参照検証、メソッドコードアライメントという4つの整合性チェックが全システムに均一に適用される。
論文 参考訳(メタデータ) (2026-05-25T21:30:27Z) - Pramana: A Protocol-Layer Treatment of Claim Verification in Autonomous Agent Networks [0.0]
確率的検証パターン(自己整合性投票、レビュアー LLM アンサンブル)は、人工物ではなく、判断を生成する。
Pramana は、ワイヤフォーマットの欠如を定義している。すべての連続エージェント出力は、タイプ付き ClaimAttestation でラップされ、4つの変種のうちの1つでラップされる。
プラマナは3つの対称性を再現したモデル(38,563個の到達可能な状態、0個の不変な違反)でTLCの下で徹底的に検証された。
論文 参考訳(メタデータ) (2026-05-19T17:00:33Z) - LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition [55.572260012037084]
本稿では, LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を紹介する。
モデルの潜在論理エキスパートズ(Latent Logic Expertise)からのコンセンサスを集約することで、変分論理ポテンシャルを導出する。
LC-ERDは、論理の一貫性と正確性の間のトレードオフを明らかにする、堅牢な自己進化パスを提供する。
論文 参考訳(メタデータ) (2026-05-19T07:27:50Z) - Methods for Formal Verification of Agent Skills: Three Layers Toward a Mechanically Checkable Capability-Containment Proof [0.0]
LLM駆動のランタイムによってどのようにスキルが消費されるかに忠実なスキル行動に関する正確なセマンティクスを提供します。
本稿では,定式化や定式化によるスキル向上を両立させる構成可能な3つの手法を提案する。
これら3つのメソッドに加えて、バンドルプロデューサと再チェッカーは、オープンソースエンクロードフレームワークのゼロ依存JavaScriptモジュールとして出荷される。
論文 参考訳(メタデータ) (2026-05-09T19:27:38Z) - Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis [0.0]
エピステミックブラインド(英: epistemic blinding)は、エンティティ識別子を匿名のコードに置き換える単純な推論時プロトコルである。
4種類のがん種を対象とする腫瘍薬剤の優先順位付けでは、盲目化は上位20の予測の16%に変化し、検証対象の同一の回復を保っている。
S&P 500エクイティ・スクリーニングでは、ブランド認識バイアスが5つのランダムな種子のトップ20ランキングの30-40%を占めている。
論文 参考訳(メタデータ) (2026-04-07T16:06:52Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。