論文の概要: A Principled Framework for Safe Algorithm Updates in Automated Insulin Delivery Systems
- arxiv url: http://arxiv.org/abs/2606.13882v1
- Date: Thu, 11 Jun 2026 20:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.63622
- Title: A Principled Framework for Safe Algorithm Updates in Automated Insulin Delivery Systems
- Title(参考訳): 自動インスリンデリバリーシステムにおける安全アルゴリズム更新のための原則的フレームワーク
- Authors: Thomas Screven, Ziqiang "Joe" Zhu, Deniz Cengiz, Rayhan A. Lal, Korey K. Hood, Samuel T. King,
- Abstract要約: 我々のフレームワークはバグを分類し、AIDシステムソフトウェア更新の臨床的等価性を評価する。
システムに依存しず、広く使われているすべてのOS-AIDシステムに適用できる。
- 参考スコア(独自算出の注目度): 0.1915630210833957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: AID algorithms require ongoing software updates and bug fixes. In co-adapted systems, where users tune settings around existing algorithmic behavior, bug fixes can paradoxically disrupt glycemic control. No principled framework evaluates the safety of AID algorithm updates. Methods: Our two-part framework classifies bugs and evaluates the clinical equivalence of AID system software updates. Bugs are classified as factual, heuristic, or computational, each with distinct management strategies. Classifications were validated from porting Trio's oref algorithm from Javascript to a bug-fixed Swift implementation. We compared implementations using shadow execution on 736,480 invocations from eight Trio users. The second component assesses clinical equivalence with error analysis on paired glucose values, applied to both Trio implementations using mechanistic in silico and data-driven replay simulation. Results: In mechanistic in silico simulation, the Swift and Javascript implementations produced nearly identical Time in Range (84.9% vs. 84.9%) and Glycemia Risk Index (23.5% vs. 23.9%), with more than 99% of paired glucose in Parkes Error Grid Zones A and B, meeting our clinical equivalence threshold. Shadow execution showed low mismatch rates in oref components (iob 0.43%, autosens 1.22%, determineBasal 0.07%, meal 0.01%), with clinically meaningful differences in 0.03% of iob invocations. Data-driven replay simulations of bugs revealed more than 99% of downstream paired glucose in Parkes Error Grid Zones A and B, also meeting our clinical equivalence threshold. Conclusions: Our framework integrates bug-fixing principles with multi-method clinical evaluation to assess AID algorithm update safety. It is system-agnostic and applicable to all widely used OS-AID systems, with case studies highlighting the need for systematic remediation of factual and computational bugs.
- Abstract(参考訳): 背景: AIDアルゴリズムは進行中のソフトウェア更新とバグ修正を必要とする。
既存のアルゴリズムの動作に関する設定をユーザが調整する、共適応システムでは、バグ修正がグリセミック制御をパラドックス的に破壊する可能性がある。
AIDアルゴリズムのアップデートの安全性を評価するフレームワークは存在しない。
方法: この2つのフレームワークはバグを分類し, AID システムソフトウェア更新の臨床的等価性を評価する。
バグは現実的、ヒューリスティック的、あるいは計算的に分類され、それぞれ異なる管理戦略を持つ。
分類は、TrioのオレフアルゴリズムをJavascriptからバグ修正されたSwift実装に移植することから検証された。
8人のTrioユーザの736,480件の呼び出しに対して,シャドウ実行を用いた実装を比較した。
第2の構成要素は, 2組のグルコース値の誤差解析による臨床等価性を評価し, メカニスティック・イン・サイリコとデータドリブン・リプレイ・シミュレーションを用いて, 両方のトリオ実装に適用した。
結果:シリコシミュレーションのメカニスティックでは、SwiftとJavascriptの実装はほぼ同じ時間帯(84.9%対84.9%)とグリセミアリスク指数(23.5%対23.9%)を生成し、Parkes Error Grid Zones AとBのペアブドウ糖の99%以上を臨床等価値を満たした。
シャドー実行では,オリーフ成分のミスマッチ率 (ob 0.43%,Autosens 1.22%,DeferBasal 0.07%,食食0.01%) が低く,iob投与の0.03%に臨床的に有意な差が認められた。
データ駆動によるバグリプレイシミュレーションの結果,Parkes Error Grid Zones A と B の下流のペアブドウ糖の99%以上が検出された。
結論: このフレームワークは, AIDアルゴリズムの安全性を評価するために, バグフィックスの原則とマルチメソッド臨床評価を統合している。
システムに依存しず、広く使われているすべてのOS-AIDシステムに適用できる。
関連論文リスト
- ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文 参考訳(メタデータ) (2026-02-06T19:49:13Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。