論文の概要: The Right Call for Software Benchmarking: Consistent Decisions in Stateful Environments
- arxiv url: http://arxiv.org/abs/2606.17261v1
- Date: Mon, 15 Jun 2026 20:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.130393
- Title: The Right Call for Software Benchmarking: Consistent Decisions in Stateful Environments
- Title(参考訳): ソフトウェアベンチマークの正しい呼び出し:ステートフルな環境における一貫性のある決定
- Authors: Gábor Melis,
- Abstract要約: 現代のコンピューティングシステムは、ワークロードや物理的環境のダイナミクスに対応するためのステートフルなメカニズムに依存している。
アダプティブメカニズムは、個々のプログラムのパフォーマンスに偏った、測定と予測の時間的依存関係を導入します。
コントラストの一貫した推定を許容する単純な設計を提案し、プログラム固有のバイアスは持続可能な仮定でキャンセルする。
- 参考スコア(独自算出の注目度): 1.049126606580198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the perpetual pursuit of performance, modern computing systems rely ever more on stateful mechanisms to accommodate the dynamics of workloads and physical environments, bolstering efficiency but confounding benchmarking and thereby the optimization of software. Indeed, by their nature, adaptive mechanisms introduce temporal dependencies between measurements and render naive estimators of individual program performance biased. Observing that rectifying such biases necessitates speculative assumptions about system dynamics, we call for prioritizing performance differentials over absolute measures and formalize software benchmarking as the decision problem of identifying the fastest program, for which relative knowledge suffices. To this end, we propose simple experiment designs admitting consistent estimators of contrasts, whereby program-specific biases cancel under tenable assumptions. These designs asymptotically yield the correct decision and afford a robust methodology for finite-budget benchmarking in stateful environments, bearing broad implications for the development of performance-sensitive software.
- Abstract(参考訳): パフォーマンスの絶え間なく追求する中で、現代のコンピューティングシステムは、ワークロードと物理的環境のダイナミクスに適合するステートフルなメカニズムにますます依存し、効率を向上するが、ベンチマークを混乱させ、ソフトウェアを最適化する。
実際、適応的なメカニズムは、その性質上、測定間の時間的依存関係を導入し、個々のプログラム性能の単純さを推定する。
このようなバイアスを正すためには、システム力学に関する投機的仮定が必要であり、絶対的な測度よりも性能差を優先順位付けし、ソフトウェアベンチマークを、相対的な知識が十分である最も速いプログラムを特定する決定問題として定式化する。
そこで本研究では,コントラストの一貫した推定を許容する単純な実験設計を提案する。
これらの設計は漸近的に正しい決定を下し、ステートフルな環境での有限予算ベンチマークのための堅牢な方法論を提供し、パフォーマンスに敏感なソフトウェアの開発に幅広い意味を持つ。
関連論文リスト
- A Smart-Scheduled Hybrid (SSH) EKF-FGO State Estimation [1.3750624267664155]
本稿では,Smart Scheduled Hybrid (SSH) EKF-FGOフレームワークをテストベッドとして,最適化スケジューリングを明示的に分離する実験を行った。
EKFをベースとした状態伝搬と周期的に起動されたバッチ最適化とソルバ構造と労力の固定を組み合わせることで、最適化スケジューリングを独立設計変数として実験的に特徴づけることが主な貢献である。
その結果、グローバル最適化の利点のほとんどを計算コストのごく一部で維持できる運用体制が特定される。
論文 参考訳(メタデータ) (2026-06-14T23:13:56Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Benchmarking Continuous Dynamic Multi-Objective Optimization: Survey and Generalized Test Suite [16.383406982268234]
本稿では,DMOOベンチマークを構築するための原則的フレームワークを提案する。
本研究では,不規則な環境変化をシミュレートするために時間摂動機構を導入し,一般化された時間リンク機構を提案する。
この研究は、動的多目的最適化ベンチマークのための新しい標準を確立し、次世代アルゴリズムの開発と評価のための強力なツールを提供する。
論文 参考訳(メタデータ) (2026-01-04T01:03:20Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - An Identifiable Cost-Aware Causal Decision-Making Framework Using Counterfactual Reasoning [18.324601057882386]
そこで本研究では,最小コスト因果決定(MiCCD)フレームワークを提案する。
混合異常データの存在を識別する反ファクト的推論プロセスに重点を置いている。
MiCCDは、F1スコア、コスト効率、ランキング品質(nDCG@k値)など、従来の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-13T08:41:45Z) - Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。