論文の概要: Layer-wise Derivative Controlled Networks Achieve Competitive Accuracy and Gradient Stability Across Data Regimes
- arxiv url: http://arxiv.org/abs/2606.07908v1
- Date: Sat, 06 Jun 2026 00:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.52966
- Title: Layer-wise Derivative Controlled Networks Achieve Competitive Accuracy and Gradient Stability Across Data Regimes
- Title(参考訳): データレジーム間の競合精度とグラディエント安定性を実現する層ワイド導出制御ネットワーク
- Authors: Rowan Martnishn,
- Abstract要約: ChainzRuleに基づく導電性制御ネットワークは、立方体層と軽量前方モード層毎のジャコビアンペナルティ(DREG)を組み合わせた。
Pima Diabetesデータセットでは、CRは強力な低データパフォーマンスを実現し、ベースラインを5%から100%のトレーニングデータから一貫した精度の優位性を維持する。
SST-5の拡張は、凍結浸漬とBERT微調整の双方において、競争力または優れた結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Derivative-controlled networks based on ChainzRule (CR) combine cubic polynomial layers with a lightweight forward-mode per-layer Jacobian penalty (DREG). In this second paper of a multi-part series, we evaluate the generalization properties of CR across data regimes. We ablate the shape of the DREG coefficient schedule, demonstrating that the optimal annealing range depends on representation noise. On the Pima Diabetes dataset, CR achieves strong low-data performance and maintains a consistent accuracy advantage over baselines from 5\% to 100\% training data, supported by exceptionally stable gradient tail ratios ($\sim$1.01--1.02 vs. 1.07--1.09 for ReLU networks). Extensions to SST-5 show competitive or superior results in both frozen-embedding and BERT fine-tuned regimes, including outperforming prior BERT baselines despite substantially less training data. These results are statistically significant: CR achieves superior accuracy over the strongest published baselines we could identify on both datasets ($p < 0.05$). These results establish that layer-wise derivative control induces a structural inductive bias toward low-frequency, stable representations that generalizes robustly across tabular and NLP domains, data volumes, and representation qualities. The gradient tail ratio serves as a reliable, label-free diagnostic of generalization capability.
- Abstract(参考訳): ChainzRule (CR) に基づく導電性制御ネットワークは、立方体多項式層と軽量前方モードの層ごとのジャコビアンペナルティ(DREG)を結合する。
本稿では,データレシスタンスにおけるCRの一般化特性について検討する。
DREG係数スケジュールの形状を補正し、最適なアニール範囲が表現ノイズに依存することを示す。
Pima Diabetesデータセットでは、CRは強力な低データパフォーマンスを実現し、5\%から100\%のトレーニングデータに対する一貫した精度の優位性を維持し、例外的に安定した勾配尾比(ReLUネットワークでは1.01-1.02対1.07--1.09)がサポートされている。
SST-5の拡張は、かなり少ないトレーニングデータにもかかわらず、以前のBERTベースラインよりも優れたパフォーマンスを含む、凍結埋め込みとBERT微調整の双方において、競争力または優れた結果を示す。
これらの結果は統計的に有意である:CRは、両方のデータセット(p < 0.05$)で特定できる最強の公開ベースラインよりも優れた精度を達成する。
これらの結果は,低周波かつ安定な表現に対する構造的帰納的バイアスを導出し,表層領域やNLP領域,データボリューム,表現品質を安定に一般化することを示す。
勾配尾比は、信頼性が高く、ラベルのない一般化能力の診断として機能する。
関連論文リスト
- SEED: Targeted Data Selection by Weighted Independent Set [76.68391670109433]
我々はSEEDと呼ばれる堅牢でスケーラブルなデータ選択パイプラインを開発した。
SEEDは、命令チューニング、視覚的命令チューニング、セマンティックセグメンテーションにおける最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T07:26:54Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning [0.0]
統一されたスペーシフィケーションプリミティブは、モダリティに匹敵する精度と効率のトレードオフをもたらす。
学習表現に直接L0スタイルのスパーシリティを強制するモダリティ非依存的かつ機能的にハードコンクリートなゲーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:42Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - Test-Time Adaptation for Anomaly Segmentation via Topology-Aware Optimal Transport Chaining [10.091031517157411]
TopoOTはトポロジ対応の最適なトランスポート(OT)フレームワークである。
多重フィルタ永続図(PD)とテスト時間適応(TTA)を統合する。
TopoOTは2Dおよび3D異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-28T07:49:28Z) - TopSeg: A Multi-Scale Topological Framework for Data-Efficient Heart Sound Segmentation [12.42019711058722]
TopSegは、マルチスケールのトポロジ的特徴を持つPCGダイナミクスをエンコードする表現中心のフレームワークである。
被験者レベルのサブサンプリングでPhyloNet 2016データセットのみをトレーニングし、CirCorデータセット上で外部バリデーションを実行します。
結果から,TopSegはデータ効率,クロスデータセットPCGセグメンテーションに強い帰納バイアスを与えることがわかった。
論文 参考訳(メタデータ) (2025-10-20T09:43:39Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。