論文の概要: SamatNext v0.2-B: An Exploratory Study of RMS-Normalized Hybrid Decoders for Curriculum Retention in Small Code Models
- arxiv url: http://arxiv.org/abs/2606.22248v1
- Date: Sat, 20 Jun 2026 22:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 21:48:06.536866
- Title: SamatNext v0.2-B: An Exploratory Study of RMS-Normalized Hybrid Decoders for Curriculum Retention in Small Code Models
- Title(参考訳): SamatNext v0.2-B:小型符号モデルにおけるカリキュラム保持のためのRMS正規化ハイブリッドデコーダの探索的研究
- Authors: Samat Zharassov,
- Abstract要約: SamatNext v0.2-Bは、差分アテンションスタイルの層をDeltaNetにインスパイアされた単純化されたリニアステートミキサー層に置き換える実験的なシーケンスデコーダである。
制御されたPythonコードカリキュラムの下でモデルを研究し、パラメータマッチングされたTransformerベースラインと比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard autoregressive Transformer decoders can often exhibit substantial forgetting under sequential fine-tuning on shifting curriculum distributions. This technical report evaluates SamatNext v0.2-B, an experimental 356M-parameter hybrid sequence decoder that alternates Differential-Attention-style layers with DeltaNet-inspired simplified linear-state mixer layers using RMS normalization and output scale calibration. We study the model under a controlled staged Python code curriculum and compare it with a parameter-matched Transformer baseline. In this setting, SamatNext v0.2-B achieves a 100.0% pass rate on the controlled Stage 5 holdout while retaining 98.8% of adjacent Stage 3 semantic behavior and reaching 12.0% on the Stage 2E early syntax holdout. The strongest Transformer baseline reaches 97.6% on Stage 5 but retains only 6.0% of Stage 3 behavior. Both architectures remain weak on long-horizon early-stage retention, so the result should be interpreted as evidence of an altered retention/plasticity tradeoff in this controlled setting, not as a general solution to catastrophic forgetting. Code, model specifications, evaluation scripts, and result tables are provided for independent verification.
- Abstract(参考訳): 標準自己回帰トランスフォーマーデコーダは、シフトするカリキュラムの分布を逐次微調整する際、かなり忘れることがある。
RMS正規化と出力スケールキャリブレーションによる差分アテンション型層とDeltaNetにインスパイアされた簡易線形状態ミキサー層を交互に使用する実験356MパラメーターハイブリッドシークエンスデコーダであるSamatNext v0.2-Bの評価を行った。
制御されたPythonコードカリキュラムの下でモデルを研究し、パラメータマッチングされたTransformerベースラインと比較する。
この設定では、SamatNext v0.2-Bは、コントロールされたステージ5のセマンティックな動作の98.8%を保持しながら、コントロールされたステージ5のホールトアウトで100.0%のパスレートを達成し、ステージ2Eの早期構文ホールトアウトで12.0%に達する。
最も強いトランスフォーマーベースラインはステージ5で97.6%に達するが、ステージ3の行動の6.0%しか保持していない。
どちらのアーキテクチャも長期の早期維持に弱いままであり、この制御された環境での維持・塑性のトレードオフが変化した証拠として解釈されるべきであり、破滅的な忘れの一般的な解決策ではない。
コード、モデル仕様、評価スクリプト、結果テーブルは独立した検証のために提供される。
関連論文リスト
- Ghost Attractor Networks: Basin-Structured Dynamical Decoders for Closed-Loop Sequential Generation [15.734979840846568]
本稿では,理論的に導出された動的デコーダであるGhost Attractor Networksを提案する。
ドリフトによって学習されたポテンシャルの下で進化し、建設によって盆地・トラクター構造を生成する。
論文 参考訳(メタデータ) (2026-06-16T11:23:30Z) - Do Transformers Actually Help Intrusion Detection? A Temporal Sequence Evaluation on CIC-IDS2017 [1.2934180951771597]
我々はCIC-IDS 2017を、ネットワーク会話から順序付きフローシーケンスを構築することで、時間的侵入検出タスクとして再構成する。
中心的な発見は、アーキテクチャではなくパディング規約がトランスフォーマーのパフォーマンスを決定することである。
我々は、将来のIDS研究において、漏洩のない分割、明示的なパディング開示、シーケンシャル・アウェア・ベンチマークを標準的実践として推奨する。
論文 参考訳(メタデータ) (2026-06-09T16:57:10Z) - How Much Capacity Does EEG Denoising Need? Ultra-Compact Networks reveal Benchmark Saturation and Metric-Utility Gap [0.0]
深層学習EEG(Deep Learning EEG Denoising Architectures)は、数万から数千万のパラメータに拡張されているが、実験変数としてモデルキャパシティを分離した以前の研究はない。
アーキテクチャ,損失,データ分割,トレーニングレシピの両ギャップに対処し,最小限の深さ分離可能な畳み込みU-Netで1.05Kから40.26Kパラメータまでのチャネル幅を網羅する。
論文 参考訳(メタデータ) (2026-06-07T12:17:25Z) - Feature-Augmented Transformers for Robust AI-Text Detection Across Domains and Generators [0.10923877073891443]
我々はHC3 PLUSで変圧器ベースの検出器を訓練し、ホールドアウト検証におけるバランスの取れた精度を最大化することにより、単一判定閾値を校正する。
HC3 PLUS の領域内、マルチドメインのマルチジェネレータ M4 ベンチマークへのクロスデータセット転送、および外部 AI-Text-Detection-Pile 上での評価を行う。
我々の最良のモデル(DeBERTa-v3-base+FeatAttn)はM4上で85.9%のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2026-05-05T16:52:26Z) - ClawEnvKit: Automatic Environment Generation for Claw-Like Agents [85.29126619772153]
我々は、オンデマンドで検証された環境を生成することができる自動生成パイプラインであるClawEnvKitを紹介する。
ClawEnvKitは、(1)自然言語入力から構造化生成パラメータを抽出するパイプライン、(2)タスク仕様、ツールインターフェース、スコアリング設定を生成するジェネレータ、(3)実現可能性、多様性、構造的妥当性、内部整合性を強制するバリデータからなる。
爪のようなエージェントの大規模なベンチマークであるAuto-ClawEvalを構築し、24のカテゴリで1,040の環境を網羅した。
論文 参考訳(メタデータ) (2026-04-20T17:36:49Z) - MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。