論文の概要: Skip a Layer or Loop It? Learning Program-of-Layers in LLMs
- arxiv url: http://arxiv.org/abs/2606.06574v1
- Date: Thu, 04 Jun 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.3861
- Title: Skip a Layer or Loop It? Learning Program-of-Layers in LLMs
- Title(参考訳): 層かループか? LLMにおけるプログラム・オブ・レイヤーの学習
- Authors: Ziyue Li, Yang Li, Tianyi Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、すべてのレイヤの固定された深さと順序に従って推論を行う。
トレーニングフリー、フレキシブル、動的プログラム・オブ・レイヤー(PoLar)の幅広い存在を明らかにする。
本稿では,各入力に対して事前学習したレイヤを動的にスキップあるいは繰り返す実行プログラムを生成する軽量なPoLar予測ネットワークを提案する。
- 参考スコア(独自算出の注目度): 22.794776940675828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers. We reveal the wide existence of training-free, flexible, dynamic program-of-layers (PoLar), where pretrained layers can be packed as modules and then skipped or looped to form a customized program for each input. For most inputs, substantially shorter program executions can achieve the same or better accuracy, while incorrect predictions of the original LLM can be corrected by alternative programs with fewer layers. These observations indicate that inference admits multiple valid latent computations beyond the standard forward pass. To efficiently achieve PoLar in practice, we propose a lightweight PoLar prediction network, which learns to generate execution programs that dynamically skip or repeat pretrained layers for each input. Experiments on mathematical reasoning benchmarks demonstrate that PoLar consistently improves accuracy over standard inference and prior dynamic-depth methods, often while executing fewer layers, and that these gains persist under out-of-distribution evaluation. Our results suggest that fixed-depth execution captures only a narrow subset of an LLM's latent reasoning capacity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、すべてのレイヤの固定された深さと順序に従って推論を行う。
トレーニング不要でフレキシブルな動的プログラム・オブ・レイヤ(PoLar)の存在が明らかになり、事前学習されたレイヤをモジュールとしてパッケージ化して、スキップあるいはループして各入力用にカスタマイズされたプログラムを作成することが可能になった。
ほとんどの入力では、かなり短いプログラム実行は、同じまたはより良い精度を達成することができるが、元のLSMの誤予測は、より少ない層を持つ代替プログラムによって修正できる。
これらの観測は、推論が標準フォワードパスを超えた複数の有効な潜在計算を許容していることを示している。
本稿では,PoLarを効率よく実現するために,各入力に対して事前学習したレイヤを動的にスキップあるいは繰り返す実行プログラムを生成する軽量なPoLar予測ネットワークを提案する。
数学的推論ベンチマークの実験では、PoLarは標準推論や従来の動的深度法よりも常に精度を向上し、しばしば少ない層で実行し、これらの利得は分布外評価の下で持続することを示した。
以上の結果から,固定深度実行はLLMの潜在推論能力の狭い部分のみを捕捉することがわかった。
関連論文リスト
- LLM-ERM: Sample-Efficient Program Learning via LLM-Guided Search [23.97383442759484]
LLM-ERM は、全列挙を LLM 誘導探索に置き換える提案と検証のフレームワークである。
コーディネート的にオンラインのミニバッチSGDは,特定のショートプログラムを学習するために多くのサンプルを必要とすることを示す。
これらの結果は,言語誘導型プログラム合成が有限クラスEMMの統計効率の多くを回復することを示している。
論文 参考訳(メタデータ) (2025-10-16T06:10:11Z) - Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs [21.541258368039955]
事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。
特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
論文 参考訳(メタデータ) (2025-07-10T17:59:53Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs [13.708569727719434]
大きな言語モデル(LLM)は、様々なプログラミングタスクにおいて有望なパフォーマンスを示す。
我々は,標準的なAPRプロンプトをプログラム実行トレースで強化することで,この潜在的な盲点を修復することを目指している。
論文 参考訳(メタデータ) (2025-05-07T14:12:41Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - ReLU activated Multi-Layer Neural Networks trained with Mixed Integer
Linear Programs [0.0]
ReLU関数によって活性化される多層フィードフォワードニューラルネットワークは、MILP(Mixed Linear Programs)を用いて反復的に訓練することができる
アルゴリズムは出力層から始まり、第1の隠蔽層に情報を伝達し、MILPや線形プログラムを使って重みを調整する。
本手法は手書き数字を含むMNISTデータセット上の2つの単純なネットワークを用いて,flow/Keras (Adam) との比較を行った。
論文 参考訳(メタデータ) (2020-08-19T11:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。