論文の概要: BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling
- arxiv url: http://arxiv.org/abs/2606.09707v1
- Date: Mon, 08 Jun 2026 16:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.504887
- Title: BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling
- Title(参考訳): BrainSurgery: モデル編集と更新のための再現性と信頼性の高い宣言的ウェイト操作
- Authors: Gianluca Barmina, Annemette Broch Pirchert, Andrea Blasi Núñez, Lukas Galke Poech, Peter Schneider-Kamp,
- Abstract要約: 我々は、ニューラルネットワークのチェックポイント上で、堅牢で再現可能な「テンソル手術」のためのツールであるBrainSurgeryを紹介した。
BrainSurgeryは宣言型YAMLプランを通じて複雑な変換を実行する。
構造的変化、数学的変換、表現的および構造的ターゲティングによるテンソル再構成をサポートする。
- 参考スコア(独自算出の注目度): 2.1506174016951687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning models scale, managing, inspecting, and modifying large checkpoints has become increasingly challenging. Researchers often need to alter model weights for layer restructuring, precision casting, low-rank factorization, and architectural debugging, yet these workflows often rely on fragile ad-hoc Python scripts. Here, we introduce BrainSurgery, a tool for robust and reproducible "tensor surgery" on neural network checkpoints, and provide a system demonstration covering four examples and three case studies from model upcycling to LoRA extraction. By abstracting storage formats and memory management, BrainSurgery executes complex transformations through declarative YAML plans. It supports structural modifications, mathematical transformations, and tensor reshaping through expressive regex and structural targeting, while built-in assertions validate tensor shapes, data types, and values to prevent silent errors. We envision that BrainSurgery will provide a strong foundation for future research through its reproducible and validated operations.
- Abstract(参考訳): ディープラーニングモデルがスケールし、管理し、検査し、変更するにつれて、大きなチェックポイントはますます難しくなっています。
研究者たちは、レイヤ再構築、精密キャスト、低ランク要因化、アーキテクチャデバッギングのためにモデルの重みを変更する必要があることが多いが、これらのワークフローは脆弱なアドホックなPythonスクリプトに依存していることが多い。
本稿では、ニューラルネットワークのチェックポイント上で、堅牢で再現可能な「テンソル手術」を行うツールであるBrainSurgeryを紹介し、モデルアップサイクルからLoRA抽出までの4つの事例と3つのケーススタディをカバーするシステムデモを提供する。
ストレージフォーマットとメモリ管理を抽象化することで、BrainSurgeryは宣言的なYAMLプランを通じて複雑な変換を実行する。
構造的な修正、数学的変換、表現力のあるregexと構造的ターゲティングによるテンソルリフォームをサポートし、ビルトインアサーションはテンソル形状、データタイプ、値を検証することでサイレントエラーを防ぐ。
我々は、BrainSurgeryが再現可能かつ検証可能な操作を通じて、将来の研究に強力な基盤を提供することを期待している。
関連論文リスト
- LITcoder: A General-Purpose Library for Building and Comparing Encoding Models [2.405239115724098]
LITcoderは、ニューラルエンコーディングモデルの構築とベンチマークのためのオープンソースライブラリである。
連続刺激を脳データと整合させ、刺激を表現的特徴に変換し、それらの特徴を脳データにマッピングし、結果として得られるモデルの予測性能を評価するためのツールを提供する。
論文 参考訳(メタデータ) (2025-09-11T05:14:14Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - The Complexity of Learning Sparse Superposed Features with Feedback [2.4140387101794283]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。
スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。
この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文 参考訳(メタデータ) (2025-02-08T01:54:23Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。