論文の概要: Scaling State-Space Models from Lines to Paragraphs: An Ablation of Mamba-based OCR
- arxiv url: http://arxiv.org/abs/2606.23524v1
- Date: Mon, 22 Jun 2026 16:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:30:12.80308
- Title: Scaling State-Space Models from Lines to Paragraphs: An Ablation of Mamba-based OCR
- Title(参考訳): ラインからパラグラフへの状態空間モデルのスケーリング:MambaベースのOCRのアブレーション
- Authors: Merveilles Agbeti-Messan, Pierrick Tranouez, Stéphane Nicolas, Clément Chatelain, Thierry Paquet,
- Abstract要約: State-Space Models (SSM) は線形時間デコードを提供し、印刷された歴史線上でTransformerの精度と一致することが示されている。
本研究では,マンバをベースとしたOCR認識器の行ごとのスケールについて検討する。
本研究は,SSMが大規模文書の書き起こしの実践的選択である場合と,そうでない場合を明らかにするものである。
- 参考スコア(独自算出の注目度): 4.247423625723054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end OCR increasingly relies on autoregressive sequence models, where the quadratic cost of Transformer attention limits efficient transcription of long, paragraph-level text. State-Space Models (SSMs) such as Mamba offer linear-time decoding and have recently been shown to match Transformer accuracy on printed historical lines, but their behavior as sequences grow from short lines to full paragraphs, and their generalization to handwriting, remain poorly understood. We study how a Mamba-based OCR recognizer scales from lines to paragraphs. We first conduct a systematic exploration of its four core hyperparameters (decoder depth, state dimension, expansion factor, and connector depth) on synthetic paragraphs from 100 to 1,000 characters, identifying the recurrent state dimension and the expansion factor as the dominant levers for long-sequence accuracy. We then compare the recognizer against a Transformer baseline trained under an identical protocol. On clean synthetic paragraphs, both models stay below 1% CER at every length while the SSM runs 1.4 to 4.5 times faster, the speedup growing with sequence length. On real handwriting, however, the SSM lags clearly behind: it reaches 8.2% CER on IAM lines and 10.0% on IAM paragraphs, against 4.2% and 3.5% for the Transformer baseline. Through controlled experiments we show that a substantial part of this gap stems from data scarcity rather than from an intrinsic architectural limit: the autoregressive SSM decoder is markedly data-hungry on long sequences. Our study clarifies when SSMs are a practical choice for large-scale document transcription and when they are not.
- Abstract(参考訳): エンドツーエンドのOCRは、トランスフォーマーアテンションの二次コストが長い段落レベルのテキストの効率的な転写を制限する自動回帰シーケンスモデルにますます依存している。
Mambaのような状態空間モデル(SSM)は、線形時間デコードを提供し、最近、印刷された歴史線上のトランスフォーマーの精度と一致することが示されているが、シーケンスとしての振舞いは短線から全段落へと成長し、手書きへの一般化はいまだに理解されていない。
本研究では,マンバをベースとしたOCR認識器の行ごとのスケールについて検討する。
筆者らはまず,100文字から1,000文字までの合成段落の4つのコアハイパーパラメータ(デコーダ深さ,状態寸法,拡張係数,コネクタ深さ)の系統的な探索を行った。
次に、同一プロトコルでトレーニングされたTransformerベースラインと比較する。
クリーンな合成段落では、どちらのモデルも長さ毎の1%CER以下にとどまり、SSMは1.4倍から4.5倍の速度で動き、スピードアップはシーケンス長とともに成長する。
しかし、実際の手書きではSSMは明らかに遅れており、IAMでは8.2% CER、IAMでは10.0%、トランスフォーマーでは4.2%、トランスフォーマーでは3.5%となっている。
制御された実験を通して、このギャップのかなりの部分は、本質的なアーキテクチャ上の限界ではなく、データ不足によるものであることが示される。
本研究は,SSMが大規模文書の書き起こしの実践的選択である場合と,そうでない場合を明らかにするものである。
関連論文リスト
- Looped SSMs: Depth-Recurrence and Input Reshaping for Time Series Classification [50.994194925685434]
パラメータが$k$のループSSMが$L$倍に反復され、標準SSMと一貫して一致し、性能が良くなることを示す。
また、入力再フォーマットは等しく無視された設計軸であることを示す。
論文 参考訳(メタデータ) (2026-05-15T15:18:12Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR [4.247423625723055]
線形時間状態空間モデル(SSM)は、OCRのトランスフォーマーベースのシーケンスモデリングに代わるスケーラブルな代替品である。
我々は、CNNビジュアルエンコーダと双方向および自己回帰型マンバシーケンスモデリングを組み合わせた、SSMに基づく最初のOCRアーキテクチャを提案する。
本研究では,マンバをベースとしたモデルが,推論時間の半分を保ち,メモリスケーリングに優れることを示す。
論文 参考訳(メタデータ) (2026-04-01T10:33:33Z) - PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks [21.41974664575541]
OCR 2.0 と大規模視覚言語モデル (VLM) はテキスト認識のベンチマークを新たに設定した。
PP-OCRv5は,500万のパラメータしか持たない高度に最適化された軽量なOCRシステムである。
論文 参考訳(メタデータ) (2026-03-25T14:54:40Z) - BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs [0.0]
ゼロショットテキスト分類(ZSC)は、コストのかかるタスク固有のアノテーションを排除することを約束する。
テキスト埋め込みモデル、リランカ、命令調整型大規模言語モデル(LLM)の最近の進歩は、NLIベースのアーキテクチャの優位性に挑戦している。
我々は、感情、トピック、意図、感情の分類にまたがる22の公開データセットの総合ベンチマークであるBTZSCを紹介する。
論文 参考訳(メタデータ) (2026-03-12T14:43:20Z) - GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - Length-Aware Multi-Kernel Transformer for Long Document Classification [4.796752450839119]
長いドキュメントは、かなりのメモリ消費のために、ニューラルネットワークモデルに固有の課題を生じさせる。
長文分類における新たな課題に対処するため,Longth-Aware Multi- Kernel Transformer (LAMKIT)を提案する。
論文 参考訳(メタデータ) (2024-05-11T16:48:06Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。