論文の概要: Unlimited OCR Works
- arxiv url: http://arxiv.org/abs/2606.23050v1
- Date: Mon, 22 Jun 2026 09:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:26:29.563575
- Title: Unlimited OCR Works
- Title(参考訳): 無制限OCR作品
- Authors: Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia,
- Abstract要約: Unlimited OCRは、人間の解析作業メモリをエミュレートするモデルである。
デコーダ内のすべての注意層を、提案した参照スライディングウィンドウアテンションに置き換える。
無制限のOCRは、標準の最大長さ32Kの1つのフォワードパスで数十ページの文書を転写することができる。
- 参考スコア(独自算出の注目度): 22.59848620824452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, end-to-end OCR models, exemplified by DeepSeek OCR, have once again thrust OCR into the spotlight. A widely held view is that employing a large language model (LLM) as the decoder allows the model to leverage the prior distribution of language, leading to improved OCR performance. However, the downside is equally evident: as the output sequence lengthens, the accumulated KV cache drives up memory consumption and progressively slows down generation. This stands in stark contrast to humans, who exhibit no such decline in efficiency during long-horizon copying tasks. In this technical report, we propose Unlimited OCR, a model designed to emulate human parsing working memory. Taking DeepSeek OCR as the baseline, we replace all attention layers in the decoder with our proposed Reference Sliding Window Attention (R-SWA), which reduces attention computation costs while maintaining a constant KV cache throughout the entire decoding process. By combining the high compression rate of DeepSeek OCR's encoder with our constant KV cache design, Unlimited OCR can transcribe dozens of pages of documents in a single forward pass under a standard maximum length of 32K. More importantly, R-SWA is a general-purpose parsing attention mechanism - beyond OCR, it is equally applicable to tasks such as ASR, translation, etc. Codes and model weights are publicly available at http://github.com/baidu/Unlimited-OCR.
- Abstract(参考訳): 近年、DeepSeek OCRによって実証されたエンドツーエンドのOCRモデルは、再びOCRをスポットライトに押し込んだ。
広く知られている見解では、デコーダとして大きな言語モデル(LLM)を使用することで、モデルが以前の言語分布を活用でき、OCRのパフォーマンスが向上する。
しかし、出力シーケンスが長くなるにつれて、蓄積されたKVキャッシュがメモリ消費を加速し、徐々に生成される。
これは、長い水平コピー作業中に効率が低下しない人間とは対照的である。
本稿では,人間の動作記憶をエミュレートするモデルであるUnlimited OCRを提案する。
我々は、DeepSeek OCRをベースラインとして、デコーダ内のすべての注意層を、提案した参照スライディングウィンドウ注意(R-SWA)に置き換える。
DeepSeek OCRのエンコーダの高圧縮率と我々の一定KVキャッシュ設計を組み合わせることで、Unlimited OCRは32Kの標準最大長で、単一のフォワードパスで数十ページの文書を書き起こすことができる。
さらに重要なのは、R-SWAは汎用的なパーシングアテンションメカニズムであり、OCR以外にも、ASRや翻訳といったタスクにも同じように適用できます。
コードとモデルの重み付けはhttp://github.com/baidu/Unlimited-OCRで公開されている。
関連論文リスト
- End-to-End Context Compression at Scale [81.70601323130997]
長期コンテキスト言語モデル推論は、KVキャッシュがコンテキスト長とともに増加するにつれて、メモリによってボトルネックとなる。
KVキャッシュを圧縮する最近の技術は、モデル品質を著しく低下させるか、あるいはかなりの時間を要するか、1つの長いプロンプトを圧縮するために計算する。
既存のアプローチは、精度-効率のフロンティア上のKVキャッシュ圧縮と競合しない。
論文 参考訳(メタデータ) (2026-06-08T15:43:16Z) - FastOCR: Dynamic Visual Fixation via KV Cache Pruning for Efficient Document Parsing [51.905216364362325]
我々は2つの相補的なモジュールを持つトレーニングフリーフレームワークであるFastOCRを提案する。
FastOCRは未実行モデルの精度の98%を保持し、デコードステップあたりの視覚トークンの5%にしか到達しない。
論文 参考訳(メタデータ) (2026-05-17T13:39:47Z) - Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR [25.00433693229684]
DeepSeek-OCRは、入力された視覚トークンの10倍以上のテキストトークンをデコードすると主張している。
我々は,本モデル固有のOCR能力を言語先行から分離するために,文レベルおよび単語レベルの意味的腐敗を用いる。
従来のパイプラインOCR法は, 従来のパイプラインOCR法に比べて, 意味摂動に対するロバスト性が高いことがわかった。
論文 参考訳(メタデータ) (2026-01-07T09:01:23Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - End-to-End Semantic Preservation in Text-Aware Image Compression Systems [42.76781276416154]
光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.834085739828815]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。
GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。
OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文 参考訳(メタデータ) (2024-09-03T08:41:31Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。