論文の概要: Retrieval-as-a-Service:A System-Oriented Analysis of Industrial Retrieval Pipelines in Web Systems
- arxiv url: http://arxiv.org/abs/2606.14932v1
- Date: Fri, 12 Jun 2026 20:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.462655
- Title: Retrieval-as-a-Service:A System-Oriented Analysis of Industrial Retrieval Pipelines in Web Systems
- Title(参考訳): 検索・アズ・ア・サービス:Webシステムにおける産業検索パイプラインのシステム指向分析
- Authors: Fang Liu, Yuan Yuan, Yifan Dang, Xuncheng Zhang, Cuiqianhe Du,
- Abstract要約: 検索システムは、現代のWebサービスの基盤となるインフラコンポーネントとなっている。
大規模産業環境では、検索は独立したサービス層としてますます展開されている。
本稿では,現実の制約下でのアーキテクチャ設計とデプロイメントのトレードオフに焦点を当てる。
- 参考スコア(独自算出の注目度): 5.990455845813845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval systems have become a foundational infrastructure component in modern Web services, supporting applications such as content recommendation, advertising targeting, and API discovery. In large-scale industrial environments, retrieval is increasingly deployed as an independent service layer, commonly referred to as Retrieval-as-a-Service (RaaS). This paper presents a system-oriented survey of industrial retrieval pipelines, focusing on architectural design and deployment trade-offs under real-world constraints. Unlike prior surveys that emphasize algorithmic developments, we analyze retrieval systems from an infrastructure perspective, highlighting how latency requirements, scalability constraints, and resource limitations shape system design in production environments. We introduce a unified RaaS pipeline abstraction that models retrieval as a multi-stage service, including high-efficiency candidate generation, embedding-based semantic matching, and resource-aware re-ranking. We further examine the integration of Large Language Model (LLM)-based retrieval mechanisms and analyze their impact on semantic performance, latency, and computational overhead. The results provide a system-level understanding of retrieval as a service-oriented infrastructure and offer practical guidelines for designing scalable, efficient, and QoS-aware retrieval architectures in large-scale Web systems.
- Abstract(参考訳): 検索システムは、コンテンツレコメンデーション、広告ターゲティング、API発見などのアプリケーションをサポートする、モダンなWebサービスの基盤となる基盤コンポーネントとなっている。
大規模産業環境では、検索は、Retrieval-as-a-Service(RaaS)と呼ばれる独立したサービス層として、ますます多くデプロイされている。
本稿では,実世界の制約下でのアーキテクチャ設計とデプロイメントのトレードオフに着目し,産業用検索パイプラインのシステム指向調査を行う。
アルゴリズム開発を強調する以前の調査とは異なり、我々はインフラの観点から検索システムを分析し、運用環境での待ち時間、スケーラビリティの制約、リソースの制限がいかにシステム設計を形作るかを強調します。
我々は、高効率な候補生成、埋め込みベースのセマンティックマッチング、リソース認識の再評価を含むマルチステージサービスとして検索をモデル化する統一的なRaaSパイプライン抽象化を導入する。
さらに,Large Language Model (LLM) に基づく検索機構の統合について検討し,セマンティックパフォーマンス,レイテンシ,計算オーバーヘッドへの影響を解析する。
その結果、サービス指向のインフラとしての検索のシステムレベルの理解を提供し、大規模Webシステムにおけるスケーラブルで効率的なQoS対応検索アーキテクチャを設計するための実践的なガイドラインを提供する。
関連論文リスト
- A Unified Structured Query Understanding Framework for Industrial Semantic Search [9.913119853395205]
大規模産業検索システムにおけるクエリ理解は、通常、異なるタスク固有のコンポーネントのカスケードとして実装される。
本研究では,これらの不均一な関数を単一小言語モデルに統合する統合型クエリ理解システムを提案し,展開する。
LinkedInのジョブ検索システム内で、大規模なオフラインおよびオンラインテストを通じてこのアプローチを検証する。
論文 参考訳(メタデータ) (2026-05-22T19:35:15Z) - FLAS: a combination of proactive and reactive auto-scaling architecture for distributed services [0.0]
本稿では、分散サービスのオートスケーラであるFLAS(Forecasted Load Auto-Scaling)を紹介する。
最適なスケーリングアクションを決定するために、状況に応じてプロアクティブとリアクティブのアプローチの利点を組み合わせる。
本稿では,コンテンツベースのパブリッシュ・サブスクライブ分散システムにおけるFLAS実装について述べる。
論文 参考訳(メタデータ) (2025-10-23T09:38:07Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [58.50944604905037]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - Adopting Large Language Models to Automated System Integration [0.0]
大規模言語モデル(LLM)を用いた自動サービス構成のためのソフトウェアアーキテクチャを提案する。
本稿では,サービス発見のための自然言語クエリに基づく新しいベンチマークを提案する。
ベンチマークを拡張して、完全なサービス構成シナリオを作成します。
論文 参考訳(メタデータ) (2025-04-11T12:42:01Z) - DNS-Rec: Data-aware Neural Architecture Search for Recommender Systems [79.76519917171261]
本稿では,SRS(Sequential Recommender Systems)における計算オーバーヘッドと資源非効率性について述べる。
本稿では, プルーニング法と高度なモデル設計を組み合わせた革新的な手法を提案する。
我々の主な貢献は、リコメンダシステム(DNS-Rec)のためのデータ対応ニューラルアーキテクチャ検索の開発である。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - Machine Learning-based Orchestration of Containers: A Taxonomy and
Future Directions [25.763692543206773]
既存のメインストリームのクラウドサービスプロバイダは、自動化されたアプリケーション管理のために、分散システムインフラストラクチャにコンテナテクノロジを広く採用しています。
コンテナ化されたアプリケーションのデプロイ、メンテナンス、自動スケーリング、ネットワークの自動化を扱うために、コンテナオーケストレーションが重要な研究課題として提案されている。
本稿では,既存の機械学習ベースのコンテナオーケストレーション手法について概観する。
論文 参考訳(メタデータ) (2021-06-24T02:55:35Z) - Performance Analysis of Deep Learning Workloads on a Composable System [0.08388591755871731]
構成可能なインフラストラクチャは、計算、ストレージ、アクセラレータ、ネットワークなどのリソースとして定義され、プール内で共有される。
本稿では、IBM Research AI Hardware Centerのパートナーが実装し、利用可能にしたエンタープライズ構成可能なインフラストラクチャの設計について説明します。
論文 参考訳(メタデータ) (2021-03-19T17:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。