論文の概要: SHIFT: Semantic Harmonization via Index-side Feature Transformation for Multilingual Information Retrieval
- arxiv url: http://arxiv.org/abs/2606.18801v1
- Date: Wed, 17 Jun 2026 08:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.063169
- Title: SHIFT: Semantic Harmonization via Index-side Feature Transformation for Multilingual Information Retrieval
- Title(参考訳): ShiFT:多言語情報検索のためのインデックス側特徴変換による意味調和
- Authors: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: MLIR(Multilingual Information Retrieval)は,グローバル情報アクセスにおいて重要な技術である。
最近の多言語密集検索モデルは、クエリと同じ言語で文書を強く好んでいることが多い。
そこで本研究では,インデクシング段階に適用可能なトレーニングフリー手法ShiFTを提案する。
- 参考スコア(独自算出の注目度): 26.186599286240362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid expansion of massive multilingual corpora, Multilingual Information Retrieval (MLIR) has emerged as a critical technology for global information access. MLIR enables users to retrieve semantically relevant documents from multilingual text collections using a single-language query. However, recent multilingual dense retrieval models often exhibit a strong preference for documents in the same language as the query. This leads to severe language bias, where top-ranked results are dominated by documents of specific languages, even when documents in other languages contain more semantically relevant information. To address this issue, we propose SHIFT, a training-free method applicable in the indexing stage. Specifically, SHIFT utilizes parallel translation pairs to estimate a relative language vector for each target language with respect to a source language. Subsequently, SHIFT corrects the language-specific offset by subtracting this relative language vector from document embeddings during indexing. Our comprehensive evaluation across four MLIR benchmarks and diverse dense retrieval models confirms that SHIFT can effectively mitigate language bias and enhance MLIR performance.
- Abstract(参考訳): 大規模多言語コーパスの急速な拡大に伴い,多言語情報検索 (MLIR) がグローバル情報アクセスの重要な技術として出現している。
MLIRは、ユーザが単一の言語クエリを使用して、多言語テキストコレクションから意味のあるドキュメントを検索することを可能にする。
しかし、近年の多言語密集検索モデルは、クエリと同じ言語で文書を強く好んでいることが多い。
これは、他の言語の文書がより意味論的に関連のある情報を含んでいる場合でも、トップランクの結果が特定の言語の文書に支配される、厳しい言語バイアスを引き起こす。
そこで本研究では,インデクシング段階に適用可能なトレーニングフリー手法ShiFTを提案する。
具体的には、Shiftは並列翻訳ペアを使用して、ソース言語に関する対象言語毎の相対言語ベクトルを推定する。
その後、Shiftは、インデックス作成中の文書埋め込みから、この相対言語ベクトルを減じることで、言語固有のオフセットを補正する。
4つのMLIRベンチマークと多種多様検索モデルによる総合評価により,ShiFTが言語バイアスを効果的に軽減し,MLIR性能を向上させることが確認された。
関連論文リスト
- MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal [26.186599286240362]
MLAIREは多言語対応情報検索評価プロトコルである。
クエリ言語嗜好から言語間セマンティック検索を分離する。
標準メトリクスが明らかに異なる振る舞いを示す。
論文 参考訳(メタデータ) (2026-05-08T05:10:05Z) - Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information Retrieval [0.19116784879310025]
マルチ言語大言語モデル (mLLMs) は、セマンティック拡張から同義語や関連語によるクエリ拡張から擬文書生成へ移行した。
本研究は,近年のmLLMと,言語間検索性能を向上する要因を特定するために,複数の生成的拡張戦略にまたがる微調整変種を評価した。
論文 参考訳(メタデータ) (2025-11-24T17:18:25Z) - VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Machine-Created Universal Language for Cross-lingual Transfer [73.44138687502294]
代替中間言語として,MUL(Machine-created Universal Language)を提案する。
MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。
MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
論文 参考訳(メタデータ) (2023-05-22T14:41:09Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。