論文の概要: Leveraging Code-Mixed Product Metadata and User Feedback for Personalized Recommendation on Daraz Bangladesh
- arxiv url: http://arxiv.org/abs/2606.16387v1
- Date: Mon, 15 Jun 2026 08:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.046144
- Title: Leveraging Code-Mixed Product Metadata and User Feedback for Personalized Recommendation on Daraz Bangladesh
- Title(参考訳): ダラズ・バングラデシュにおけるパーソナライズされたレコメンデーションのためのコードミス製品メタデータとユーザフィードバックの活用
- Authors: KM Fahim A Bari, Muhammad Abdullah Adnan, Nafis Sadeq,
- Abstract要約: バングラデシュのeコマースプラットフォームは、ベンガルのUnicode、英語、バングリッシュで書かれた何百万もの製品レビューをホストしている。
本稿では,ダラズ・バングラデシュの製品レビューに関する最初のベンチマークを行い,ユーザ毎の時間的離脱期間プロトコルに基づくモデルファミリを6つ評価する。
- 参考スコア(独自算出の注目度): 1.1166163065402113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangladeshi e-commerce platforms host millions of product reviews written in Bengali Unicode, English, and Banglish, where Bengali is phonetically transcribed in Latin script. However, the impact of code-mixed reviews on recommendation performance remains largely unexplored. We present the first such benchmarking on product reviews from Daraz Bangladesh, evaluating six model families under a per-user chronological leave-last-out protocol. To address the severe long-tail sparsity of the dataset, where 59.3% of users have exactly one interaction, we conduct a systematic k-core threshold ablation across five density configurations. The results reveal that Item-based Collaborative Filtering remains stable across settings, Implicit Matrix Factorization degrades sharply with decreasing density, and Explicit Matrix Factorization uniquely improves at higher thresholds. To characterize the impact of code-mixing on recommendation quality, we perform a language-stratified evaluation of content-based filtering using character n-gram TF-IDF profiles. The results provide empirical evidence that fragmentation of the Banglish vocabulary reduces NDCG@10 by 46.8% relative to Bengali-script users, a degradation traceable to transliteration inconsistency across surface forms. This work establishes a reproducible evaluation foundation for recommendation research in code-mixed, low-resource e-commerce settings. The code is publicly available at https://github.com/os-car-war-thy/daraz-recsys.
- Abstract(参考訳): バングラデシュのeコマースプラットフォームは、ベンガルのUnicode、英語、バングリッシュで書かれた何百万もの製品レビューをホストしている。
しかし、コード混在レビューがレコメンデーションパフォーマンスに与える影響は、まだ明らかになっていない。
本稿では,ダラズ・バングラデシュの製品レビューに関する最初のベンチマークを行い,ユーザ毎の時間的離脱期間プロトコルに基づくモデルファミリを6つ評価する。
59.3%のユーザが正確に1つのインタラクションを持つデータセットの厳しい長い尾間隔に対処するために、私たちは5つの密度構成に対して、体系的なkコア閾値アブレーションを実施しています。
その結果, 項目ベース協調フィルタリングは, 設定毎に安定であり, インプリシット行列因子化は, 密度の低下とともに著しく低下し, 明示行列因子化はより高い閾値で一意に改善することがわかった。
コードミキシングがレコメンデーション品質に与える影響を特徴付けるために,文字n-gram TF-IDFプロファイルを用いたコンテンツベースフィルタリングの言語階層化評価を行う。
その結果、バングリッシュ語彙の断片化がベンガル文字使用者に対してNDCG@10を46.8%減少させるという実証的な証拠が得られた。
本研究は、コード混在で低リソースのeコマース環境におけるレコメンデーション研究のための再現可能な評価基盤を確立する。
コードはhttps://github.com/os-car-war-thy/daraz-recsysで公開されている。
関連論文リスト
- BanglishRev: A Large-Scale Bangla-English and Code-mixed Dataset of Product Reviews in E-Commerce [2.5874041837241304]
本研究は、英語のベンガル語で書かれたレビューと、英語のアルファベットで書かれたバングリッシュ・ベンガル語を混ぜたレビューのために、これまでで最大のeコマース製品レビューデータセットを提示する。
このデータセットは、ベンガル人を対象にしたオンライン電子商取引プラットフォームで販売されている128万の製品から収集された320万のレーティング情報から144万件のレビューが作成されている。
レビューには、レビュー者からのレーティング、レビューが投稿された日、購入日、いいね!の件数、嫌悪感、売り手からの反応、レビューに関連する画像などを含む、レビューごとに関連するメタデータの広範囲が含まれている。
論文 参考訳(メタデータ) (2024-12-17T18:39:10Z) - BnSentMix: A Diverse Bengali-English Code-Mixed Dataset for Sentiment Analysis [0.08246494848934446]
我々はBnSentMixを紹介した。BnSentMixは、Facebook、YouTube、およびeコマースサイトからの4つの感情ラベルを持つ20,000のサンプルからなるコードミックスベンガルの感情分析データセットである。
総合的精度は69.8%、F1スコアは69.1%である。
論文 参考訳(メタデータ) (2024-08-16T18:30:22Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
Clineは、イングリッシュ・ヒンディー語(en-hi)のコード混合テキストに対する人間の受容性を含むデータセットである。
Clineは16,642の文で、合成生成されたコードミックステキストとオンラインソーシャルメディアから収集されたサンプルという2つのソースからのサンプルで構成されている。
我々の分析は、CMIやスイッチポイント数、Burstinesなどの一般的なコード混合メトリクスは、コード混合コーパスをフィルタリング/コンパイルするのに使われ、人間の受け入れ可能性との相関が低く、データセットの必要性の基盤となっていることを証明している。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。