論文の概要: SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers
- arxiv url: http://arxiv.org/abs/2606.10375v1
- Date: Tue, 09 Jun 2026 03:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.988063
- Title: SIDInspector: A Mapping-First Diagnostic Resource for Semantic-ID Tokenizers
- Title(参考訳): SIDインスペクタ:セマンティックIDトケナイザのためのマッピングファースト診断リソース
- Authors: Jiandong Ding, Heng Chang, Huijie Qin, Tianying Liu,
- Abstract要約: Toolは、sidトークンライザアーティファクトのためのマッピングファーストの診断リソースである。
ツールレポート ダウンストリームのリーダーボードスコアの前に 検査可能なアーティファクトプロファイル。
- 参考スコア(独自算出の注目度): 11.601609455691644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic-ID (\sid) tokenizers are increasingly reused as standalone artifacts in generative recommendation: an exported item-to-code mapping becomes the address space that a later sequence generator must use. These mappings rarely come with a common inspection interface, so coverage gaps, full-code aliasing, behaviorally weak prefixes, tail compression, and prefix fan-out are often found only after downstream training. We present \tool, a mapping-first diagnostic resource for \sid tokenizer artifacts. \tool defines a small adapter contract over item mappings, metadata, interactions, and optional generator traces; validates the contract; and reports mapping-level probes for utilization, aliasing, neighborhood alignment, popularity allocation, and structural cost, with hooks for temporal churn and generator traces. \tool reports inspectable artifact profiles before downstream leaderboard scores. The released resource covers four tokenizer artifact lines: a same-item GRID/RQ-KMeans-style and ReSID/GAOQ contrast on 23,742 Musical items, plus released LETTER and LC-Rec item-index artifacts. In the Musical contrast, the GRID-style feature-text export has 3,749 unique full codes and a 0.977 full-code aliasing rate, while ReSID/GAOQ is aliasing-free in its exported mapping. Yet the strongest prefix--co-occurrence alignment comes from a deterministic category-prefix control, not from either learned export row (0.447 versus 0.154 and 0.055--0.080), showing that addressability and behaviorally meaningful prefixes should be inspected separately. Cross-domain, fixed-reranker, and mechanism-probe checks support the same diagnostic direction: prefix alignment is a candidate-exposure signal, while final ranking quality remains a downstream model question.
- Abstract(参考訳): セマンティックID(\sid)トークンライザは、生成レコメンデーションにおいてスタンドアローンのアーティファクトとして再利用される。
これらのマッピングに共通する検査インターフェースはめったにないため、カバーギャップ、全コードエイリアス、行動的に弱いプレフィックス、テール圧縮、プレフィックスファンアウトは、下流トレーニング後にのみ見られることが多い。
本稿では, \sid tokenizer アーティファクトのマップファースト診断リソースである \tool を紹介する。
\toolは、アイテムマッピング、メタデータ、インタラクション、オプションのジェネレータトレースに対する小さなアダプタコントラクトを定義し、契約を検証するとともに、時間的チャーンとジェネレータトレースのためのフックを備えた、利用、エイリアシング、近隣アライメント、人気アロケーション、構造的コストのためのマッピングレベルのプローブを報告している。
\toolは、ダウンストリームのリーダーボードスコアの前に検査可能なアーティファクトプロファイルをレポートする。
リリースされたリソースには4つのトークンライザのアーティファクトラインが含まれている: GRID/RQ-KMeansスタイルと23,742のミュージックアイテムに対するReSID/GAOQコントラストに加えて、LETTERとLC-Recアイテムインデクスアーティファクトである。
Musicalとは対照的に、GRIDスタイルの機能テキストエクスポートは3,749のユニークなフルコードと0.977のフルコードエイリアスレートを持ち、ReSID/GAOQはエクスポートされたマッピングではエイリアスフリーである。
しかし、最強のプレフィックス-共起アライメントは、学習されたエクスポート行 (0.447 vs 0.154 and 0.055-0.080) からではなく、決定論的カテゴリー-プレフィックス制御から来ている。
クロスドメイン、固定リランサ、メカニズムプローブチェックは、同じ診断方向をサポートする: プレフィックスアライメントは、候補露光信号であり、最終的なランキング品質は、下流モデルの問題のままである。
関連論文リスト
- View-Aware Semantic Alignment for Aerial-Ground Person Re-Identification [43.69772242567068]
ViSAは、ビュー間のセマンティック一貫性を実現するビュー対応フレームワークである。
ViSAは、挑戦的なCARGOクロスビュープロトコルにおいて、注目すべき10.06%のmAP改善とともに、一貫して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-05-18T10:32:26Z) - Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective [14.332200648147863]
DIG (textbfDiscrimination textbfIs textbfGeneration) を提案する。
3つの公開ベンチマークと2つの産業データセットの実験は、DIGが同時にランク付け、検索、統合された検索レベルの品質を改善していることを示している。
論文 参考訳(メタデータ) (2026-05-14T13:59:29Z) - LARGER: Lexically Anchored Repository Graph Exploration and Retrieval [9.90137784523552]
リポジトリレベルのコーディングエージェントは、まずタスクに関連するファイルとシンボルをローカライズする必要がある。
既存のアプローチでは、エージェントのインタラクションループを断片化する別々のグラフツールやステージが必要になることが多い。
LARGER(Lexically anchored active-set search framework)は、語彙マッチングから始まり、それらをグラフアンカーにアライメントし、エージェントの既存のサーチループ内で信頼フィルタリングされた局所展開を実行する。
論文 参考訳(メタデータ) (2026-05-08T05:03:46Z) - CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation [6.439016735163573]
生成レコメンデーションは、各項目をセマンティックID(SID)のシーケンスにマッピングし、検索を自己回帰トークン生成として再キャストする。
CAPSIDは硬質残留量子化をカプセルルーティングに置き換える。
Amazon Beauty, Sports, Toys, and a 35M-item industrial catalogでは、CAPSID+SEMANTICBPEはReSIDよりも平均して10.6%改善している。
論文 参考訳(メタデータ) (2026-05-06T16:33:13Z) - AIFIND: Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detection [23.80607349547519]
AIFIND, Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detectionを提案する。
セマンティックアンカーを使用して、漸進的な学習を安定化します。
論文 参考訳(メタデータ) (2026-04-17T16:17:12Z) - RAID: Retrieval-Augmented Anomaly Detection [67.48358323718817]
RAIDは、ノイズ耐性の異常検出と局所化のために設計された検索拡張UADフレームワークである。
RAIDは階層ベクトルデータベースからクラス、セマンティック、インスタンスレベルの表現を取得する。
RAIDはMVTec、VisA、MPDD、BTADベンチマークのフルショット、少数ショット、マルチデータセット設定で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-23T08:54:27Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。