論文の概要: Learn to Match: Two-Sided Matching with Temporally Extended Feedback
- arxiv url: http://arxiv.org/abs/2606.06744v2
- Date: Mon, 08 Jun 2026 23:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.623534
- Title: Learn to Match: Two-Sided Matching with Temporally Extended Feedback
- Title(参考訳): マッチングを学ぶ: 一時的に拡張されたフィードバックによる双方向マッチング
- Authors: Haijing Zong, Yancheng Liang, Boyang Zhou, Natasha Jaques,
- Abstract要約: 両面のマッチング市場は、インタビュー、繰り返しのインタラクション、学習、分離を通じて、時間とともに広がる情報を含むことが多い。
両面マッチングを部分的に観測可能なマルコフゲームとして定式化して,コストのかかる事前チェック,ノイズの多い後処理,潜伏プロファイルの進化,内因性継続や溶解といった,時間的に拡張されたフィードバックを持つフレームワークを提案する。
動的マッチング市場のためのマルチエージェント強化学習ベンチマークであるLearn2Matchで、このフレームワークをインスタンス化する。
- 参考スコア(独自算出の注目度): 9.65189069520702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two-sided matching markets often involve information that unfolds over time through interviews, repeated interaction, learning, and separation. Existing matching models typically reduce this process to immediate sub-Gaussian feedback about fixed preferences, missing settings where payoff-relevant information is revealed gradually and changes future matching decisions. We introduce a framework with temporally extended feedback, that formulates two-sided matching as a partially observable Markov game with costly pre-match screening, noisy post-match observations, evolving latent profiles, and endogenous continuation or dissolution. We instantiate this framework in Learn2Match, a multi-agent reinforcement-learning benchmark for dynamic matching markets. Learn2Match supports decentralized decision making over whom to interview, whom to match with, and when to dissolve a match, while evaluating policies using regret, social welfare, and an information-friction loss that measures the welfare gap caused by incomplete revelation of latent preferences. We find that independent PPO achieves higher cumulative social welfare and lower cumulative regret than the bandit-style CA-ETC baseline under temporally extended feedback, demonstrating the promise of MARL for dynamic matching markets. However, PPO still incurs higher information-friction loss, revealing that end-to-end MARL does not yet provide the coordinated exploration structure of matching-bandit methods. These results position Learn2Match as a benchmark for developing the next generation of matching-market algorithms: methods that are adaptive like RL agents, statistically disciplined like bandit algorithms, and structurally aware like stable-matching mechanisms. Please refer to https://sites.google.com/view/learn-to-match/home for the official website and the code link.
- Abstract(参考訳): 両面のマッチング市場は、インタビュー、繰り返しのインタラクション、学習、分離を通じて、時間とともに広がる情報を含むことが多い。
既存のマッチングモデルでは、このプロセスを、固定された嗜好に関する即時的なサブガウスフィードバック、ペイオフ関連情報が徐々に明らかにされるような設定の欠如、将来的なマッチング決定の変更に還元するのが一般的である。
両面マッチングを部分的に観測可能なマルコフゲームとして定式化して,コストのかかる事前チェック,ノイズの多いポストマッチ観察,潜伏プロファイルの進化,内因性継続あるいは溶解といった,時間的に拡張されたフィードバックを持つフレームワークを提案する。
動的マッチング市場のためのマルチエージェント強化学習ベンチマークであるLearn2Matchで、このフレームワークをインスタンス化する。
Learn2Matchは、誰にインタビューし、誰と対戦し、いつマッチを解消するかを判断する分散型意思決定を支援し、後悔、社会的福祉、および潜伏した嗜好の不完全啓発による福祉ギャップを測定する情報フリクションの損失を評価しながら、マッチを解消する。
動的マッチング市場におけるMARLの約束を実証し, 独立したPPOは, 時間的フィードバックの下で, バンディットスタイルのCA-ETCベースラインよりも高い累積的社会福祉と低い累積的後悔を達成できることを見出した。
しかしながら、PPOは高い情報フリクション損失をもたらしており、MARLがマッチングバンド方式の協調的な探索構造を提供していないことが明らかになった。
これらの結果から、Learner2Matchは、RLエージェントのような適応性のある手法、バンディットアルゴリズムのような統計的に訓練された手法、安定したマッチング機構のように構造的に認識される手法といった、次世代のマッチング市場アルゴリズムを開発するためのベンチマークとして位置づけられた。
公式ウェブサイトとコードリンクについてはhttps://sites.google.com/view/learn-to-match/homeを参照してください。
関連論文リスト
- T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド学習において依然として重要な課題である。
動的環境下でのOOD検出を強化するための新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-19T04:35:38Z) - Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion [0.0]
本稿では3つの重要な革新を伴う統合マルチモーダルモーダルモーメント検索システムを提案する。
まず、ケース化された二重埋め込みパイプラインがBEIT-3とSigLIPを組み合わせて広帯域検索を行う。
第二に、時間的認識のスコアリング機構は、ビームサーチによる大きな時間的ギャップに指数的減衰ペナルティを適用している。
第3に、エージェント誘導クエリ分解(GPT-4o)は、あいまいなクエリを自動的に解釈する。
論文 参考訳(メタデータ) (2025-12-15T02:50:43Z) - Probably Correct Optimal Stable Matching for Two-Sided Markets Under Uncertainty [5.250288418639076]
市場左側の好ましくない条件下での安定婚姻モデルの学習課題について考察する。
我々の目的は、左サイド最適である安定したマッチングを素早く識別することであり、バンドイットフィードバックによる純粋な探索問題である。
論文 参考訳(メタデータ) (2025-01-06T13:59:57Z) - Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval [49.07523607316323]
実世界のシナリオでは、大規模なマルチモーダルデータは、必然的にPMP(Partially Mismatched Pairs)を含むインターネットから収集される。
従来の取り組みでは、PMPの貢献度を下げるためのソフトな対応を推定することで、この問題を軽減する傾向があった。
我々は、ミスマッチペアの再マッチを学習する最適輸送(OT)に基づく一般的なフレームワークであるL2RMを提案する。
論文 参考訳(メタデータ) (2024-03-08T07:09:30Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Dynamic Matching Bandit For Two-Sided Online Markets [13.185106969638877]
両面のオンラインマッチングプラットフォームは、様々な市場で採用されている。
現在の市場でのエージェントの好みは通常暗黙的で不明である。
本稿では,この動的オンラインマッチング問題に対して,文脈情報を用いた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-07T18:28:20Z) - Learning Equilibria in Matching Markets from Bandit Feedback [139.29934476625488]
不確実性の下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発する。
私たちの研究は、大規模なデータ駆動の市場において、いつ、どのように安定したマッチングが生じるかを明らかにするための第一歩を踏み出します。
論文 参考訳(メタデータ) (2021-08-19T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。