論文の概要: Bidirectional Small-Granularity Search between Code and Text
- arxiv url: http://arxiv.org/abs/2606.07519v1
- Date: Sun, 19 Apr 2026 03:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.666623
- Title: Bidirectional Small-Granularity Search between Code and Text
- Title(参考訳): コードとテキスト間の双方向小粒度探索
- Authors: Marco A. Valenzuela-Escárcega, Enrique Noriega-Atala, Gus Hahn-Powell, Clayton T. Morrison, Mihai Surdeanu,
- Abstract要約: コードとテキスト間の双方向小粒度探索という新しいタスクを導入する。
このタスクは、科学出版物におけるテキストと対応するコードセグメントの直接的なリンクを確立する。
提案手法はドメイン内で良い結果が得られることを示し,OODを奨励する。
- 参考スコア(独自算出の注目度): 16.514496314351263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the novel task of bidirectional small-granularity search between code and text, where the queries are small snippets of text or code and the results are also small fragments of the opposite modality, i.e., code or text. This task establishes direct links between text in scientific publications and corresponding code segments, in support of better and faster understanding of scientific methods. We introduce a large dataset for the proposed task that includes a training partition with textual descriptions of code generated automatically using GPT-4, and three testing partitions, one in-domain and two out-of-domain (OOD) that contain manually-annotated data as well as material from other domains. We also propose a modular approach to address this task. Our approach shares an encoder across four different subtasks that learn start/end of answer spans in both directions. We show that our method achieves good results in-domain, and encouraging results OOD. This suggests that addressing this task with automatically-generated data is possible, but there is exciting future work to be done.
- Abstract(参考訳): テキストとテキスト間の双方向の小さな粒度探索という新しいタスクを導入し、クエリはテキストやコードの小さなスニペットであり、結果もまた反対のモダリティ、すなわちコードやテキストの小さな断片である。
このタスクは、科学出版物のテキストとそれに対応するコードセグメントの直接的なリンクを確立し、科学的手法のより高速な理解を支援する。
本稿では,GPT-4を用いて自動生成されるコードのテキスト記述を伴うトレーニングパーティションと,手作業による注釈付きデータと,他のドメインからの資料を含む3つのテストパーティション(内ドメインと外ドメイン(OOD))を紹介する。
この課題に対処するためのモジュラーアプローチも提案する。
このアプローチは、4つのサブタスクにまたがるエンコーダを共有し、両方の方向に回答の開始/終了を学習する。
提案手法はドメイン内で良い結果が得られることを示し,OODを奨励する。
これは、このタスクに自動生成されたデータで対処できることを示唆している。
関連論文リスト
- PARNESS: A Paper Harness for End-to-End Automated Scientific Research with Dynamic Workflows, Full-Text Indexing, and Cross-Run Knowledge Accumulation [20.481096196724398]
最近の自律型研究システムでは、LSMエージェントは実験を思いつき、実行し、論文を書くことができる。
この剛性には5つの根源がある、と我々は主張する。
提案するPARNESSは,4つの設計手順に基づいて構築されたオープンソースフレームワークである。
論文 参考訳(メタデータ) (2026-05-06T04:37:02Z) - M-DAIGT: A Shared Task on Multi-Domain Detection of AI-Generated Text [3.91352287996586]
本稿では,M-DAIGT(Multi-Domain Detection of AI-Generated Text)共有タスクを提案する。
M-DAIGTは、ニュース記事検出(NAD)とアカデミック記述検出(AWD)の2つのバイナリ分類サブタスクからなる。
合計46のチームが共有タスクに登録され、4つのチームが最終結果を提出した。
論文 参考訳(メタデータ) (2025-11-14T14:26:31Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。