論文の概要: Learning to Place Guards by Reinforcement: A Geo-Free Neural Policy for the Vertex-Guard Art Gallery Problem
- arxiv url: http://arxiv.org/abs/2606.21604v1
- Date: Fri, 19 Jun 2026 17:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:37:50.094198
- Title: Learning to Place Guards by Reinforcement: A Geo-Free Neural Policy for the Vertex-Guard Art Gallery Problem
- Title(参考訳): 強化による衛兵の配置学習 : 頂点ガードアートギャラリー問題に対するジオフリーニューラルポリシー
- Authors: Domagoj Ševerdija, Jurica Maltar, Nathan Chappel, Domagoj Matijević,
- Abstract要約: ポインタネットワークポリシーは、私たちがジオフリー推論と呼ぶ制約の下で、自身のロールアウトに対してカバレッジアウェアの報酬から訓練される。
この政策は、経済的に警備員を配置するが、訓練範囲をはるかに超える未発見のポリゴンの尾を残している。
我々はこれを、強化訓練された表現が既に実現可能性に必要な幾何学を符号化している証拠として読み取った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural combinatorial optimization (NCO) has shown that policies trained by reinforcement can construct strong solutions to NP-hard problems directly from raw instances. What such a policy actually learns, as opposed to what its decoder expresses, remains much less clear. We study this distinction on the vertex-guard Art Gallery Problem, the NP-hard task of choosing polygon vertices from which to observe an entire region. A pointer-network policy is trained from a coverage-aware reward over its own rollouts under the constraint we call geo-free inference: at test time it sees only vertex coordinates, with no visibility computation and no geometric oracle. The policy places guards economically but leaves a tail of under-covered polygons that widens far beyond the training range. To locate the cause, we freeze the trained encoder and read its embeddings with a small single-shot classifier, still geo-free at inference. The classifier closes most of the feasibility gap, in and out of distribution and at up to roughly five times the training range, cutting under-covered polygons by about an order of magnitude at an explicitly reported cost in guard count. We read this as evidence that the reinforcement-trained representation already encodes the geometry required for feasibility, and that residual failures reflect decoder calibration rather than missing knowledge. Probing a frozen encoder thus offers a practical way to ask what a neural combinatorial solver has internalized.
- Abstract(参考訳): ニューラル組合せ最適化(NCO)は、強化によって訓練されたポリシーは、生のインスタンスから直接NPハード問題に対する強力な解決策を構築することができることを示した。
このようなポリシーが実際に何を学ぶかは、デコーダの表現とは対照的に、明らかになっていない。
本研究は, 頂点ガードアートギャラリー問題(NP-hard task)において, 多角形頂点を選択して全領域を観察する課題である。
ポインタ-ネットワークポリシーは、私たちがジオフリー推論と呼ぶ制約の下で、自身のロールアウトに対してカバレッジ対応の報酬からトレーニングされます。
この政策は、経済的に警備員を配置するが、訓練範囲をはるかに超える未発見のポリゴンの尾を残している。
原因を特定するため、訓練されたエンコーダを凍結し、小さな単発分類器で埋め込みを読み込むが、推論時にはまだジオフリーである。
分類器は、分布の内外およびトレーニング範囲の最大5倍のフィジビリティギャップの大部分を閉じ、明らかに報告されたガードカウントのコストで、未発見のポリゴンを約1桁切断する。
このことは、強化訓練された表現が実現に必要となる幾何をすでにエンコードしており、残余の失敗は、知識の欠如よりもデコーダの校正を反映している、という証拠として読まれている。
これにより、凍結エンコーダを探索することで、神経結合型解法が内部化しているものを尋ねる実用的な方法が提供される。
関連論文リスト
- Geometry-Aware Reinforcement Learning for 2D Irregular Nesting [0.0]
強化学習は、このボトルネックを克服するために一意に位置づけられている、と私たちは主張する。
最適化ポリシーを幾何学的認識型ニューラルエンコーダと組み合わせることで、エージェントはリッチな幾何学的先行点を自動的に発見することができる。
訓練されたエージェント領域利用性能は,最先端の解法であるSparrowと高い競争力を持つことを示す。
論文 参考訳(メタデータ) (2026-06-09T09:11:36Z) - Internalizing Geometric Law: Learning from Solver Residuals for Precision-Critical Generation [2.459492253868525]
自然言語からのオープンエンド幾何合成について検討する。
私たちは、宣言的制約を微分可能な損失にコンパイルするプログラマブルな幾何学的DSLであるPyGeoXをリリースします。
本稿では,SAR(Saturating Additive Rewards)を提案する。
論文 参考訳(メタデータ) (2026-06-08T09:44:31Z) - Online learning with noisy side observations [23.85024184793822]
本稿では,学習者自身の損失に加えて,ノイズの多いフィードバックを観察するオンライン学習問題に対して,新たな部分可観測性モデルを提案する。
この構造を重み付き有向グラフで表現し、エッジ重みは接続ノードが共有するフィードバックの品質と関係している。
我々の主な貢献は、$T$ラウンド後の$widetildeO(sqrt* T)$の後悔を保証する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-04-15T11:27:58Z) - GridPull: Towards Scalability in Learning Implicit Representations from
3D Point Clouds [60.27217859189727]
大規模クラウドから暗黙の表現を学習する効率を改善するため,GridPullを提案する。
我々の斬新さは、ニューラルネットワークを使わずにグリッド上に定義された離散距離場の高速な推論にある。
我々は、一様格子を用いて高速グリッド探索を行い、サンプルクエリをローカライズし、木構造内の表面点を整理し、表面への距離の計算を高速化する。
論文 参考訳(メタデータ) (2023-08-25T04:52:52Z) - Learning Neural Volumetric Field for Point Cloud Geometry Compression [13.691147541041804]
我々は、ニューラルネットワークを学習することで、与えられた点雲の幾何学をコーディングすることを提案する。
空間全体を小さな立方体に分割し,各空でない立方体をニューラルネットワークと入力潜時符号で表現する。
ネットワークは、空間的および時間的冗長性を利用するために、1つのフレームまたは複数のフレームで全ての立方体間で共有される。
論文 参考訳(メタデータ) (2022-12-11T19:55:24Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。