LLM/NLP最新論文 - 2026-04-19

RationalRewardsが報酬モデルに明示的推論を導入し99 upvotesを獲得。P(y|x)からP(y)への事前学習空間RL最適化、Target Policy Optimizationによるポリシー更新の分離など、強化学習の新パラダイムが集中的に登場した。

注目度

注目論文

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

著者: Haozhe Wang, Cong Wei, Weiming Ren et al.

視覚生成の報酬モデルは従来、豊かな人間の判断を単一の説明なしスコアに圧縮しており、選好の背後にある推論を破棄していた。RationalRewardsは報酬モデルに明示的な多次元批評を生成させてからスコアリングさせることで、受動的な評価器を能動的な推論エージェントに変換する（99 upvotes）。

新規性: 報酬モデルに「スコアの前に推論を出力させる」というアプローチ自体はLLM評価で先行例があるが、視覚生成の報酬モデルに多次元の構造化された批評生成を組み込み、学習時と推論時の両方でスケーリングすることを実証した点が新しい。推論の明示化が報酬信号の質を根本的に改善することを示した。

手法: 報酬モデルに対し、美的品質・テキスト整合性・構図など複数の評価軸で明示的な批評テキストを生成させた上でスコアを出力させる。この推論付き報酬を学習時のフィードバックと推論時のリランキングの両方に活用し、視覚生成の品質を大幅に向上させた。

Hugging Face Daily Papers

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

著者: Yuqiao Tan, Minzheng Wang, Bo Liu et al.

検証可能な報酬によるRL（RLVR）は条件付き分布P(y|x)を最適化することでLLMの推論を強化するが、その可能性はベースモデルの既存出力分布に本質的に制約されている。本研究は事前学習空間の周辺分布P(y)を最適化することで、この制約を突破する新アプローチを提案する（25 upvotes）。

新規性: RLVRがP(y|x)の最適化に留まるという構造的限界を初めて明確に定式化し、事前学習空間のP(y)を直接最適化する道を開いた。これにより、ベースモデルの出力分布の支持集合を超えた推論能力の獲得が理論的に可能になる。

手法: 標準的なRLVRがプロンプト条件付きの応答分布のみを調整するのに対し、事前学習目的関数と統合した形でP(y)を最適化する手法を設計。ベースモデルが元々生成しない推論パターンの獲得を可能にし、既存のRLVR手法を上回る推論性能を実証した。

Hugging Face Daily Papers

Target Policy Optimization

著者: Jean Kaddour

RLにおいて、プロンプトに対するグループ補完をサンプリング・スコアリングした後、「どの補完に確率質量を与えるか」と「パラメータをどう動かすか」という2つの問いが生じる。標準的なポリシー勾配法は両者を同時に処理するため、更新がオーバーシュートまたは不足しやすい。Target Policy Optimizationはこの2つを明示的に分離する（22 upvotes）。

新規性: ポリシー最適化における「目標分布の決定」と「パラメータ更新」を明確に分離するフレームワークを提案。これにより更新の安定性と精度が向上し、既存のPPO/GRPOベースの手法が抱えるオーバーシュート問題を構造的に解決する。

手法: まず報酬に基づいて目標ポリシー分布（どの補完が確率質量を得るべきか）を決定し、次にその目標分布に向けてパラメータを更新する2段階プロセスを採用。目標決定と更新の分離により、各ステップの制御が容易になり、学習の安定性が大幅に改善された。

Hugging Face Daily Papers

分野別の動向

強化学習・ポリシー最適化

本日の論文群では強化学習の新手法が集中的に登場した。RationalRewards、P(y)最適化、Target Policy Optimizationに加え、Value Gradient Flow（VGF）は行動正則化RLを最適輸送問題として再定式化し、D4RLとLLM RLタスクの両方でSOTAを達成。CW-GRPO（arXiv cs.LG）はLLM検索エージェントの学習にラウンドごとの貢献度スコアを導入し、標準GRPOを5-6%上回った。RAD-2（25 upvotes）は拡散ベースのモーションプランナーにGenerator-DiscriminatorフレームワークでRLを適用し、自動運転における確率的不安定性を解消した。Self-Distillation Zero（7 upvotes）は二値報酬を自己修正で密な監督に変換する蒸留法を提案している。

エージェント・メモリ・スキル

Memory Transfer Learning（27 upvotes）がコーディングエージェントのメモリをドメイン横断で転移するメカニズムを分析し、共有インフラ基盤（ランタイム環境・プログラミング言語）を活用した転移が有効であることを実証。SkVM（8 upvotes）はエージェントのスキルをコンパイルして効率的に実行する手法を提示し、Don’t Retrieve, Navigate（4 upvotes）はRAGにおいてLLMをコーパス構造のナビゲーターとして機能させるCorpus Navigator Agentを提案した。RadAgent（5 upvotes）は胸部CTの段階的解釈にツール使用AIエージェントを適用し、医療画像領域でのエージェント展開が進んでいる。

MoE・モデルアーキテクチャ

Counterfactual Routing（CoR、arXiv cs.LG）はMoEモデルのハルシネーション問題に対し、静的Top-kルーティングで「休眠」する専門家エキスパートを仮想除去分析で覚醒させる手法を提案。学習不要で推論バジェットを増やさずにTruthfulQAで平均3.1%の事実性改善を達成した。Three-Phase Transformer（3 upvotes）は隠れベクトルをN個の循環チャネルに分割する構造的事前知識を提案。Calibrate-Then-Delegate（arXiv cs.LG）はLLM安全性モニタリングをモデルカスケードで定式化し、委任価値プローブにより予算制約下での最適なエスカレーションを実現した。

3D生成・マルチモーダル

HY-World 2.0（80 upvotes）がテキスト・画像・動画からの3Dワールド生成フレームワークを発表し、マルチモーダル入力からの3D表現生成の統合を推進。GlobalSplat（18 upvotes）はグローバルシーントークンによるフィードフォワード3D Gaussian Splattingを提案し、HiVLA（16 upvotes）は視覚接地型の階層的ロボット操作システムでVLAモデルの推論能力劣化問題を解決した。Switch-KD（8 upvotes）はVLMの知識蒸留に視覚スイッチ機構を導入し、リソース制約環境での展開を改善している。

評価・ベンチマーク

ROSE（11 upvotes）はNL2SQL評価の新指標を提案し、広く使われるExecution Accuracy（EX）が構文バリエーションに敏感で信頼性が低下している問題に対処。GUI-Perturbed（arXiv cs.LG）はGUI接地モデルの堅牢性を制御的摂動で評価し、空間推論指示で27-56%の精度低下を発見。What do Language Models Learn and When（3 upvotes）は事前学習中のスキル獲得過程を分析する「暗黙的カリキュラム仮説」を提示し、スケーリング則が捉えない能力獲得の順序を解明した。