MARBLEが拡散モデルRLの複数報酬同時最適化を提案し34 upvotes。Nonsense Helpsはナンセンストークンによるプロンプト摂動でGRPOのゼロアドバンテージ問題を解決。World Action Modelsの適応的行動実行やマルチアスペクト報酬バランスなど、RL微調整の精緻化が多方面で進展した。
注目論文
When to Trust Imagination: Adaptive Action Execution for World Action Models
著者: Rui Wang, Yue Zhang, Jiehong Lin et al.
World Action Models(WAM)は将来の視覚観測と行動を同時予測するロボット操作の有望なパラダイムだが、現行手法はモデル推論後に固定数の予測行動を実行するため、予測精度の低下時にロボットが盲目状態に陥る。本研究は予測の信頼性に応じて実行行動数を適応的に決定する手法を提案した(36 upvotes)。
新規性: WAMにおける「何ステップ分の予測を信頼して実行するか」という未解決の設計選択に対し、適応的な実行判断機構を導入した点が重要である。固定長実行の脆弱性を解消し、予測品質に応じた柔軟な制御を実現している。
手法: モデル推論時に各予測ステップの信頼度を評価し、信頼度が閾値を下回った時点で再推論を行う適応的実行戦略を採用する。不確実性の高い予測を盲目的に実行するリスクを回避しつつ、高信頼な予測は効率的にバッチ実行する。
MARBLE: Multi-Aspect Reward Balance for Diffusion RL
著者: Canyu Zhao, Hao Chen, Yunze Tong et al.
強化学習による拡散モデルの微調整は人間の嗜好とのアライメントに有効だが、画像評価は本質的に多次元的であり、複数の評価基準を同時に最適化する必要がある。既存手法は複数報酬の扱いが不十分だった。本研究は多面的報酬のバランス最適化フレームワークMARBLEを提案した(34 upvotes)。
新規性: 拡散モデルのRL微調整において、複数の評価基準(美的品質、テキスト忠実性、構図等)を同時に最適化する際の報酬バランス問題を定式化し、体系的な解決策を提示した点が画期的である。
手法: 複数の報酬信号を統合する際に、各報酬次元の寄与を動的にバランスさせる機構を導入する。単純な重み付き和ではなく、報酬間の相互作用やトレードオフを考慮した最適化戦略により、多面的な品質向上を同時に達成する。
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
著者: Langlin Huang, Chengsong Huang, Jinyuan Li et al.
GRPOは検証可能な報酬による強化学習でLLMの推論能力を向上させてきたが、複雑なタスクではサンプル全体の報酬が均一になる「ゼロアドバンテージ問題」が頻発し、学習信号が消失する。本研究はプロンプト空間への摂動(ナンセンストークンの挿入等)で探索範囲を拡大する手法を提案した(28 upvotes)。
新規性: 意味的に無意味なトークンをプロンプトに付加するという直感に反するアプローチが、推論の多様性を高めゼロアドバンテージ問題を緩和するという発見が独自である。プロンプト空間の摂動が応答空間の探索を拡大するメカニズムを解明している。
手法: GRPOの学習時にプロンプトにナンセンストークンを付加し、応答のサンプリング多様性を人為的に増加させる。これによりゼロアドバンテージ状態を回避し、有効な学習信号を維持する。摂動の強度や種類を制御することで、探索と活用のバランスを調整する。
Audio-Visual Intelligence in Large Foundation Models
著者: You Qin, Kai Liu, Shengqiong Wu et al.
音声・視覚統合知能(AVI)は聴覚と視覚のモダリティを橋渡しし、マルチモーダルな現実世界での知覚・生成・対話を可能にするAIの中心的フロンティアとなっている。大規模基盤モデル時代における音声と視覚の統合モデリングを体系的にサーベイした(25 upvotes)。
新規性: 大規模基盤モデルの文脈における音声・視覚統合を包括的に整理し、知覚・生成・対話の各段階での統合手法を体系化した点が重要である。個別モダリティの研究が進む中での統合的視座を提供している。
手法: 音声・視覚の統合モデリングに関する既存研究を、基盤モデルアーキテクチャ、事前学習戦略、下流タスクへの適用の観点から分類・分析する。マルチモーダル対話、音声駆動視覚生成、視覚駆動音声理解などのタスク群を横断的に評価している。
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
著者: Tao Liu, Hao Yan, Mengting Chen et al.
ステップ蒸留は拡散モデルの高速化における主要技術となり、Distribution Matching Distillation(DMD)とConsistency Distillationが代表的パラダイムである。本研究は連続時間の分布マッチングにより、少ステップ蒸留の品質を向上させる手法を提案した(24 upvotes)。
新規性: DMDとConsistency Distillationの利点を統合し、連続時間での分布マッチングという新たな定式化を導入した。離散ステップに依存しない蒸留により、少ステップ生成の品質と柔軟性を同時に改善している。
手法: PF-ODE軌跡全体にわたる連続時間の分布マッチングを定式化し、自己一貫性制約と分布マッチングを統合的に最適化する。離散的なステップ数に縛られない蒸留プロセスにより、任意のステップ数での高品質生成を可能にしている。
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
著者: Cheng Qian, Hyeonjeong Ha, Jiayu Liu et al.
LLMは推論・環境対話タスクで高い性能を示すが、創造的問題解決能力は未探索である。本研究は「創造的道具使用」の観点から、利用可能なオブジェクトをアフォーダンスに基づいて本来の用途以外に転用する能力を評価するベンチマークを提案した(20 upvotes)。
新規性: エージェントの創造性を「道具の転用」という具体的かつ評価可能なタスクとして定式化した点が独自である。従来の推論ベンチマークでは測定できなかった創造的問題解決能力を定量的に評価可能にしている。
手法: アフォーダンス理論に基づき、オブジェクトの機能的特性を認識し本来の用途以外に転用するタスクを設計する。エージェントが利用可能なオブジェクトの物理的・機能的特性を理解し、制約のある状況で創造的な解決策を生成できるかを評価する。
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes
著者: Jingjie Ning, Xiaochuan Li, Ji Zeng et al.
自動研究を外部測定に駆動される閉じた実験ループとして研究した。各試行は仮説・実行可能なコード編集・評価者が管理する結果・次の提案を形成するフィードバックを含む。出力は生成論文や単一のモデルチェックポイントではなく、監査可能な研究プロセスである(11 upvotes)。
新規性: 自動研究を「生成された論文」ではなく「監査可能な実験ループ」として定式化し、専門エージェントが非自明な訓練レシピを発見できることを実証した点が重要である。
手法: 専門化されたエージェント群が仮説生成・コード実装・実験実行・結果分析のループを自律的に回し、各イテレーションのフィードバックに基づいて次の実験を設計する。人間の研究者の実験サイクルを模倣しつつ、探索空間を効率的にカバーする。
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
著者: Dingwei Chen, Zefang Zong, Zhipeng Ma et al.
エージェント型LLMの強化学習は疎な軌跡レベルの結果報酬に依存するため、マルチターン対話内の個々のツール呼び出しの貢献を評価することが困難である。本研究はターングループ単位でのポリシー最適化と適応的ターンレベルクリッピングを提案した(10 upvotes)。
新規性: マルチターンエージェント対話におけるプロセス信用割り当て問題を、ターングループという中間粒度で解決するアプローチが独自である。個々のトークンでも軌跡全体でもなく、ツール呼び出し単位での最適化を実現している。
手法: マルチターン対話をターングループに分割し、各グループの貢献度を推定する。適応的なターンレベルクリッピングにより、各ターンの重要度に応じてポリシー更新の幅を制御し、疎な報酬からでも効果的な学習信号を抽出する。
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
著者: Tianle Wang, Zhaoyang Wang, Guangchen Lan et al.
強化学習はLLMの推論改善に適用されてきたが、タスク難易度に応じた学習のスケーリングの体系的研究は、制御可能でスケーラブルな環境の欠如により妨げられてきた。本研究は合成論理推論フレームワークScaleLogicを導入し、表現力がRL学習の鍵であることを示した(10 upvotes)。
新規性: タスク難易度を制御可能な合成環境を構築し、RLによる長期推論学習のスケーリング特性を体系的に分析した点が重要である。モデルの「表現力」が長期推論のRL学習における決定的要因であることを実証した。
手法: Horn節上の暗黙的演繹推論を用いた合成論理推論フレームワークScaleLogicを構築し、推論深度・幅・複雑度を独立に制御する。このフレームワーク上でRLの学習曲線を分析し、モデルアーキテクチャの表現力とRL学習成功の関係を明らかにした。
分野別の動向
強化学習によるモデル最適化
本日最も活発だった研究領域である。MARBLE(34 upvotes)が拡散モデルの多面的報酬バランス、Nonsense Helps(28 upvotes)がGRPOのゼロアドバンテージ問題への対処、A^2TGPO(10 upvotes)がマルチターンエージェントの信用割り当て、Can RL Teach Long-Horizon Reasoning(10 upvotes)がRL学習のスケーリング特性と、RL微調整の異なる弱点を各研究が個別に攻略している。前日のBalanced Aggregation(GRPO集約バイアス)やResRL(負例投影残差RL)と合わせ、RLVR/GRPOの技術的精緻化が急速に進んでいる。
エージェント能力の評価と拡張
CreativityBench(20 upvotes)がアフォーダンスに基づく創造的道具転用という新しい評価軸を提案し、Auto Research(11 upvotes)が専門エージェントによる自律的研究ループの有効性を実証した。前日のSkill1やSkillOSがエージェントのスキル蓄積に焦点を当てたのに対し、本日は能力の評価と応用範囲の拡大に軸足が移っている。When to Trust Imagination(36 upvotes)もWorld Action Modelsにおける適応的判断という、エージェントの自律性向上に直結する研究である。
拡散モデルの高速化と応用
Continuous-Time Distribution Matching(24 upvotes)が少ステップ蒸留の新たな定式化を提案し、前日のContinuous Latent Diffusion Language Modelに続いて拡散モデルの実用化に向けた技術的基盤が整いつつある。MARBLEのRL微調整と合わせ、拡散モデルの訓練効率と生成品質の両面での改善が同時進行している。
マルチモーダル統合
Audio-Visual Intelligence(25 upvotes)が大規模基盤モデル時代の音声・視覚統合を体系化した。前日のMiniCPM-o 4.5がリアルタイム全二重対話の実装を示したのに対し、本サーベイは研究領域全体のロードマップを提供しており、相補的な貢献となっている。