Self-Distilled RLVRが大規模教師モデル不要の推論訓練を実現し、OpenWorldLibが世界モデルの統一フレームワークを提案。TriAttentionやLightThinker++による推論効率化、GrandCodeの競技プログラミング突破など、LLM基盤技術の多方面で重要な進展が見られた。
注目論文
OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
著者: DataFlow Team, Bohan Zeng, Daili Hua et al.
世界モデル(World Models)の統一的な定義が欠如している現状に対し、包括的かつ標準化された推論フレームワークを提案。動画生成、物理シミュレーション、3Dシーン生成など多様なタスクをカバーする統一コードベースを提供する。
新規性: 世界モデルという広範な研究分野に対して、初めて統一的な定義と標準化されたフレームワークを提示した点。分散していた各研究を共通基盤上で比較・再現可能にする。
手法: 複数の世界モデルアプローチ(動画予測、物理エンジン、ニューラルシミュレーション等)を共通インターフェースで抽象化し、標準的な推論パイプラインとして実装。ベンチマーク評価も統合。
Self-Distilled RLVR
著者: Chenxu Yang, Chuanyu Qin, Qingyi Si et al.
オンポリシー蒸留(OPD)では大規模な教師モデルが密な信号を提供するのに対し、RLVR(検証可能報酬による強化学習)はスパースな報酬しか得られない。本研究は両者を統合し、外部の大規模教師モデルなしで自己蒸留によるRLVR訓練を実現する新パラダイムを提案。
新規性: 教師モデルに依存せず、モデル自身の生成軌跡から蒸留信号を抽出してRLVRと組み合わせる点。コスト効率の高い推論モデル訓練を可能にする。
手法: モデル自身が生成した複数のrolloutから、正解・不正解の軌跡を比較して密な学習信号を構築。GRPOベースの最適化と組み合わせ、外部教師なしでトークンレベルの細粒度フィードバックを実現。
MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale
著者: Bin Wang, Tianyao He, Linke Ouyang et al.
文書解析の最先端手法がモデルアーキテクチャの革新に注力する中、訓練データの体系的エンジニアリングという未開拓領域に焦点を当てた研究。異なるアーキテクチャ・パラメータ規模のSOTAモデルが同じ難サンプルで一貫して失敗するパターンを発見し、データ中心アプローチの有効性を実証。
新規性: モデル非依存の「難サンプル」パターンを特定し、訓練データの品質改善がアーキテクチャ改善より効果的であることを大規模に実証。
手法: 複数のSOTAモデルの共通失敗パターンを分析し、それらに対応するデータ拡張・キュレーション戦略を体系的に適用。データの質と多様性を制御変数として性能改善を定量化。
TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
著者: Weian Mao, Xi Lin, Wei Huang et al.
LLMの拡張推論で深刻化するKVキャッシュのメモリボトルネックに対し、三角関数ベースの圧縮手法を提案。既存手法がRoPE適用後のクエリからKV重要度を推定する際の問題(クエリが位置とともに回転するため代表的クエリが極めて少ない)を解決。
新規性: RoPEの回転特性を三角関数的に分析し、位置に依存しないKV重要度推定を実現した点。長い推論チェーンにおいて既存圧縮手法を大幅に上回る。
手法: 三角関数分解によりRoPE回転の影響を除去したKV重要度スコアを算出。重要度の低いKVペアを選択的に圧縮し、推論品質を維持しながらメモリ使用量を削減。
InCoder-32B-Thinking: Industrial Code World Model for Thinking
著者: Jian Yang, Wei Zhang, Jiajun Wu et al.
チップ設計、GPU最適化、組み込みシステムなどの産業ソフトウェア開発には、ハードウェア制約やタイミングセマンティクスを考慮した専門的な推論トレースが欠如している。本研究はError-driven Chain-of-Thoughtデータで訓練した32Bの産業コード推論モデルを提案。
新規性: 産業コード(チップ設計・GPU最適化等)という専門領域に特化した推論モデルを初めて大規模に構築。エラー駆動型の思考連鎖という新しいデータ構築手法を導入。
手法: 産業コードのエラーパターンを体系的に収集し、エラーから正解に至る推論過程をChain-of-Thoughtとして構造化。これを用いた教師あり微調整と強化学習で32Bモデルを訓練。
GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
著者: DeepReinforce Team, Xiaoya Li, Xiaofei Sun et al.
競技プログラミングはAIにとって最後の人間の牙城の一つであり、最先端のGemini 3 Deep Thinkでも8位に留まっていた。本研究はエージェント型強化学習により、Grandmasterレベル(世界8位相当を超える)の性能を達成。
新規性: エージェント型RLアプローチにより、単なるコード生成を超えた戦略的な問題解決(テスト設計、デバッグ、最適化の反復)を実現し、人間トップレベルを凌駕。
手法: コード生成・テスト実行・デバッグをエージェントのアクションとして定式化し、RLで多段階の問題解決戦略を最適化。自律的な試行錯誤と検証のループにより解の品質を向上。
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
著者: Ao Qu, Han Zheng, Zijian Zhou et al.
LLMベースの進化的手法はオープンエンドな発見に有望だが、既存手法は固定ヒューリスティックやハードコードされた探索ルールに依存し、LLMエージェントの自律性を制限していた。CORALは自律的なマルチエージェント進化フレームワークを提案。
新規性: 探索戦略自体をエージェントが自律的に進化させる点。固定ルールに依存せず、知識蓄積と探索の両方をエージェント主導で行う。
手法: 複数のLLMエージェントが協調して仮説生成・実験・評価のサイクルを自律的に回し、成功した探索戦略を集団内で共有・進化させるフレームワーク。
LightThinker++: From Reasoning Compression to Memory Management
著者: Yuqi Zhu, Jintian Zhang, Zhenjie Wan et al.
LLMの複雑な推論は長い思考トレースによる認知オーバーヘッドの増大で効率が制限される。LightThinkerは中間推論をコンパクトな意味表現に動的に圧縮する手法を提案し、LightThinker++ではメモリ管理の観点から拡張。
新規性: 推論中の中間思考を選択的に圧縮するという、推論効率化の新しいアプローチ。単なるトークン削減ではなく、意味的な圧縮を行う点が特徴。
手法: 推論過程で生成される中間思考の重要度を動的に評価し、重要度の低い部分をコンパクトな意味表現に圧縮。メモリ管理機構により、必要に応じて圧縮された情報を展開して再利用。
Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
著者: Gengsheng Li, Tianyu Yang, Junfeng Fang et al.
GRPO(Group Relative Policy Optimization)は広く採用されているが、失敗したrolloutを一律にペナルティする粗い報酬割当が問題。本研究はサンプルルーティングによりGRPOとトークンレベルの自己蒸留を統合する手法を提案。
新規性: GRPOの粗粒度な報酬割当とself-distillationの細粒度なトークンレベル信号を、サンプルルーティングという統一的な枠組みで組み合わせた点。
手法: 各rolloutの品質に基づいてGRPO更新と自己蒸留更新にルーティングし、高品質サンプルからはトークンレベルの蒸留信号を、低品質サンプルからはグループ相対的なペナルティ信号を適切に抽出。
Self-Execution Simulation Improves Coding Models
著者: Gallil Maimon, Ori Yoran, Felix Kreuk et al.
コードLLMがプログラム実行を正しく推定できないという問題に対し、ステップバイステップの実行シミュレーション能力を訓練する手法を提案。この能力を活用した自己検証・自己修正により競技プログラミング性能を向上。
新規性: 自然言語による実行トレースを教師あり学習し、さらに検証可能報酬によるRLで強化する二段階アプローチ。出力予測と問題解決の二つの相補的な目標を導入。
手法: 真の実行結果に基づく自然言語実行トレースでSFTを行い、その後RLVRで実行シミュレーション能力を強化。複数候補解の自己検証と、シミュレーション結果に基づく反復的自己修正を実現。
分野別の動向
強化学習と推論モデル訓練
本日最大の注目トレンド。Self-Distilled RLVRが教師モデル不要の自己蒸留を実現し、Sample RoutingがGRPOの改善を提案するなど、RLVR系の訓練パラダイムが急速に洗練されている。GRPOの粗い報酬割当という根本的課題に対し、複数の研究が異なるアプローチで取り組んでおり、この分野の活発さを示す。arXivではPROGRS(Process Rewards for Outcome-Guided Steps)もプロセス報酬の安全な活用法を提案しており、報酬設計の精緻化が共通テーマとなっている。
推論効率化・KVキャッシュ圧縮
TriAttentionの三角関数ベースKV圧縮、LightThinker++の中間推論圧縮、さらにarXivではSoLA(ソフト活性化スパース性+低ランク分解)やSwift-SVD、Focus(学習可能なトークングループ化による効率的注意機構)など、推論効率化に関する論文が多数出現。長い推論チェーンの実用化に向け、メモリ・計算コスト削減が喫緊の課題であることを反映している。
コード生成・産業応用
GrandCodeが競技プログラミングでGrandmasterレベルを達成し、InCoder-32Bが産業コード向け推論モデルを構築、Self-Execution Simulationが実行シミュレーションでコード品質を向上。コード生成はエージェント型RLと実行フィードバックの統合により新段階に入りつつある。
エージェント・自律システム
CORALの自律的マルチエージェント進化に加え、ClawArena(進化する情報環境でのエージェントベンチマーク)、FileGram(ファイルシステム行動トレースによるエージェント個人化)、OpenClaw安全性分析、AgentHazardベンチマークなど、エージェント関連の論文が集中。エージェントの能力向上と安全性評価が同時に進展している。
世界モデル・動画理解
OpenWorldLibの統一フレームワーク提案は、世界モデル研究の標準化に向けた重要な一歩。また「A Simple Baseline for Streaming Video Understanding」がスライディングウィンドウという単純手法で既存の複雑なメモリ機構を凌駕し、ストリーミング動画理解における過剰な複雑性に警鐘を鳴らしている。
データ中心AI・文書解析
MinerU2.5-Proがモデルアーキテクチャではなく訓練データの品質改善で大幅な性能向上を達成。「The Format Tax」もJSON等の構造化出力がLLMの推論性能を低下させることを実証し、推論とフォーマッティングの分離を提唱。データとフォーマットというLLMの「入出力品質」への注目が高まっている。