RAGEN-2がエージェントRL訓練における推論崩壊(テンプレート崩壊)を発見・診断し、MegaTrainが単一GPUでの100B+パラメータ訓練を実現。Think in Strokes, Not Pixelsの段階的視覚推論やDISCOの触媒残基不要の酵素設計など、生成モデルの新パラダイムも多数登場。
注目論文
Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning
著者: Lei Zhang, Junjiao Tian, Zhipeng Fan et al.
人間が絵を描く際のように、全体レイアウトの計画→粗いスケッチ→検査→詳細の洗練という段階的プロセスを統合マルチモーダルモデルで再現する画像生成手法を提案。各ステップが進化する視覚状態に根拠づけられている点が特徴。
新規性: テキスト-画像インターリーブデータセットで訓練された統合マルチモーダルモデルが、中間視覚状態の連鎖(visual chain-of-thought)を自発的に想像・生成できるかを初めて検証。ピクセル単位ではなく「ストローク」単位での段階的推論という新概念を提示。
手法: マルチモーダルモデルにテキストと画像を交互に生成させ、各段階で現在の視覚状態を参照しながら次の描画ステップを推論。段階的な視覚推論プロセスにより、最終画像の品質と意図との整合性を向上。
RAGEN-2: Reasoning Collapse in Agentic RL
著者: Zihan Wang, Chi Gui, Xing Jin et al.
マルチターンLLMエージェントのRL訓練は本質的に不安定であり、推論品質がタスク性能を直接決定する。エントロピーが安定していても、モデルが入力に依存しない固定テンプレートに依存する「テンプレート崩壊」という、既存指標では検出不可能な新たな失敗モードを発見。
新規性: エントロピー(入力内多様性)と相互情報量(入力間識別可能性)の分離により、テンプレート崩壊を初めて定義・診断。相互情報量がエントロピーよりも最終性能と強く相関することを実証し、SNR認識フィルタリングによる対策を提案。
手法: 報酬分散をSNRの軽量プロキシとして使用し、高信号プロンプトを反復ごとに選択するSNR-Aware Filteringを導入。計画・数学推論・Web操作・コード実行の各タスクで入力依存性とタスク性能の両方を改善。
MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
著者: Zhengqing Yuan, Hanchi Sun, Lichao Sun et al.
従来のGPU中心設計を覆し、パラメータとオプティマイザ状態をホストメモリ(CPUメモリ)に格納し、GPUを一時的な計算エンジンとして扱うメモリ中心システムを提案。単一GPUで100B+パラメータLLMのフルプレシジョン訓練を実現。
新規性: GPUメモリの制約を根本的に回避するメモリ中心アーキテクチャにより、量子化や分散訓練なしで超大規模モデルの訓練を可能に。アクセシビリティの大幅な民主化に貢献する可能性。
手法: パラメータとオプティマイザ状態をCPUメモリに配置し、計算に必要な部分のみをGPUに動的に転送。メモリ管理の最適化により、単一GPU環境でも実用的な訓練スループットを達成。
General Multimodal Protein Design Enables DNA-Encoding of Chemistry (DISCO)
著者: Jarrid Rector-Brooks, Theophile Lambert, Marta Skreta et al.
進化が探索してきた酵素の化学的多様性はDNAがエンコード可能な範囲のごく一部に過ぎない。深層生成モデルによるリガンド結合タンパク質の設計は可能だが、触媒残基を事前指定せずに酵素を創出した例はなかった。DISCOはこの壁を突破するマルチモーダル深層生成モデルを提案。
新規性: 触媒残基の事前指定なしに酵素を設計可能な初の深層生成モデル。DNAがエンコードできる化学空間を進化の制約を超えて探索する新パラダイムを開拓。
手法: マルチモーダル生成モデルにより、タンパク質の配列・構造・機能を統合的にモデリング。触媒活性の発現に必要な残基配置を自動的に学習し、新規酵素の設計を実現。
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
著者: Hyunsoo Cha, Wonjung Woo, Byungjun Kim et al.
従来の2段階パイプライン(画像ベース仮想試着+ポーズ駆動アニメーション)を統合し、単一の人物画像・衣服画像・ポーズガイダンス動画から衣服転写済みの人体アニメーション動画を直接生成する統合フレームワークを提案。
新規性: 仮想試着とアニメーションを別プロセスとして扱う従来パイプラインの分離による品質劣化を解消。合成トリプレット教師データによる統合的な学習が、両タスクの整合性を保証。
手法: 合成トリプレット(人物画像・衣服画像・ポーズ動画)による教師あり学習で、衣服転写と動作生成を同時に最適化。単一フレームワークで高忠実度の顔・全身アニメーションを実現。
Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
著者: Hanchen Li, Runyuan He, Qizheng Zhang et al.
推論時コンテキストからのプロンプト学習(ACEやGEPAなど)はパラメータ変更なしでエージェントの性能を改善できるが、既存手法は柔軟性やスケーラビリティに課題がある。Combeeはプロンプト学習のスケーリングにより、LLMエージェントの自己改善を実現。
新規性: 過去のエージェント実行履歴からシステムプロンプトを学習する既存手法の限界を克服し、プロンプト学習をスケールさせることでタスク関連知識の効率的な獲得を可能に。
手法: 推論時コンテキストを活用したプロンプト学習のスケーリング手法を設計。過去の実行結果に基づくプロンプトの反復的改善により、パラメータ更新なしでエージェント性能を継続的に向上。
MARS: Enabling Autoregressive Models Multi-Token Generation
著者: Ziqi Jin, Lei Wang, Ziwei Luo et al.
自己回帰言語モデルは一度に1トークンずつ生成するが、連続するトークンが先行コンテキストから高い予測可能性を持つ場合でも同様である。MARSは軽量ファインチューニングにより、既存の命令チューニング済みARモデルに複数トークン同時予測能力を付与。
新規性: Mask AutoRegreSsion(MARS)と呼ぶ手法で、自己回帰モデルを大規模な再訓練なしに複数トークン同時生成に対応させる。推論速度と生成品質のトレードオフを改善。
手法: マスクベースの学習目的関数により、1回のフォワードパスで複数の将来トークンを予測する能力を学習。命令チューニング済みモデルへの軽量な追加学習で適用可能。
SEVerA: Verified Synthesis of Self-Evolving Agents
著者: Debangshu Banerjee, Changming Xu, Gagandeep Singh
自己進化LLMエージェント(プログラム修復や科学的発見でのタスクごとのパラメトリックモデル調整)は有効性が示されているが、プランナーLLMが合成したエージェントプログラムの安全性や正しさの保証が欠如している。SEVerAは形式検証を自己進化エージェントの合成に導入。
新規性: 自己進化エージェントの合成プロセスに形式検証を組み込む初の試み。エージェントが自己改善する際の安全性保証という、エージェント信頼性の根本的課題に取り組む。
手法: プランナーLLMが合成するエージェントプログラムに対して形式検証を適用し、安全性制約の遵守を保証。タスク性能の改善と安全性の両立を実現する検証付き合成パイプラインを構築。
In-Place Test-Time Training
著者: Guhao Feng, Shengjie Luo, Kai Hua et al.
静的な「訓練してからデプロイ」パラダイムはLLMが新情報に動的に適応することを根本的に制限する。Test-Time Training(TTT)は推論時にモデルの重みの一部を更新する有望な代替手段だが、壊滅的忘却や過学習の問題がある。
新規性: LaCTの完全可塑的な推論時更新の弱点(壊滅的忘却・過学習)を克服する、弾性的なテスト時訓練手法を提案。長文脈3D再構成での応用を実証。
手法: 推論時のモデル重み更新に弾性的制約を導入し、既存知識の保持と新情報への適応を両立。全入力にまたがる単一大チャンクではなく、適応的なチャンク管理で効率的な推論時学習を実現。
The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning
著者: Yi Xu, Philipp Jettkant, Laura Ruis
Chain-of-thought(CoT)モニタリングの実現可能性は、モデルが潜在表現で効果的に推論できないことに依存する。グラフ経路探索タスクを用いて、モデルが中間ステップの教師なしに多段階計画戦略を発見し潜在的に実行できる限界を検証。
新規性: 潜在的計画発見能力に明確な上限(depth ceiling)が存在することを実証。スクラッチ訓練の小型Transformerは3ステップ、ファインチューニング済みGPT-4oは5ステップ、GPT-5.4は7ステップが限界。戦略の「発見」と「実行」の乖離も発見。
手法: 必要な潜在的計画ステップ数を厳密に制御できるグラフ経路探索タスクを設計。訓練時に5ステップまでの戦略を発見したモデルが、テスト時には8ステップまで汎化できることを確認し、発見と実行の分離を実証。
Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework
著者: Komal Kumar, Aman Chadha, Salman Khan et al.
科学文献の急速な成長により、研究者が関連研究を効率的に発見・評価・統合することが困難になっている。マルチエージェントLLMを活用したオープンソースの論文発見・分析フレームワークを提案。
新規性: ユーザの研究意図を理解し、文献の発見から評価・統合までを複数の専門エージェントが協調して行うオープンソースフレームワーク。研究ワークフロー全体のLLMによる自動化を目指す。
手法: マルチエージェント構成により、文献検索・関連性評価・内容要約・統合分析の各段階を専門エージェントが担当。ユーザとの対話を通じて研究ニーズを精緻化。
INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling
著者: InSpatio Team, Donghui Shen, Guofeng Zhang et al.
空間的一貫性とリアルタイムインタラクティビティを備えたワールドモデルの構築はコンピュータビジョンの根本的課題。現在の動画生成パラダイムは空間的永続性の欠如と視覚的リアリズムの不足に悩まされている。
新規性: 時空間自己回帰モデリングにより、空間的一貫性を保ちながらリアルタイムでインタラクティブなナビゲーションを可能にする4Dワールドシミュレータを実現。
手法: 時空間的な自己回帰生成により、3D空間での連続的なビュー合成とリアルタイムレンダリングを統合。シームレスなナビゲーション体験を提供。
Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
著者: Hongyuan Yuan, Xinran He, Run Shao et al.
RLによるCoT拡張はLLMの推論能力を高めるが、報酬信号の疎さにより過剰思考(冗長な中間推論コンテンツの生成)が誘発される。本研究はCoTをグラフ構造として捉え、冗長な反省・思考を枝刈りする手法を提案。
新規性: CoTの冗長性問題をグラフ構造として形式化し、推論ステップ間の依存関係を明示的にモデリングすることで、意味のある思考を保持しつつ冗長な反省を除去。
手法: 推論トレースをグラフとして構築し、ノード(推論ステップ)間のエッジ(依存関係)を分析。冗長な反省パターンを検出・除去することで、推論品質を維持しながらトークン消費を削減。
Neural Computers
著者: Mingchen Zhuge, Changsheng Zhao, Haozhe Liu et al.
計算・メモリ・I/Oを学習されたランタイム状態に統合する新たなマシン形態「Neural Computers(NC)」を提案。従来のコンピュータ・エージェント・ワールドモデルとは異なり、モデル自体が動作するコンピュータとなることを目指す。
新規性: 明示的プログラム実行でもエージェント行動でもなく、モデル自体をランタイムとする新概念を提唱。I/Oトレースのみからの学習でインターフェースプリミティブを獲得できることを実証。
手法: ビデオモデルとして実装し、命令・ピクセル・ユーザアクションからスクリーンフレームをロールアウト。CLIおよびGUI環境で、I/Oアライメントや短期的制御といった初期NCプリミティブの学習を確認。
Rethinking Generalization in Reasoning SFT
著者: Qihan Ren, Peng Wang, Ruikun Cai et al.
「SFTは暗記しRLは汎化する」という通説を、長いCoT教師データを用いた推論SFTで再検証。クロスドメイン汎化は欠如しているのではなく、最適化ダイナミクス・訓練データ・ベースモデル能力に条件付きであることを発見。
新規性: 短い訓練チェックポイントでの性能低下が「ディップ・アンド・リカバリー」パターンであることを示し、SFTの汎化能力の過小評価を指摘。汎化の非対称性(推論は改善するが安全性は低下する)も発見。
手法: 最適化ダイナミクス・データ品質・モデル能力の3軸で条件付き分析を実施。強力なモデルはトイ算術ゲームからもバックトラッキングなどの転移可能な手続き的パターンを内面化できる一方、弱いモデルは表面的な冗長性を模倣するのみ。
分野別の動向
LLM推論・学習最適化
本日最も活発な分野。RAGEN-2がエージェントRL訓練における「テンプレート崩壊」という新たな失敗モードを発見し、エントロピーではなく相互情報量が推論品質の真の指標であることを示した。Graph-Based CoT Pruningは推論の冗長性をグラフ構造で除去し、Rethinking Generalization in Reasoning SFTは推論SFTの汎化に関する通説を覆した。推論LLMの「量より質」へのパラダイムシフトが加速している。
エージェント・自律システム
Combeeがプロンプト学習のスケーリングでエージェント自己改善を推進し、SEVerAが形式検証により安全な自己進化エージェントの合成を実現。Paper Circleは研究ワークフローのマルチエージェント自動化を提案。The Depth Ceilingの潜在的計画能力の限界の発見は、CoTモニタリングの実現可能性を支持する重要な知見であり、エージェントの推論透明性確保に示唆を与える。
効率化・スケーリング
MegaTrainの単一GPUでの100B+パラメータ訓練は、大規模モデル訓練のアクセシビリティを根本的に変える可能性がある。MARSの軽量ファインチューニングによる複数トークン同時生成は推論効率の改善に貢献。In-Place TTTは推論時の動的適応を弾性的制約で安定化させた。計算資源の制約を前提としたスケーリング手法が多数登場し、「効率的な大規模化」が研究の主流テーマとなっている。
マルチモーダル・生成モデル
Think in Strokes, Not Pixelsが段階的視覚推論による画像生成の新パラダイムを提示し、Vanastがバーチャルトライオンとアニメーションの統合を実現。INSPATIO-WORLDはリアルタイム4Dワールドシミュレーションに取り組む。Neural Computersはモデル自体をコンピュータとする野心的な概念を提唱。生成モデルが単なる出力生成から、プロセス駆動型の推論・シミュレーションへと進化する動きが顕著。
バイオ・科学応用
DISCOが触媒残基の事前指定なしに酵素を設計可能なマルチモーダル深層生成モデルを実現し、DNAがエンコードできる化学空間の進化的制約を超えた探索を可能にした。AI for Scienceの中でもタンパク質設計は最も実用的インパクトの大きい領域の一つであり、生成モデルの設計能力の飛躍的向上を示している。