ドメイン特化基盤モデルとLLMエージェントの協調フレームワークが176票で圧倒的首位。リアルタイム全二重オムニモーダル対話MiniCPM-o 4.5、複数専門能力の統合CoPDなど、異種モデル・モダリティの統合が主要テーマとなった。
注目論文
Heterogeneous Scientific Foundation Model Collaboration
著者: Zihao Li, Jiaru Zou, Feihao Fang et al.
エージェント型LLMシステムは強力な能力を示しているが、言語を統一インターフェースとする設計は科学分野の多くの問題に対して根本的な限界がある。本研究はドメイン特化基盤モデルとLLMエージェントを協調させるフレームワークを提案し、176 upvotesを獲得した。
新規性: 言語インターフェースの限界を正面から指摘し、分子・タンパク質・気象など各ドメインの専用基盤モデルをLLMエージェントが協調的にオーケストレーションする枠組みを構築した。従来のLLM単体による科学タスク処理とは異なり、各ドメインモデルの専門的表現能力を維持したまま統合する点が画期的である。
手法: 異種ドメイン基盤モデル(分子生成、タンパク質構造予測など)をエージェントシステムの構成要素として組み込み、LLMがタスク分解・モデル選択・結果統合を担う協調アーキテクチャを設計。言語に還元できないドメイン固有の表現をそのまま活用しつつ、エージェントレベルでの推論と計画を実現した。
Co-Evolving Policy Distillation
著者: Naibin Gu, Chenxu Yang, Qingyi Si et al.
RLVRとオンラインポリシー蒸留(OPD)はポストトレーニングの標準的パラダイムであるが、複数の専門能力を単一モデルに統合する際に能力喪失が発生する。本研究は両パラダイムを統合するCo-Evolving Policy Distillation(CoPD)を提案した(34 upvotes)。
新規性: 専門モデルの完全な訓練後にOPDを行う従来のパイプラインでは、教師と生徒の行動パターンの乖離が大きく知識吸収が不完全になる。CoPDは専門モデルのRLVR訓練中にOPDを導入し、専門モデル同士を相互に教師とする双方向蒸留で共進化させる。
手法: テキスト・画像・動画の推論能力を持つ各専門モデルを並列にRLVR訓練しつつ、訓練過程で相互にOPDを適用する。行動パターンの一貫性を維持しながら十分な相補的知識を保持することで、混合RLVR(能力間の発散コスト)とパイプラインOPD(行動パターン乖離)の両方の課題を解消し、ドメイン専門モデルをも上回る性能を達成した。
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
著者: Junbo Cui, Bokai Xu, Chongyi Wang et al.
マルチモーダル大規模言語モデルはリアルタイムストリーミング対話に進化しつつあるが、知覚と応答が交互フェーズに分離され、プロアクティブな行動が欠如している。本研究はリアルタイム全二重オムニモーダル対話を実現するMiniCPM-o 4.5を提示した。
新規性: 見る・聞く・話すを同時にリアルタイム処理し、ライブシーンの継続的理解に基づくプロアクティブな応答(リマインダーやコメント)を生成する能力を9Bパラメータで実現。従来のターンベース対話を全二重・時間整列プロセスに変換するOmni-Flowフレームワークが核心技術である。
手法: オムニモーダル入出力を共有時間軸に沿って整列するOmni-Flowにより、知覚と応答の同時処理とプロアクティブ行動を統一フレームワーク内で実現。Gemini 2.5 Flashに匹敵する視覚言語能力を達成し、Qwen3-Omni-30B-A3Bを上回るオムニモーダル理解と音声生成を高い計算効率で提供する。12GB未満のRAMでエッジデバイス上での実行が可能である。
Efficient Training on Multiple Consumer GPUs with RoundPipe
著者: Yibin Luo, Shiwei Gao, Huichuan Zheng et al.
コンシューマGPU上でのLLMファインチューニングはコスト効率が高いが、限られたGPUメモリと低速なPCIeインターコネクトが制約となっている。本研究はパイプライン並列とCPUオフロードを組み合わせたRoundPipeを提案した(24 upvotes)。
新規性: 既存のパイプライン並列手法はコンシューマGPU環境でのメモリ制約と通信ボトルネックへの対応が不十分であった。RoundPipeはパイプラインバブルの最小化とメモリ効率の最適化を同時に達成する新しいスケジューリング手法を導入し、コンシューマGPU特有の制約に対応した。
手法: パイプライン並列のステージ間通信をCPUオフロードと組み合わせ、PCIe帯域幅の制約下でも効率的な訓練を実現するラウンドロビン型スケジューリングを設計。メモリフットプリントの削減と計算・通信のオーバーラップを最適化し、複数のコンシューマGPUでのLLMファインチューニングのスループットを大幅に向上させた。
Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
著者: Shouren Wang, Wang Yang, Chuang Ma et al.
ハイブリッド思考言語モデルはthinkモードとno-thinkモードを提供するが、両モードが同一のフィードフォワードパラメータで符号化されるため、no-thinkモードでも長い自己省察的応答が生成される推論漏洩が生じる。本研究はアーキテクチャレベルでモードを分離するPath-Lock Expert(PLE)を提案した。
新規性: 制御可能なハイブリッド思考がデータキュレーションや訓練戦略ではなくアーキテクチャの問題であることを示した。各デコーダ層のMLPをthink用とno-think用の2つの意味的にロックされたエキスパートに置換し、決定論的ルーティングで完全なモード分離を実現する。
手法: 注意機構・埋め込み・正規化・言語モデルヘッドを共有しつつ、フィードフォワード層のみをモード別エキスパートに分割。制御トークンに基づく決定論的ルーターがシーケンス全体に対して1つのパスを選択する。Qwen3-4Bでは、no-thinkモードのAIME24反省的トークンが2.54から0.39に減少し、no-think精度が20.67%から40.00%に向上した。
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
著者: Chenxin Li, Zhengyang Tang, Huangxin Lin et al.
LLMエージェントはソフトウェアツール・ビジネスサービス・ローカルワークスペースにまたがるワークフローを完遂することが期待されているが、既存のベンチマークはリリース時にタスクセットを固定し、最終応答のみを評価するため、進化するワークフローに対するエージェント評価が困難である。本研究はライブエージェントベンチマークClaw-Eval-Liveを導入した(17 upvotes)。
新規性: 静的ベンチマークの根本的限界を解消するライブ評価フレームワーク。実世界のワークフローの進化に追従してタスクセットを動的に更新し、エージェントの実運用能力をより正確に測定する設計を実現した。
手法: 実世界のソフトウェアツールやサービスの変更を継続的に監視し、ワークフローの変化を反映したタスクインスタンスを自動生成する。最終応答だけでなくプロセス全体を評価対象とし、エージェントの適応能力と頑健性を多角的に測定する。
Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling
著者: Zhen Zhang, Changyi Yang, Zijie Xia et al.
トークンは現代の自己回帰モデルの基本計算単位であり、生成長は推論コストと推論性能の両方に直接影響する。しかし既存の手法は粗粒度のシーケンスレベル長制御にとどまり、トークンレベルの細粒度な長モデリングが欠如している。本研究はLength Value Model(LenVM)を提案した(16 upvotes)。
新規性: 長モデリングを価値推定問題として定式化し、各トークンに一定の負の報酬を割り当てることで、残りの生成長の単調な代理指標となる有界な割引リターンを予測する。アノテーション不要・密な監督信号・不偏・スケーラブルという特性を持つ。
手法: LIFEBenchの厳密長一致タスクで7Bモデルの長スコアを30.9から64.8に改善し、フロンティア閉鎖モデルを大幅に上回った。GSM8Kでは200トークン予算で63%の精度を維持(トークン予算ベースラインは6%)。トークンレベルの価値が生成ダイナミクスの解釈可能な視点も提供する。
分野別の動向
異種モデル協調・マルチモーダル統合
Heterogeneous Scientific Foundation Model Collaboration(176 upvotes)が言語インターフェースの限界を指摘し、ドメイン特化基盤モデルとLLMの協調という新方向を提示した。MiniCPM-o 4.5はオムニモーダル対話を全二重化し、知覚と生成の同時処理を9Bパラメータで実現した。Visual Generation in the New Era(70 upvotes)は視覚生成の課題を原子的マッピングからエージェント的世界モデリングへの進化として整理するサーベイを発表している。異種モダリティ・異種モデルの統合が、エージェントシステムの次の主要課題として浮上している。
ポストトレーニング・蒸留
CoPD(34 upvotes)がRLVRとOPDの共進化により複数専門能力の統合を改善し、専門モデル超えの性能を達成した。Accelerating RL Post-Training Rollouts via Speculative Decoding(6 upvotes)はロールアウト生成に投機的デコーディングを適用するシステムレベルの効率化を提案している。V-GRPO(3 upvotes)はデノイジング生成モデルへのオンラインRLの適用を簡素化した。ポストトレーニングの研究は、アルゴリズムの洗練とシステムレベルの効率化が並行して進展している。
アーキテクチャ・推論制御
PLEがハイブリッド思考のモード分離をアーキテクチャレベルで解決し、推論漏洩の大幅削減と精度向上を同時達成した。LenVMはトークンレベルの生成長制御を価値推定問題として定式化し、推論コストと性能のトレードオフを連続的に制御可能にした。arXivではνGPT(cs.LG)がNormalized Transformerの学習率転移を幅・深さ・トークン水平線にわたって実現するパラメタリゼーションを提案している。推論時の制御性と効率性の精密化が進んでいる。
訓練効率化
RoundPipe(24 upvotes)がコンシューマGPU環境でのLLMファインチューニングを効率化し、AutoSP(cs.LG)がコンパイラベースのシーケンス並列化で長コンテキスト訓練のメモリ効率を自動最適化した。NORACL(cs.LG)はニューロジェネシスにヒントを得た動的ネットワーク成長で継続学習のstability-plasticityジレンマに対処している。大規模クラスタだけでなくコンシューマ環境での効率化が研究対象として定着しつつある。
エージェント評価・ベンチマーク
Claw-Eval-Live(17 upvotes)が動的に進化するライブベンチマークを導入し、静的ベンチマークの限界を解消する方向性を示した。AutoResearchBench(27 upvotes)は科学文献探索における複雑なタスクでAIエージェントを評価するベンチマークを構築した。The Inverse-Wisdom Law(cs.AI)はマルチエージェントスウォームにおけるコンセンサスパラドックスを形式化し、エージェント追加が誤った軌跡の安定性を高めるという逆説的結果を報告している。エージェント評価の方法論自体が重要な研究テーマとなっている。