LLM/NLP最新論文 - 2026-05-03

マルチモーダルエージェント基盤モデルGLM-5V-Turboが89票で首位。視覚生成の体系的サーベイ、LLM推論の意味的多様性向上、拡散LLMへのクロスアーキテクチャ蒸留など、モデルアーキテクチャの革新が主要テーマとなった。

注目度

注目論文

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

著者: Wenyi Hong, Xiaotao Gu, Ziyang Pan et al.

基盤モデルが実環境に展開されるにつれ、エージェント能力は言語推論だけでなく、異種コンテキストの知覚・解釈・行動が求められる。本研究はテキスト・画像・動画・GUIを統合的に処理するマルチモーダルエージェント向けネイティブ基盤モデルGLM-5V-Turboを提示した（89 upvotes）。

新規性: マルチモーダルエージェントのための「ネイティブ」基盤モデルという位置づけが特徴的である。従来のVLMが視覚理解に特化していたのに対し、GUI操作やツール使用を含むエージェント的タスクを設計段階から組み込んだアーキテクチャを構築した。異種コンテキスト（文書・画面・動画）をまたぐ知覚と行動の統合を単一モデルで実現する点が画期的である。

手法: テキスト・画像・動画・GUIスクリーンショットなど多様な入力モダリティを統一的に処理するアーキテクチャを設計し、エージェント的タスク（画面操作、情報抽出、マルチステップ推論）に対する能力を基盤モデルレベルで獲得させた。実環境でのエージェント展開を見据えた知覚・推論・行動の一貫した処理パイプラインを実現している。

Hugging Face Daily Papers

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

著者: Keming Wu, Zuhao Yang, Kaichen Zhang et al.

近年の視覚生成モデルはフォトリアリズム・タイポグラフィ・指示追従で大きな進歩を遂げたが、空間推論・状態持続・長期一貫性・因果理解には依然として課題がある。本研究は視覚生成分野の進化を体系的にサーベイし、今後の方向性を提示した（76 upvotes）。

新規性: 視覚生成の発展を「原子的マッピング」から「エージェント的世界モデリング」への進化として整理した点が独自の貢献である。単なる技術レビューではなく、外観合成を超えて物理的一貫性・因果推論・インタラクティブ生成へ向かうべきという明確な方向性を示し、分野全体のロードマップを提示した。

手法: 既存の視覚生成モデルの成果と限界を網羅的に分析し、空間推論・永続的状態管理・長期的一貫性・因果理解という4つの未解決課題を特定。これらの課題を解決するためにエージェント的世界モデリングという枠組みを提案し、今後の研究の指針を提供している。

Hugging Face Daily Papers

Large Language Models Explore by Latent Distilling

著者: Yuanhao Zeng, Ao Lu, Lufei Li et al.

多様な応答生成はLLMの推論時スケーリングに不可欠であるが、標準的な確率的サンプリングは表層的な語彙変化にとどまり、意味的探索が制限される。本研究は意味的多様性を明示的に促進するExploratory Sampling（ESamp）を提案した（60 upvotes）。

新規性: 従来のサンプリング手法が語彙レベルのランダム性に依存していたのに対し、潜在空間での蒸留を通じて意味的に異なる応答を生成する点が革新的である。表層の言い換えではなく、推論パスそのものの多様性を実現することで、推論時スケーリングの効果を本質的に高める。

手法: 潜在空間における蒸留（Latent Distilling）を活用し、デコーディング過程で意味的に多様な探索を明示的に誘導するESampを設計。標準的なサンプリング手法と比較して、生成される応答の意味的カバレッジを拡大しつつ、推論時スケーリングにおけるパフォーマンス向上を達成した。

Hugging Face Daily Papers

ClawGym: A Scalable Framework for Building Effective Claw Agents

著者: Fei Bai, Huatong Song, Shuang Sun et al.

Claw型環境はローカルファイル・ツール・永続的ワークスペース状態にまたがるマルチステップワークフローを扱うが、検証可能な訓練データの合成と体系的な評価を支援するフレームワークが欠如していた。本研究はスケーラブルなフレームワークClawGymを提案した（46 upvotes）。

新規性: エージェント訓練のボトルネックである「検証可能な訓練データの不足」と「体系的評価手法の欠如」を同時に解決するフレームワークを構築した点が重要である。タスク合成からエージェント訓練・評価までを一貫して扱うスケーラブルな設計により、Claw型エージェントの研究開発を加速する基盤を提供する。

手法: マルチステップワークフロー環境における訓練データを自動合成する仕組みと、エージェントの能力を多角的に評価するベンチマーク機能を統合したフレームワークを設計。ファイル操作・ツール使用・状態管理を含む複雑なタスクに対する検証可能なデータ生成パイプラインを実現した。

Hugging Face Daily Papers

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

著者: Gongbo Zhang, Wen Wang, Ye Tian et al.

拡散大規模言語モデル（dLLM）は並列デコーディングと双方向コンテキストの利点を持つが、競争力のある性能には数十億パラメータが必要である。既存の蒸留手法は同一アーキテクチャ内の推論ステップ削減にとどまり、クロスアーキテクチャ蒸留は未踏であった。本研究はTIDEを提案した（42 upvotes）。

新規性: 自己回帰LLMから拡散LLMへのクロスアーキテクチャ蒸留を初めて実現した。アーキテクチャの根本的な違い（逐次生成 vs 並列生成）を超えた知識転移手法の確立は、小型dLLMの実用化に向けた重要なブレークスルーである。

手法: 自己回帰モデルの逐次的な生成知識を拡散モデルの並列デコーディングフレームワークに適合させる蒸留手法を設計。アーキテクチャ間の表現の違いを橋渡しする仕組みにより、小型拡散LLMの性能を大幅に向上させ、同規模の自己回帰モデルとの性能差を縮小した。

Hugging Face Daily Papers

分野別の動向

マルチモーダル・エージェント基盤

GLM-5V-Turbo（89 upvotes）がマルチモーダルエージェントのためのネイティブ基盤モデルを提示し、GUI操作を含むエージェント的タスクへの対応を設計段階から組み込んだ。Nemotron 3 Nano Omni（14 upvotes）はテキスト・画像・動画に加えて音声入力をネイティブサポートするマルチモーダルモデルを発表している。ExoActor（35 upvotes）は外心視点動画生成によるヒューマノイド制御に取り組んでおり、マルチモーダル基盤モデルの応用範囲が拡大している。

視覚生成・拡散モデル

Visual Generation in the New Era（76 upvotes）が視覚生成の体系的サーベイを発表し、エージェント的世界モデリングへの移行を提唱した。TIDE（42 upvotes）は自己回帰LLMから拡散LLMへのクロスアーキテクチャ蒸留を初めて実現した。Representation Fréchet Loss（14 upvotes）はFréchet距離を表現空間で直接最適化する訓練目的関数を提案している。Diffusion Templates（10 upvotes）は制御可能な拡散手法を統一プラグインフレームワークとして体系化した。拡散モデルの基盤技術と応用の両面で革新が進んでいる。

推論時スケーリング・デコーディング

ESamp（60 upvotes）が潜在蒸留による意味的多様性の向上を実現し、推論時スケーリングの本質的な改善を提案した。Step-Audio-R1.5（13 upvotes）はChain-of-Thought推論を音声領域に拡張している。Compliance versus Sensibility（5 upvotes）はLLMの推論パターン（帰納・演繹・仮説推論）の制御可能性を調査した。推論時の多様性・制御性・効率性の精密化が継続的なテーマである。

エージェント評価・訓練基盤

ClawGym（46 upvotes）がエージェント訓練データの合成と評価を体系化するフレームワークを構築した。InteractWeb-Bench（9 upvotes）はインタラクティブなウェブサイト生成におけるマルチモーダルエージェントの評価を提案している。FAMA（8 upvotes）はオープンソースLLMのインタラクティブツール使用における失敗認識型メタエージェントフレームワークを導入した。エージェントの訓練基盤と評価方法論の整備が活発に進んでいる。

安全性・アライメント

Safety Drift After Fine-Tuning（0 upvotes）はファインチューニング後の安全性ドリフトを100モデルで実証的に分析し、安全性評価がベースモデルのみで行われる現行慣行に警鐘を鳴らした。FlashRT（0 upvotes）は長コンテキストLLMに対するプロンプトインジェクションと知識汚染のレッドチーミング手法を提案している。ファインチューニングと長コンテキスト化に伴う新たな安全性リスクへの対処が課題として認識されている。