LLM/NLP最新論文 - 2026-05-01

マルチモーダルエージェント向けネイティブ基盤モデルGLM-5V-Turboが71票で首位。意味的探索を明示的に促進するデコーディング手法ESampが52票、エージェント開発フレームワークClawGymが37票を記録し、エージェント基盤の実用化とLLM推論の多様性確保に注目が集まった。

注目度

注目論文

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

著者: Wenyi Hong, Xiaotao Gu, Ziyang Pan et al.

基盤モデルが実環境に展開されるにつれ、言語推論だけでなく異種コンテキストの知覚・解釈・行動能力がエージェントに求められている。本研究はマルチモーダルエージェント向けのネイティブ基盤モデルGLM-5V-Turboを提案した（71 upvotes）。

新規性: GUIナビゲーション、ドキュメント理解、ツール使用など多様なエージェントタスクを単一のネイティブマルチモーダルモデルで統合的に処理するアーキテクチャ。従来のパイプライン型アプローチ（視覚エンコーダ＋言語モデルの接続）とは異なり、視覚と言語の処理を基盤レベルで融合させることで、エージェントとしての行動生成までを一貫して実行する。

手法: 異種コンテキスト（スクリーンショット、文書画像、ウェブページなど）を統一的に処理するマルチモーダルアーキテクチャを構築し、知覚から行動までのエンドツーエンド学習を実現。GUIインタラクション、ドキュメント理解、マルチモーダル推論の各ベンチマークで高い性能を達成している。

Hugging Face Daily Papers

Large Language Models Explore by Latent Distilling

著者: Yuanhao Zeng, Ao Lu, Lufei Li et al.

テスト時スケーリングにおいてLLMの多様な応答生成は重要であるが、標準的な確率的サンプリングは表面的な語彙変動にとどまり、意味的探索が制限されている。本研究は意味的探索を明示的に促進するデコーディング手法Exploratory Sampling（ESamp）を提案した（52 upvotes）。

新規性: デコーディング時に潜在空間での蒸留を行い、表面的な語彙レベルの多様性ではなく意味レベルの探索を実現する発想。従来のtemperatureやtop-pサンプリングが同一の意味を異なる語彙で表現するだけだったのに対し、ESampは異なる推論パスを積極的に探索する。

手法: 生成済みの応答から潜在表現を抽出し、新たな応答がこれらと意味的に異なる方向に向かうようデコーディングを誘導する。潜在蒸留により既出の推論パターンからの逸脱を促進することで、多様な応答候補を効率的に生成し、best-of-N選択やmajority votingの精度を向上させる。

Hugging Face Daily Papers

ClawGym: A Scalable Framework for Building Effective Claw Agents

著者: Fei Bai, Huatong Song, Shuang Sun et al.

Claw型環境はローカルファイル・ツール・永続的ワークスペース状態にまたがるマルチステップワークフローを扱うが、検証可能な訓練データの合成と体系的なフレームワークの欠如がスケーラブルな開発を制約している。本研究はこの課題に対応するClawGymを導入した（37 upvotes）。

新規性: エージェント訓練データの自動合成と評価を統合したスケーラブルなフレームワーク。手動でのタスク設計や軌跡収集に依存せず、検証可能なタスクインスタンスをプログラム的に生成し、エージェントの能力を体系的に向上させる基盤を提供する。

手法: タスクの自動合成エンジンにより多様なマルチステップワークフローを生成し、各タスクに対する正解判定基準を自動的に付与する。生成された訓練データでエージェントを学習させ、成功率に基づくフィードバックで合成パイプラインを改善する反復的プロセスを構築した。

Hugging Face Daily Papers

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

著者: Gongbo Zhang, Wen Wang, Ye Tian et al.

拡散型大規模言語モデル（dLLM）は並列デコーディングと双方向コンテキストの利点を持つが、競争力ある性能には数十億パラメータが必要である。既存の蒸留手法はdLLM内での推論ステップ削減に限定されており、クロスアーキテクチャ蒸留は未探索であった。本研究はdLLMから自己回帰型LLMへの蒸留を初めて実現した（35 upvotes）。

新規性: 拡散型と自己回帰型という根本的に異なる生成パラダイム間での知識蒸留を可能にした初の手法。dLLMの双方向文脈理解能力を自己回帰モデルに移転することで、小規模な自己回帰モデルでも競争力ある性能を達成する新しい蒸留パラダイムを確立した。

手法: dLLMのデノイジングプロセスで獲得される双方向的な文脈表現を教師信号として活用し、自己回帰型の生徒モデルを訓練する。アーキテクチャ間の生成プロセスの違いを橋渡しする蒸留損失関数を設計し、効率的な知識移転を実現した。

Hugging Face Daily Papers

Why Fine-Tuning Encourages Hallucinations and How to Fix It

著者: Guy Kaplan, Zorik Gekhman, Zhen Zhu et al.

LLMは事実と異なる記述を生成するハルシネーションを起こしやすい。その主要な原因の一つが、教師ありファインチューニング（SFT）で新たな事実情報に曝露されることにより、プレトレーニングで獲得した知識に対するハルシネーションが増加することである。本研究はこのメカニズムを解明し対策を提案した（18 upvotes）。

新規性: SFTが新事実を導入する際にプレトレーニング知識との干渉が生じるメカニズムを体系的に分析。既知の事実に対するハルシネーション率の増加が、SFTデータ中の未知事実の割合と相関することを示し、知識の衝突がハルシネーションの根本原因であることを実証した。

手法: SFTデータを「モデルが既に知っている事実」と「新規事実」に分類し、新規事実の導入がモデルの既存知識の信頼性に与える影響を定量化する。対策として、モデルの既存知識と矛盾しないデータのみでSFTを行うフィルタリング手法や、知識の衝突を最小化する訓練戦略を提案した。

Hugging Face Daily Papers

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

著者: Tianhao Hu, Xiangcheng Liu, Youshao Xiao et al.

LLMの強化学習ポストトレーニングではロールアウトフェーズが全ステップ時間の50〜80%を占め、長尾軌跡がパイプライン全体をブロックするボトルネックとなっている。本研究は非同期ロールアウトによりこの課題を解消するDORAシステムを提案した。

新規性: マルチバージョンストリーミングロールアウトという新しい非同期パラダイムを導入。複数のポリシーバージョンを同時に維持し、アルゴリズム的制約（軌跡内ポリシー一貫性、データ整合性、制限付きスタレネス）を損なうことなく完全なバブル除去を達成した。

手法: 生成と学習を非同期に重複させつつ、3つのアルゴリズム的制約を厳密に保証するシステムを設計。数万アクセラレータ規模の産業応用で同期学習比2〜4倍の高速化を実現し、結果として得られたLongCat-Flash-Thinkingモデルは複雑な推論ベンチマークで最先端LLMに匹敵する性能を示した。

arXiv

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control (Entrocraft)

著者: Bolian Li, Yifan Wang, Yi Ding et al.

LLMの強化学習では多くのアルゴリズムがエントロピー崩壊による性能飽和に直面し、学習スケールの拡大に伴う改善が頭打ちになる。既存のエントロピー正則化やクリッピングでは長期的なエントロピー曲線が不安定になりやすい。本研究はユーザー指定の任意のエントロピースケジュールを実現するEntrocraftを提案した。

新規性: アドバンテージ分布のバイアスにより任意のエントロピースケジュールを実現するリジェクションサンプリング手法。目的関数の正則化を必要とせず、アドバンテージ推定器に依存しない汎用的なアプローチで、エントロピー制御の理論的基盤も提供した。

手法: 各ステップのエントロピー変化をアドバンテージ分布と関連付ける理論的分析に基づき、線形アニーリング（高エントロピーからの漸減）が最良であることを発見。4Bモデルが8Bベースラインを上回り、プラトーまでの学習期間を4倍に延長し、pass@Kを50%向上させた。

arXiv

分野別の動向

マルチモーダル・エージェント基盤

GLM-5V-Turbo（71 upvotes）がマルチモーダルエージェント向けネイティブ基盤モデルを提示し、ClawGym（37 upvotes）がエージェント訓練のスケーラブルなフレームワークを導入した。FAMA（5 upvotes）はオープンソースLLMのツール使用における失敗認識型メタエージェントフレームワークを提案し、GoClick（3 upvotes）はリソース制約デバイス上でのGUI要素グラウンディングに取り組んでいる。エージェント研究は個別タスクの性能改善から、訓練基盤・評価基盤・デプロイ基盤の体系的整備へと移行しつつある。

LLM推論・デコーディング

ESamp（52 upvotes）が意味的探索を明示的に促進するデコーディング手法を提案し、Entrocraftがエントロピー崩壊の根本的解決に取り組んだ。arXivではEntropy Centroids（cs.LG）がエントロピーの時間的構造をテスト時スケーリングの内発的報酬として活用する手法を提案し、SpecTr-GBV（cs.CL）がマルチドラフトとブロック検証を統合する投機的デコーディング手法を導入した。推論効率と応答品質の両立に向け、デコーディング段階での制御手法が多角的に発展している。

強化学習によるLLM訓練

DORA（cs.LG）が非同期ロールアウトで産業規模のRL訓練を2〜4倍高速化し、Entrocraft（cs.LG）がエントロピースケジュール制御で性能飽和を解消した。Accelerating RL Post-Training Rollouts via Speculative Decoding（3 upvotes）はロールアウト生成自体に投機的デコーディングを適用する効率化手法を提案している。RL訓練のスケーラビリティとアルゴリズム的安定性の両面で、システムレベルとアルゴリズムレベルの革新が並行して進んでいる。

アーキテクチャ・蒸留

Turning the TIDE（35 upvotes）がdLLMからARモデルへのクロスアーキテクチャ蒸留を実現し、異なる生成パラダイム間の知識移転という新たな研究方向を開拓した。arXivではCapKV（cs.LG）がKVキャッシュの退避を情報ボトルネック原理から再定式化し、UniMatrix（cs.CL）が構造化リカレント状態とスパース検索を組み合わせるUniversal Transformer型アーキテクチャを探索している。効率的なモデル設計において、理論的基盤に立脚したアプローチが増加している。

ハルシネーション・安全性

Why Fine-Tuning Encourages Hallucinations（18 upvotes）がSFTによるハルシネーション増加のメカニズムを解明した。arXivではHIVE（cs.CL）が拡散型LLMのデノイジング軌跡から隠れ証拠を抽出するハルシネーション検出手法を提案し、Anchored Confabulation（cs.CL）が部分的証拠がハルシネーション確信度を非単調に増幅する現象を特定した。DenialBench（cs.CL）は115のAIモデルにおける意識否認行動を体系的に測定し、訓練された自己報告の歪みがアライメント上の安全性課題であると主張している。ハルシネーションの発生メカニズム・検出・安全性への含意が多面的に研究されている。