LLM/NLP最新論文 - 2026-05-12

Mean Mode Screamingが1000層規模Diffusion Transformerの崩壊メカニズムを解明し101 upvotes。Listwise Policy OptimizationとFlow-OPDがそれぞれRLVRと画像生成の最適化手法を刷新。HyperEyesとLLMs Improving LLMsがエージェントの検索効率とテスト時スケーリングの自動化を推進した。

注目度

注目論文

Mean Mode Screaming: Mean—Variance Split Residuals for 1000-Layer Diffusion Transformers

著者: Pengqi Lu

Diffusion Transformer（DiT）を数百層規模にスケールさせると、トークン表現が均質化し中心化された変動が抑制される「サイレント平均支配型崩壊」が発生する。本研究はメカニスティック監査によりこの崩壊のトリガーイベントを特定し、平均-分散分離残差という解決策を提案した（101 upvotes）。

新規性: DiTの超深層化における構造的脆弱性を初めて体系的に解明した点が画期的である。崩壊が「サイレント」に進行する性質を明らかにし、標準的な学習メトリクスでは検出困難であることを示した。平均成分と分散成分を分離して処理するという直接的かつ原理的な解決策により、1000層規模のDiTの安定学習を実現している。

手法: 残差接続における平均成分と中心化された変動成分を明示的に分離し、それぞれに異なる処理を施す。平均支配崩壊の発生メカニズムとして、残差ストリームにおける平均信号の蓄積がトークン間の識別性を破壊するプロセスを特定し、分離処理によりこの崩壊を構造的に防止する。

Hugging Face Daily Papers

Flow-OPD: On-Policy Distillation for Flow Matching Models

著者: Zhen Fang, Wenxuan Huang, Yu Zeng et al.

既存のFlow Matching（FM）テキスト画像生成モデルはマルチタスクアライメントにおいて、スカラー報酬による報酬疎性と異種目的の同時最適化による勾配干渉という2つのボトルネックに直面し、「シーソー効果」を引き起こす。本研究はオンポリシー蒸留によりこれらを同時に解決する手法を提案した（73 upvotes）。

新規性: FMモデルのマルチタスクアライメントにおける報酬疎性と勾配干渉を統一的に分析し、両問題を同時に解決するオンポリシー蒸留フレームワークを構築した点が重要である。個別目的間のトレードオフ（シーソー効果）を根本的に緩和するアプローチを示した。

手法: 教師モデルからの蒸留をオンポリシーで実施し、生成モデル自身のサンプルに基づいて学習を進める。スカラー報酬に代わる密な教師信号により報酬疎性を解消し、異種目的の勾配干渉を蒸留目標の統合により緩和する。

Hugging Face Daily Papers

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

著者: Yun Qu, Qi Wang, Yixiu Mao et al.

検証可能報酬による強化学習（RLVR）はLLMの推論能力を引き出すための標準的アプローチとなっているが、既存のグループベースポリシー勾配には理論的な最適性の保証が不十分である。本研究はRLVRをLLM応答シンプレックス上のターゲット射影として再定式化し、リストワイズ最適化を提案した（57 upvotes）。

新規性: グループベースポリシー勾配を確率シンプレックス上の射影操作として幾何学的に再解釈した点が理論的に重要である。この視点により、既存手法の暗黙の仮定を明示化し、より原理的な更新則を導出している。

手法: プロンプトごとにサンプリングされた応答グループをシンプレックス上の分布として扱い、検証可能報酬に基づくターゲット分布への射影としてポリシー更新を定式化する。リストワイズの比較情報を活用することで、ペアワイズやポイントワイズの更新よりも効率的な学習を実現している。

Hugging Face Daily Papers

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

著者: Guankai Li, Jiabin Chen, Yi Xu et al.

既存のマルチモーダル検索エージェントは対象エンティティを逐次処理し、エンティティごとに1回のツール呼び出しを行うため、独立したサブ検索が分解可能なクエリに対して冗長なインタラクションラウンドが蓄積される。本研究は「より深くではなく、より広く検索する」という並列検索パラダイムを提案した（57 upvotes）。

新規性: マルチモーダル検索エージェントの逐次処理ボトルネックを明確に指摘し、並列ツール呼び出しによる効率化を二粒度の効率認識型強化学習で実現した点が独自である。検索の「深さ」ではなく「幅」に最適化リソースを配分するという発想の転換を示している。

手法: 粗粒度（クエリレベル）と細粒度（エンティティレベル）の二層で効率を評価する強化学習フレームワークを構築し、独立したサブ検索を並列化する。冗長なインタラクションラウンドを排除しつつ、検索品質を維持するための効率認識型報酬設計を採用している。

Hugging Face Daily Papers

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

著者: Tong Zheng, Haolin Liu, Chengsong Huang et al.

テスト時スケーリング（TTS）はLLMの推論性能を向上させる有効なアプローチだが、既存のTTS戦略は手作業で設計されており、研究者が直感的に推論パターンを設計しヒューリスティクスを調整している。本研究はLLMエージェントがTTS戦略を自動的に発見するアプローチを提案した（53 upvotes）。

新規性: テスト時スケーリング戦略の設計自体をLLMエージェントに委託するというメタレベルの自動化が画期的である。手作業の推論パターン設計というボトルネックを解消し、人間が見落とす可能性のある効果的な戦略の発見を可能にしている。

手法: LLMエージェントが推論パターンやヒューリスティクスを探索・評価・改善するエージェンティックな発見ループを構築する。発見された戦略の有効性を自動検証し、成功パターンを蓄積・再利用することで、テスト時スケーリングの最適化を自動化している。

Hugging Face Daily Papers

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

著者: Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh

LoRAはパラメータ効率的なファインチューニングの標準手法となっているが、事前に固定された静的ランクrを設定する必要があり、計算リソースと性能のトレードオフが硬直的である。本研究はマトリョーシカ構造による階層的低ランク表現を学習し、単一の学習で複数ランクに対応する手法を提案した（15 upvotes）。

新規性: マトリョーシカ表現学習の概念をLoRAに適用し、一度の学習で任意のランクのアダプタを抽出可能にした点が実用的に重要である。デプロイ時のリソース制約に応じて動的にランクを選択できるため、静的ランク設定の限界を解消している。

手法: LoRAの低ランク行列を階層的に構成し、上位ランクの部分行列が下位ランクのアダプタとして機能するよう学習する。ネスト構造の正則化により、各ランクレベルで高い精度を維持しながら、単一モデルから複数の計算-性能トレードオフを実現する。

Hugging Face Daily Papers

TextLDM: Language Modeling with Continuous Latent Diffusion

著者: Jiaxiu Jiang, Jingjing Ren, Wenbo Li et al.

Diffusion Transformer（DiT）とFlow Matchingの組み合わせはVAE潜在空間での画像・動画生成を統一したが、テキスト生成への拡張は未開拓であった。本研究はこのフレームワークをテキスト生成に適用し、視覚と言語を統一的なアーキテクチャで扱う可能性を示した（19 upvotes）。

新規性: 画像・動画生成で成功したVAE潜在空間+Flow Matching DiTのパイプラインをテキスト生成に直接適用した初めての本格的な試みである。前日のContinuous Latent Diffusion Language Modelに続き、非自己回帰テキスト生成の流れが加速していることを示している。

手法: テキストをVAEで連続潜在空間にエンコードし、DiTアーキテクチャ上でFlow Matchingにより潜在表現の生成を学習する。デコーダで潜在表現からテキストに変換する。画像生成と同一のアーキテクチャ基盤を共有することで、マルチモーダル統一生成への道筋を提示している。

Hugging Face Daily Papers

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

著者: Qihang Fan, Huaibo Huang, Zhiying Wu et al.

LLMの長コンテキスト推論において、プリフィル処理は計算コストの主要なボトルネックとなっている。本研究はブロック単位の動的スパース化により、ハイブリッドアーキテクチャを含む多様なLLMに汎用的に適用可能なプリフィル高速化手法を提案した（19 upvotes）。

新規性: 特定のアーキテクチャに依存せず、最近提案された低計算量ハイブリッドアーキテクチャを含む多様なLLMに汎用的に適用可能な点が実用的価値が高い。ブロック単位の粒度設計により、トークン単位のスパース化よりもハードウェア効率の良い実装を実現している。

手法: プリフィル時のアテンション計算をブロック単位で動的にスパース化し、重要度の低いブロックの計算をスキップする。ブロック重要度の推定をオンラインで効率的に行い、品質劣化を最小限に抑えながらプリフィル処理を高速化する。

Hugging Face Daily Papers

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

著者: Haotian Zhao, Songlin Zhou, Yuxin Zhang et al.

マルチターンエージェントタスクにおける強化学習は、スパースな結果報酬が個別アクションへの信用割当を困難にするという課題を抱えている。本研究は適応的エントロピー調整により、エージェントRLにおける探索と活用のバランスを動的に制御する手法を提案した（16 upvotes）。

新規性: エージェントRLにおけるエントロピー係数をタスク進行状況やアクション種別に応じて動的に調整する点が独自である。固定的なエントロピー正則化では対処困難な、マルチターン環境での探索-活用ジレンマに対する実用的な解決策を提示している。

手法: エージェントの対話履歴やタスク状態に基づいてエントロピー係数を適応的に変調する。探索が必要な局面では高エントロピーを維持し、確信度の高いアクションでは低エントロピーに移行することで、スパース報酬環境での効率的な学習を実現する。

Hugging Face Daily Papers

Fast Byte Latent Transformer

著者: Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz et al.

バイトレベル言語モデルはサブワード語彙に依存せずトークンレベルモデルと同等の性能を達成するが、バイト単位の自己回帰生成により推論速度が実用上のボトルネックとなっている。本研究はByte Latent Transformer（BLT）に対する新たな学習・推論手法により、この速度問題を解消した（5 upvotes）。

新規性: BLTの生成速度ボトルネックに対して、学習手法と推論手法の両面からアプローチし、トークナイザ不要の言語モデルを実用的な速度に引き上げた点が重要である。サブワード語彙のスケーリング問題を回避しつつ、速度面でのペナルティを大幅に削減している。

手法: バイトレベルの自己回帰生成における冗長な計算を削減する新たな学習目標と、推論時の効率的なデコーディング戦略を導入する。トークナイザに依存しないことで語彙サイズに伴うO(V)のスケーリングボトルネックを回避しつつ、実用的な生成速度を実現している。

Hugging Face Daily Papers

分野別の動向

拡散モデル・生成モデル基盤技術

本日最も顕著なトレンドである。Mean Mode Screaming（101 upvotes）が超深層DiTの構造的脆弱性を解明し、Flow-OPD（73 upvotes）がFlow Matchingモデルのマルチタスクアライメントを改善、TextLDM（19 upvotes）が同フレームワークのテキスト生成への拡張を示した。前日のContinuous Latent Diffusion Language Modelと合わせ、拡散ベースの生成モデルが画像・動画からテキストへと適用範囲を急速に拡大している。特にMean Mode Screamingの101 upvotesは、DiTのスケーリングにおける実践的な課題がコミュニティの強い関心を集めていることを反映している。

LLMの強化学習・最適化

Listwise Policy Optimization（57 upvotes）がRLVRの理論的基盤を強化し、AEM（16 upvotes）がマルチターンエージェントRLの探索-活用バランスを改善した。RLVRの再定式化は、GRPOに代表されるグループベース手法の理論的理解を深める重要な貢献であり、LLMの推論能力強化における強化学習手法の洗練が続いている。

エージェントの効率化と自動化

HyperEyes（57 upvotes）が並列検索によるエージェントの効率化を、LLMs Improving LLMs（53 upvotes）がテスト時スケーリング戦略の自動発見を提案した。前日のSkill1やSkillOSがスキル獲得メカニズムに焦点を当てていたのに対し、本日はエージェントの実行効率とメタレベルの戦略最適化に軸足が移っている。エージェント研究が能力の獲得から効率的な運用へと成熟段階に入りつつある。

LLM推論効率化

MatryoshkaLoRA（15 upvotes）がファインチューニングの柔軟性を、UniPrefill（19 upvotes）が長コンテキストプリフィルの高速化を、Fast Byte Latent Transformer（5 upvotes）がトークナイザ不要モデルの実用化をそれぞれ推進した。異なるレイヤーでの効率化が並行して進展しており、モデルの適応・推論・生成の各段階で計算コスト削減の取り組みが活発である。