LLM/NLP最新論文 - 2026-05-16

統一スケーリングによるIMO金メダル級推論が126 upvotesで圧倒的注目を集め、Causal Forcing++がリアルタイム動画生成を73 upvotesで牽引。エージェント記憶の評価・構築に関する研究（MemLens 60、MemEye 47、STALE 37、PREPING 23 upvotes）が同時多発的に登場し、LLMエージェントの長期記憶が急速に研究領域として成熟しつつある。

注目度

注目論文

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

著者: Yafu Li, Runzhe Zhan, Haoran Zhang et al.

国際数学オリンピック（IMO）・国際物理オリンピック（IPhO）の金メダルレベルの推論性能を、単純かつ統一的なスケーリング手法で達成した研究（126 upvotes）。複雑なアーキテクチャ変更を必要とせず、既存の推論モデルフレームワーク上でスケーリングを系統的に行う方法論を提示している。

新規性: 近年の複数の推論モデルが個別にIMO/IPhO級の性能を報告しているが、本研究はそれらに共通するスケーリング原理を統一的な視点から整理し、追加的な複雑化なしに金メダル級性能を再現可能にした点が大きい。「単純さ」と「統一性」を強調する姿勢が、再現性とスケーリングの実践的指針として価値が高い。

手法: 長期的な数学・科学推論におけるデータスケーリング、計算スケーリング、学習レシピの各要素を系統的に比較・最適化する。個別のタスク固有トリックではなく、統一的なスケーリング戦略により複数の競技数学・物理ベンチマークで新たなSOTAを達成している。

Hugging Face Daily Papers

Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation

著者: Min Zhao, Hongzhou Zhu, Kaiwen Zheng et al.

リアルタイムのインタラクティブ動画生成に必要な低遅延・ストリーミング・制御可能なロールアウトを実現する、自己回帰拡散蒸留の新手法を提案した（73 upvotes）。既存の4ステップ蒸留を超え、1-2ステップ領域での高品質生成を達成している。

新規性: 既存のチャンク単位4ステップ蒸留手法は双方向ベースモデルからの蒸留で強い結果を示していたが、1-2ステップ領域では品質が急激に劣化する。本研究はこの限界を突破し、超少ステップでのリアルタイムインタラクティブ生成を初めて実用的な品質で実現した。

手法: 因果的フォーシングの枠組みを拡張し、自己回帰拡散モデルの少ステップ蒸留をスケーラブルに行う。双方向ベースモデルから自己回帰学生モデルへの蒸留プロセスを最適化し、ストリーミング生成と制御性を維持しながらステップ数を最小化する。

Hugging Face Daily Papers

Self-Distilled Agentic Reinforcement Learning

著者: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han et al.

LLMエージェントのRL学習において、軌跡レベルの報酬信号が長期タスクに対して粗すぎるという問題に対し、オンポリシー自己蒸留（OPSD）を統合してトークンレベルの密な教師信号を提供する手法を提案した（66 upvotes）。

新規性: RLの軌跡レベル報酬とトークンレベル蒸留を単一フレームワークで統合し、教師モデルからの密な監視信号をオンポリシーで活用する点が独自である。エージェントの長期タスクにおける信用割当問題を構造的に緩和している。

手法: 教師モデルが学生自身のロールアウト上でトークンレベルのガイダンスを提供するオンポリシー自己蒸留をRLと組み合わせる。RLの報酬最大化と蒸留のKLペナルティを統合した目的関数により、探索と活用のバランスを制御する。

Hugging Face Daily Papers

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

著者: Xiyu Ren, Zhaowei Wang, Yiming Du et al.

大規模視覚言語モデル（LVLM）の長期マルチモーダル記憶能力を体系的に評価する新ベンチマークを構築した（60 upvotes）。長文脈LVLMと記憶拡張エージェントの2つのアプローチを同一基準で比較する初の研究である。

新規性: 既存のベンチマークはテキスト記憶やシングルターン質問応答に偏っていたが、MemLensは複数セッションにまたがるマルチモーダル（視覚＋言語）な長期記憶を要求する質問を体系的に設計した点が新しい。長文脈LVLMと記憶拡張エージェントの本質的な差異を明らかにしている。

手法: 長期的なマルチモーダルインタラクションを模擬するシナリオを設計し、視覚的証拠の保持・統合・検索を必要とする質問群を構築する。長文脈LVLM（全履歴を入力）と記憶拡張エージェント（選択的検索）の性能を統一的に評価する。

Hugging Face Daily Papers

SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

著者: Haoyi Zhu, Haozhe Liu, Yuyang Zhao et al.

2.6Bパラメータのオープンソースワールドモデルで、720p・1分間の高品質動画生成を精密なカメラ制御付きで実現した（51 upvotes）。産業用大規模ベースラインに匹敵する視覚品質を達成している。

新規性: 分単位の長尺動画生成をオープンソースの比較的小規模なモデルで実現した点が注目に値する。ハイブリッドリニアDiffusion Transformerにより、長尺生成に必要な計算量を実用的な範囲に抑えている。

手法: リニアアテンションとDiffusion Transformerを組み合わせたハイブリッドアーキテクチャにより、長系列の動画生成における計算コストを削減する。カメラ制御情報を条件として組み込み、視点移動を伴う一貫した長尺動画を生成する。

Hugging Face Daily Papers

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

著者: Minghao Guo, Qingyue Jiao, Zeru Shi et al.

マルチモーダルエージェントの長期記憶における視覚的証拠の保持能力を評価するフレームワークを提案した（47 upvotes）。既存評価ではキャプションやテキスト痕跡のみで回答可能な問題が多く、真の視覚記憶能力を測定できていなかった問題を指摘している。

新規性: 視覚的に基盤付けされた質問の多くがテキスト情報のみで解答可能であるという既存ベンチマークの根本的欠陥を特定し、視覚的証拠の保持を明示的に要求する評価設計を行った点が重要である。

手法: テキスト痕跡のみでは解答不可能な視覚記憶質問を設計し、エージェントが視覚的証拠をどの程度正確に保持・検索・推論に活用できるかを多角的に評価する。キャプションベースの捷径を排除する評価プロトコルを導入している。

Hugging Face Daily Papers

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

著者: Taebong Kim, Youngsik Hong, Minsik Kim et al.

追加学習なしの進化的重みマージにより、LLMの推論性能をスケールアップするフレームワークを提案した（42 upvotes）。勾配不要の重み空間組み換えにより、既にモデルに符号化された潜在能力を再構成する。

新規性: 学習なしで最先端推論性能を改善できるかという問いに対し、MRI信頼度に基づく進化的マージ戦略で肯定的な回答を示した点が斬新である。計算コストを大幅に削減しつつ推論能力を向上させる実用的な経路を提示している。

手法: 複数のLLM間で勾配不要の重み空間組み換え（進化的マージ）を行い、MRI（Mutual Reasoning Improvement）信頼度スコアに基づいてマージ戦略を最適化する。追加学習データや勾配計算を必要とせず、既存モデルの重み空間上で最適な組み合わせを探索する。

Hugging Face Daily Papers

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

著者: Shihao Qi, Jie Ma, Rui Xing et al.

LLMベースのマルチエージェントシステムにおける協調、障害帰属、自己進化を包括的にサーベイした研究（39 upvotes）。個別エージェントの能力限界を超えるタスクにおいて、構造化された協調が必要になる場面を体系的に整理している。

新規性: マルチエージェントシステムを「協調」「障害帰属」「自己進化」の3軸で統一的に俯瞰する点が既存サーベイと差別化される。特に障害帰属（どのエージェントのどの判断が失敗の原因か）と自己進化（経験からの自律的改善）という、実運用上重要だが研究が不十分な領域に焦点を当てている。

手法: LLMベースマルチエージェントシステムの既存研究を体系的に分類し、ロール・ツール・環境間の持続的な協調を要するタスクにおける課題と解決策を整理する。各軸における代表的手法の強みと限界を比較分析している。

Hugging Face Daily Papers

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

著者: Hanxiang Chao, Yihan Bai, Rui Sheng et al.

LLMエージェントが新しい証拠に基づいて古くなった記憶を適切に更新できるかを評価する新ベンチマークを構築した（37 upvotes）。静的な事実検索ではなく、信念修正能力に焦点を当てた初の体系的研究である。

新規性: 既存の記憶ベンチマークが静的な事実検索に偏っている中、記憶の「有効期限」と動的更新能力を明示的に評価する点が独自である。LLMエージェントの信念修正における重大な欠陥を実証的に発見している。

手法: 時間経過とともに無効化される情報を含む記憶シナリオを設計し、新しい証拠が提示された際にエージェントが既存の記憶を適切に改訂できるかを評価する。記憶の固着度と更新応答性を定量的に測定する評価プロトコルを導入している。

Hugging Face Daily Papers

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

著者: Shuangrui Ding, Xuanlang Dai, Long Xing et al.

CLIハーネス上で動作するLLM/VLMエージェントを、実世界の長期タスクで評価する新ベンチマークを提案した（36 upvotes）。既存ベンチマークが合成サンドボックス・短期タスク・モックAPI・最終回答チェックに依存している問題を指摘している。

新規性: 既存のエージェントベンチマークの主要な限界（合成環境、短期タスク、表面的評価）を同時に克服する包括的な実世界評価基盤を構築した点が貢献である。長期的なエージェント行動の評価手法として実践的な標準を提示している。

手法: 実世界のCLI環境上で長期的なタスク遂行を要求するベンチマークを設計し、中間状態を含むプロセス全体を評価対象とする。最終回答の正誤だけでなく、タスク遂行の各段階における判断の質を多角的に測定する。

Hugging Face Daily Papers

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

著者: Jingjun Xu, Hongji Pu, Tao Feng et al.

LLMルーティングにおけるモデルプロファイル（モデル能力の記述）の設計空間を体系的に解明した研究（26 upvotes）。既存研究がルーター機構の設計に注力する一方、プロファイル設計の影響が過小評価されていた問題に取り組んでいる。

新規性: LLMルーティングにおいて、ルーター自体の設計よりもモデルプロファイルの設計がルーティング性能に大きく影響することを示した点が重要である。プロファイル設計空間の体系的探索は初の試みである。

手法: モデル能力を捉えるプロファイルの表現方法（ベンチマークスコア、テキスト記述、埋め込みベース等）を体系的に比較し、ルーティング性能への影響を定量的に分析する。最適なプロファイル設計の指針を導出している。

Hugging Face Daily Papers

PREPING: Building Agent Memory without Tasks

著者: Yumin Choi, Sangwoo Park, Minki Kang et al.

タスク固有の経験なしでエージェントの手続き的記憶を事前構築し、コールドスタート問題を解決するフレームワークを提案した（23 upvotes）。合成的な練習タスクを自律的に生成・実行し、デプロイ前に記憶を構築する。

新規性: エージェントが新環境に投入された際のコールドスタート問題に対し、タスク経験なしで記憶を事前構築するというアプローチが独自である。合成タスク生成の質が記憶の有用性を決定するという知見も実践的に重要である。

手法: Proposerが合成タスクを生成し、Solverが実行、Validatorが軌跡の品質を判定して記憶に格納する3段階フレームワーク。Proposer記憶という構造化された制御状態により、実行可能性・冗長性・カバレッジを制御しながら効率的に記憶を構築する。

Hugging Face Daily Papers

EvolveMem: Self-Evolving Memory Architecture via AutoResearch for LLM Agents

著者: Jiaqi Liu, Xinyu Ye, Peng Xia et al.

LLMエージェントの記憶システムにおいて、格納データだけでなく検索メカニズム自体を自律的に進化させるアーキテクチャを提案した（20 upvotes）。検索設定全体をLLM駆動の診断モジュールが最適化する閉ループ自己進化を実現している。

新規性: 既存の記憶システムが検索インフラを固定的に扱う中、スコアリング関数・融合戦略・回答生成ポリシーまでを自律的に進化させる点が根本的に新しい。進化した設定がベンチマーク間で正の転移を示すことも、汎用的な検索原理の発見を示唆している。

手法: 検索設定全体を構造化されたアクション空間として公開し、LLM駆動の診断モジュールが質問単位の失敗ログから根本原因を特定して設定を調整する。自動リバート・停滞時探索のセーフガードにより安定した自己進化を保証する。

Hugging Face Daily Papers

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

著者: Runyuan He, Qiuyang Mang, Shang Zhou et al.

最適解が未知のオープンエンドなコーディング問題を大規模に自動生成するフレームワークを提案した（15 upvotes）。既存の評価が機能実装・バグ修正・競技プログラミングなどの明確に定義されたタスクに偏っている問題に対処している。

新規性: 「正解が一つではない」オープンエンドなコーディング問題をLLMの弱点として特定し、そのような問題を大規模に自動生成するパイプラインを構築した点が独自である。LLMのコード能力評価を本質的に拡張している。

手法: オープンエンドなコーディング問題を自動生成するための問題合成パイプラインを設計し、解の質を相対的に評価するための基準を導入する。生成された問題が十分な多様性と挑戦性を持つことを保証する品質管理メカニズムを組み込んでいる。

Hugging Face Daily Papers

分野別の動向

エージェント記憶・長期記憶

本日最も顕著なトレンドはエージェント記憶に関する研究の集中的な登場である。MemLens（60 upvotes）がLVLMの長期マルチモーダル記憶を評価し、MemEye（47 upvotes）が視覚的証拠の保持に特化した評価を提案、STALE（37 upvotes）が記憶の有効期限と信念修正能力を検証している。構築面ではPREPING（23 upvotes）がタスク経験なしの事前記憶構築を、EvolveMem（20 upvotes）が検索メカニズム自体の自己進化を提案した。これら5本が同日に登場したことは、エージェント記憶が「記憶するかしないか」から「何をどう記憶し、いつ更新し、どう検索するか」という成熟した研究領域に移行しつつあることを示している。前日にはこの規模の記憶特化研究は見られず、急速な研究加速が窺える。

推論スケーリング・推論能力

Achieving Gold-Medal-Level Olympiad Reasoning（126 upvotes）が統一的スケーリングによるIMO/IPhO金メダル級性能を実証し、Darwin Family（42 upvotes）が学習なしの進化的マージで推論性能をスケールした。両者は異なるアプローチ（スケーリング法則の統一 vs 重み空間マージ）で推論能力の向上を追求しており、学習コストを抑えつつ推論能力を引き出す方向での研究が活発化している。arXivからはTabPFN-3が表形式データの基盤モデルでSOTAを更新し、テスト時計算スケーリングを表形式モデルに導入している。

動画生成・ワールドモデル

Causal Forcing++（73 upvotes）がリアルタイムインタラクティブ動画生成の少ステップ蒸留を実現し、SANA-WM（51 upvotes）がオープンソースの2.6Bモデルで分単位の720p動画生成を達成した。前日のAnyFlow（75 upvotes）が任意ステップ動画生成を提案したのに続き、動画生成の実用性・効率性の追求が連日の主要テーマとなっている。特にリアルタイム性と長尺化の両方向での同時進展が注目される。

エージェント評価・ベンチマーク

WildClawBench（36 upvotes）が実世界CLIタスクでのエージェント長期評価を、FrontierSmith（15 upvotes）がオープンエンドコーディング問題の自動生成を提案した。arXivからはHarnessAudit（Auditing Agent Harness Safety）がエージェントハーネスの安全性監査を、ClawForgeがCLIワークフロー下の状態衝突評価を提案している。前日に続きエージェント評価の高度化が進むが、本日は特に「出力だけでなくプロセス全体を評価する」方向性が明確化している。

マルチエージェント・協調

Beyond Individual Intelligence（39 upvotes）がマルチエージェントシステムの協調・障害帰属・自己進化を包括的にサーベイし、arXivからはGraphBit（DAGベースエージェントオーケストレーション）やInvisible Orchestrators（不可視オーケストレーターの安全性リスク）が登場した。マルチエージェントシステムが研究段階から実運用への移行期に入り、障害分析と安全性保証が新たな課題として浮上している。

LLMルーティング・効率化

RouteProfile（26 upvotes）がLLMルーティングにおけるプロファイル設計の重要性を示した。arXivからはSelf-Pruned KV Attention（KVキャッシュの動的3-10倍圧縮）やBEAM（MoEの動的ルーティング）が効率化手法を提案しており、推論時の計算資源配分の最適化が多面的に進展している。