LLM/NLP最新論文 - 2026-05-18

Gold-Medal-Level Olympiad Reasoningが単純スケーリングでIMO金メダル級を達成し140 upvotesで圧倒的注目。Self-Distilled Agentic RLが84 upvotesでエージェント学習の密な指導信号を提案。MemLens・MemEye・STALE・PREPINGとエージェント記憶関連が4本同時に登場し、記憶能力の評価・構築が分野横断的なテーマとして確立した。

注目度

注目論文

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

著者: Yafu Li, Runzhe Zhan, Haoran Zhang et al.

単純かつ統一的なスケーリング手法により、IMO（国際数学オリンピック）およびIPhO（国際物理オリンピック）の金メダルレベルの推論性能を達成した（140 upvotes）。複雑なパイプラインや特殊なアーキテクチャを用いず、スケーリングの原理に忠実なアプローチで最高水準に到達している。

新規性: 近年の推論モデルは複雑な強化学習パイプラインやタスク固有の工夫を積み重ねる傾向にあったが、本研究は「単純で統一的なスケーリング」だけでフロンティア性能に到達できることを実証した点が画期的。スケーリング則の普遍性を改めて示している。

手法: 計算量・データ量・モデルサイズのスケーリングを統一的に適用し、数学・物理の長期的推論タスクにおいて金メダルレベルの問題解決能力を獲得する。タスク固有のハックを排し、汎用的なスケーリング戦略の有効性を検証している。

Hugging Face Daily Papers

Self-Distilled Agentic Reinforcement Learning

著者: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han et al.

LLMエージェントのRL学習において、軌跡レベルの粗い報酬信号しか得られない問題に対し、オンポリシー自己蒸留（OPSD）によるトークンレベルの密な指導信号を導入した（84 upvotes）。教師モデルからのトークンレベルガイダンスがRLの補完として機能する。

新規性: エージェントRLでは長期的な環境対話の末にしか報酬が得られず、信用割り当て問題が深刻だった。OPSDは教師の密なトークンレベル信号をオンポリシーで統合することで、追加の報酬設計なしにこの問題を構造的に緩和する。

手法: 教師モデルが学生の実際のロールアウト上でトークンレベルの指導を提供し、RLの軌跡報酬と組み合わせる。オンポリシーであるため学生の現在の方策分布上で密な監督が行われ、配分のずれを回避しながら学習効率を改善する。

Hugging Face Daily Papers

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

著者: Xiyu Ren, Zhaowei Wang, Yiming Du et al.

大規模視覚言語モデル（LVLM）の長期マルチモーダル記憶能力を体系的に評価するベンチマークを提案した（68 upvotes）。長文脈LVLMと記憶拡張エージェントの2つの方向性を、長期記憶を要する質問群で初めて体系的に比較している。

新規性: 既存ベンチマークは短期的な事実検索に偏っており、複数セッションにまたがるマルチモーダル記憶の保持・活用を評価できなかった。MemLensは長文脈モデルと記憶拡張アプローチの本質的な差異を浮き彫りにする初の体系的比較基盤を提供する。

手法: 長期的なマルチモーダル対話から生成された質問群を用い、視覚・言語情報の記憶保持と推論を要求するタスクで評価する。長文脈処理と外部記憶増強の2つのアプローチの強み・弱みを定量的に分析する。

Hugging Face Daily Papers

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

著者: Minghao Guo, Qingyue Jiao, Zeru Shi et al.

エージェントの長期記憶が視覚的証拠を適切に保持・活用できるかを評価するフレームワークを提案した（55 upvotes）。既存評価ではキャプションやテキスト痕跡だけで回答可能な問題が多く、真の視覚的記憶能力を測定できていなかった問題を指摘している。

新規性: 視覚的に根拠付けられた質問の多くがテキスト情報だけで解けてしまう「視覚的ショートカット」問題を初めて体系的に分析し、純粋に視覚的証拠の保持を要求する評価を設計した点が重要。記憶ベンチマークの評価妥当性を根本から問い直している。

手法: テキストのみでは回答不可能な視覚的質問を体系的に構築し、エージェントが過去の視覚入力をどの程度忠実に記憶・参照できるかを測定する。キャプションベースの記憶とピクセルレベルの記憶の差異を定量化する。

Hugging Face Daily Papers

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

著者: Taebong Kim, Youngsik Hong, Minsik Kim et al.

追加学習なしの進化的モデルマージにより、フロンティアレベルの推論性能を実現するフレームワークを提案した（50 upvotes）。勾配なしの重み空間組み換えだけで、既存モデルに内在する潜在能力を再編成し性能向上を達成する。

新規性: 追加学習なしで推論性能を改善できるかという問いに対し、MRI信頼度重み付きの進化的マージで肯定的に回答した。既にモデルに符号化された能力を「発掘」するアプローチは、計算資源に制約のある環境で特に実用的である。

手法: 複数の言語モデルの重みを進化的アルゴリズムで組み換え、MRI信頼度スコアに基づいて各パラメータの寄与を重み付けする。勾配計算を一切行わず、重み空間での探索のみでフロンティア性能に迫る構成を発見する。

Hugging Face Daily Papers

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

著者: Shihao Qi, Jie Ma, Rui Xing et al.

LLMベースマルチエージェントシステムにおける協調、障害帰属、自己進化を包括的に調査したサーベイ論文（44 upvotes）。個々のLLMエージェントの能力限界を超えるために必要な構造化された協調の設計原理を体系化している。

新規性: マルチエージェントシステムの研究は急増しているが、協調メカニズム・障害時の責任帰属・システム全体の自己進化という3つの軸で統一的に整理したサーベイは初めてである。実用的なマルチエージェント設計のための指針を提供している。

手法: 既存研究を協調構造（役割分担、通信プロトコル）、障害帰属（どのエージェントの失敗か特定する機構）、自己進化（経験からのシステム改善）の3軸で分類・分析し、未解決課題と今後の方向性を示している。

Hugging Face Daily Papers

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

著者: Shuangrui Ding, Xuanlang Dai, Long Xing et al.

実世界の長期タスクでCLIエージェントを評価するベンチマークを提案した（40 upvotes）。既存ベンチマークが合成サンドボックス、短期タスク、モックAPI、最終回答チェックに依存している問題を指摘し、本番環境に近い評価を実現している。

新規性: 既存のエージェント評価が人工的な環境に偏り、実世界での持続的な協調や長期的な計画能力を測定できていなかった。WildClawBenchはCLIハーネスを通じて動作するエージェントを、実世界のタスク複雑性と時間的スパンで評価する初のベンチマークである。

手法: 実世界のソフトウェアエンジニアリングタスクを長期ホライズンで設計し、エージェントがCLIを通じて計画・実行・修正を繰り返すプロセス全体を評価する。中間ステップの品質も含めた多面的な評価基準を採用している。

Hugging Face Daily Papers

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

著者: Hanxiang Chao, Yihan Bai, Rui Sheng et al.

LLMエージェントが保持する記憶が新たな証拠により無効化された際に、それを検知・修正できるかを評価する新ベンチマークを提案した（39 upvotes）。既存ベンチマークが静的な事実検索のみを測定し、信念の更新能力を見落としている問題に取り組んでいる。

新規性: エージェント記憶研究は「保持」と「検索」に注力してきたが、「無効化検知」という本質的に困難な側面は未探索だった。STALEは記憶の陳腐化を扱う初の体系的ベンチマークであり、動的環境でのエージェント運用に不可欠な能力を測定する。

手法: 時間経過や新情報の出現により既存の記憶が無効になるシナリオを構築し、エージェントが矛盾を検知して信念を適切に更新できるかを評価する。記憶の保持だけでなく「忘却」と「修正」の能力を定量化する。

Hugging Face Daily Papers

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

著者: Jingjun Xu, Hongji Pu, Tao Feng et al.

LLMルーティングにおけるモデルプロファイル（モデルの能力を捉える表現）の設計空間を体系的に分析した（28 upvotes）。既存研究がルーターメカニズムの設計に注力する中、入力となるプロファイル表現の重要性を明らかにしている。

新規性: LLMルーティング研究ではルーターのアーキテクチャや学習方法に焦点が当たりがちだが、モデルの能力を「どう表現するか」というプロファイル設計の問題を初めて体系的に分析した。ルーティング性能がプロファイルの質に大きく依存することを示している。

手法: モデル能力の表現方法（ベンチマークスコア、テキスト記述、埋め込みなど）を設計空間として定式化し、各表現がルーティング精度に与える影響を系統的に実験する。最適なプロファイル設計のための指針を導出している。

Hugging Face Daily Papers

PREPING: Building Agent Memory without Tasks

著者: Yumin Choi, Sangwoo Park, Minki Kang et al.

タスク経験なしでエージェント記憶を事前構築し、新環境へのコールドスタート問題を解決する手法を提案した（25 upvotes）。既存のエージェント記憶はオフラインのデモンストレーションかオンラインの運用経験に依存するが、両者が利用できない初期段階の問題に取り組んでいる。

新規性: エージェント記憶の「コールドスタート問題」を明示的に定義し、タスク固有の経験に依存しない記憶構築手法を初めて提案した。新環境に投入された直後からエージェントが効果的に動作するための事前知識の獲得方法を示している。

手法: タスク実行前の環境探索フェーズで有用な記憶を事前に構築する。環境の構造や操作可能なオブジェクトに関する知識をタスク非依存に獲得し、実際のタスク実行時に即座に活用可能な形で記憶に格納する。

Hugging Face Daily Papers

分野別の動向

推論スケーリング・蒸留

本日の最大注目はAchieving Gold-Medal-Level Olympiad Reasoning（140 upvotes）であり、単純なスケーリングでオリンピック金メダル級に到達できることを示した。Self-Distilled Agentic RL（84 upvotes）はエージェント文脈での密な学習信号を提供し、Darwin Family（50 upvotes）は学習なしのモデルマージで推論を強化した。3本に共通するのは「推論性能のスケーリングに新たな学習パラダイムは不要かもしれない」という示唆であり、既存の計算資源やモデル重みの再編成で到達可能な性能の天井が従来想定より高いことが示されている。

エージェント記憶・評価

MemLens（68 upvotes）、MemEye（55 upvotes）、STALE（39 upvotes）、PREPING（25 upvotes）と記憶関連論文が4本同時に登場し、エージェント記憶が独立した研究分野として急速に確立しつつある。特筆すべきは各論文が異なる側面—長期保持の評価、視覚記憶の妥当性、記憶の無効化検知、コールドスタート解決—に取り組んでおり、問題空間の多面性が明らかになった点である。前日のレポートではエージェント記憶に直接言及する論文は少なかったが、本日は一気に集中的に出現しており、分野全体の関心が「記憶をどう構築・維持・評価するか」に移行している。

マルチエージェント・エージェント評価

Beyond Individual Intelligence（44 upvotes）がマルチエージェント協調の包括的サーベイを提供し、WildClawBench（40 upvotes）が実世界長期タスクでの評価基盤を構築した。RouteProfile（28 upvotes）はモデル選択の基盤技術を分析している。エージェントの「能力」から「協調」「評価」「運用」へと研究の重心が移行しており、単体エージェントの限界を超えるためのシステム的アプローチが主流化しつつある。

注目論文

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

Self-Distilled Agentic Reinforcement Learning

MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

PREPING: Building Agent Memory without Tasks

分野別の動向

推論スケーリング・蒸留

エージェント記憶・評価

マルチエージェント・エージェント評価

ソース