LLM/NLP最新論文 - 2026-05-25

DelTAが192 upvotesでRLVRにおけるトークンレベル信用割当の新手法を提案し、Full Attention Strikes Backが85 upvotesで数百ステップでのスパース注意変換を実現。π-Benchが91 upvotesでプロアクティブアシスタントの長期ワークフロー評価基盤を提示し、ACCが56 upvotesでエージェント軌跡を長文脈訓練に活用する手法を確立した。

注目度

注目論文

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

著者: Kaiyi Zhang, Wei Wu, Yankai Lin

RLVRにおいて応答レベルの報酬がトークンレベルの確率変化にどう変換されるかを解明し、判別的トークン信用割当手法を提案した研究（192 upvotes）。RLVRの有効性にもかかわらずブラックボックスだったトークンレベルの学習ダイナミクスに切り込んでいる。

新規性: RLVRはLLMの推論能力向上に広く使われているが、応答全体への報酬が個々のトークンの生成確率にどのように影響するかは十分に理解されていなかった。DelTAはこの信用割当問題を明示的に定式化し、トークンごとの貢献度を判別的に評価することで、より効率的かつ安定した学習を実現している。

手法: 応答レベルの報酬をトークンレベルに分解する判別的な信用割当メカニズムを導入する。各トークンが最終的な正解/不正解にどの程度貢献したかを推定し、貢献度に応じた勾配重み付けを行うことで、無関係なトークンへの誤った強化を抑制する。

Hugging Face Daily Papers

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

著者: Haoran Zhang, Luxin Xu, Zhilin Wang et al.

LLMベースのプロアクティブパーソナルアシスタントを長期ワークフローで評価するベンチマークを提案した研究（91 upvotes）。ユーザーの曖昧な要求から潜在的ニーズを先回りして満たすエージェント能力の体系的評価を初めて可能にしている。

新規性: OpenClawなどのパーソナルアシスタントエージェントが登場する中、ユーザーの明示的指示なしに必要なアクションを先回りして実行する「プロアクティブ支援」の評価基盤が欠如していた。π-Benchは長期的なワークフローにおけるプロアクティブ行動の質・タイミング・適切性を多面的に評価する初のベンチマークである。

手法: 日常生活や業務における長期ワークフローシナリオを構築し、ユーザーの不完全な要求に対してエージェントがいつ・何を・どのように先回りして提案・実行すべきかを評価する。プロアクティブ行動の精度、タイミングの適切性、ユーザー意図との整合性を多軸で測定する。

Hugging Face Daily Papers

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

著者: Yanke Zhou, Yiduo Li, Hanlin Tang et al.

わずか数百ステップの追加学習でフルアテンションモデルをスパースアテンションモデルに変換し、長文脈推論の効率化を実現した研究（85 upvotes）。効率性・学習コスト・精度のトリレンマを解消する新たなアプローチを提示している。

新規性: 長文脈推論はフルアテンションの二次コストがボトルネックとなるが、既存の効率的代替手法はネイティブスパース訓練（高コスト）かヒューリスティックなトークン除去（精度劣化）に依存していた。本研究はフルアテンションで訓練済みのモデルを数百ステップでスパースに変換できることを示し、学習コストと精度の両立を実現した。

手法: フルアテンションで事前訓練されたモデルに対し、スパースアテンションパターンを導入した上で少数ステップのファインチューニングを行う。アテンション構造の急激な変更にもかかわらず、短期間の適応学習で元のフルアテンションモデルに匹敵する精度を維持できることを実証している。

Hugging Face Daily Papers

ACC: Compiling Agent Trajectories for Long-Context Training

著者: Qisheng Su, Zhen Fang, Shiting Huang et al.

エージェントが問題解決時に生成する大量の実行軌跡を活用し、LLMの長文脈推論能力を効率的に訓練する手法を提案した研究（56 upvotes）。長文脈訓練データの不足という根本的課題に対し、エージェント軌跡という新たなデータソースを開拓している。

新規性: LLMの長文脈推論能力の訓練には長文書データのキュレーションやヒューリスティックな文脈合成が必要で、コストと品質に課題があった。ACCはエージェントがツール呼び出しや中間推論を含む長大な軌跡を自然に生成することに着目し、これを長文脈訓練データとして体系的に編纂する初のフレームワークを構築している。

手法: エージェントの問題解決過程で生成されるツール呼び出し、中間結果、推論ステップを含む軌跡を収集・構造化し、長文脈訓練用のデータセットとして編纂する。多様なタスクから得られる軌跡により、自然な長距離依存関係を含む訓練データを大規模に生成できる。

Hugging Face Daily Papers

著者: Yifan Dai, Zhenhua Wu, Bohan Zeng et al.

音声・視覚情報の潜在空間での統合推論により、マルチモーダルLLMの細粒度理解を大幅に向上させた研究（40 upvotes）。テキストベースのChain-of-Thoughtが連続的な音声・視覚情報を圧縮してしまう根本的限界を克服している。

新規性: 現行のマルチモーダルLLMは音声と視覚の細粒度な証拠を統合する推論で依然として苦戦している。主因は明示的なテキストベースCoTが連続的なオーディオ・ビジュアル信号を離散テキストに圧縮する際に情報損失が生じることである。LatentOmniは潜在空間での統合推論によりこの情報損失を回避する。

手法: 音声と視覚の両モダリティを共通の潜在空間にエンコードし、テキストへの変換を経ずに潜在表現のまま推論を行う統合フレームワークを構築する。潜在空間での推論により、各モダリティの細粒度な情報を保持したまま、クロスモーダルな証拠統合を実現している。

Hugging Face Daily Papers

Forecasting Scientific Progress with Artificial Intelligence

著者: Sean Wu, Pan Lu, Yupeng Chen et al.

AIが科学的進歩を予測できるかを、時間的に制御された評価フレームワークで検証した研究（34 upvotes）。AIの科学的発見への埋め込みが進む中、その予測能力の限界と可能性を体系的に明らかにしている。

新規性: AIは科学的発見に組み込まれつつあるが、科学的進歩を事前に予測できるかは未解明だった。本研究は知識の時間的制約を明示的に管理した評価フレームワークを導入し、特定時点の知識のみでその後の進歩を予測するタスクとして定式化した初の体系的研究である。

手法: 科学文献の時系列データを用い、特定の時点までの知識のみをモデルに与えた上で、その後の研究成果（新手法の登場、性能向上の方向性等）を予測させる。時間的な知識制約の下での予測精度を多角的に評価し、AIの科学予測能力の現状と限界を定量化している。

Hugging Face Daily Papers

Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

著者: Banghao Chi, Yining Xie, Mingyuan Wu et al.

強化学習によりLLMエージェントのスプレッドシート操作能力を大幅に向上させた研究（33 upvotes）。Excel・Google Sheetsなどのデータ中心ワークフローにおけるAIエージェントの実用性を高めている。

新規性: スプレッドシートはデータ処理の中核ツールだが、複雑な操作（数式構築、データ変換、書式設定等）をLLMエージェントが正確に実行することは困難だった。Spreadsheet-RLは現実的なスプレッドシートタスクに特化した強化学習フレームワークを構築し、エージェントの操作精度を体系的に改善している。

手法: 現実的なスプレッドシート操作タスクのベンチマークを構築し、操作結果の検証可能な報酬を設計する。強化学習により、LLMエージェントが試行錯誤を通じてスプレッドシート固有の操作パターンを学習し、複雑なタスクでの成功率を向上させる。

Hugging Face Daily Papers

Unsupervised Process Reward Models

著者: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi et al.

専門家アノテーションなしでステップレベルの報酬モデル（PRM）を学習する手法を提案した研究（23 upvotes）。PRMの高い有効性とアノテーションコストの高さというトレードオフを解消している。

新規性: PRMはLLMの推論をステップごとに評価・誘導する強力な手段だが、各推論ステップへの専門家アノテーションが必要で、コストとスケーラビリティに大きな制約があった。本研究は教師なし学習によりPRMを構築する初の手法を提案し、アノテーションコストを完全に排除している。

手法: 推論ステップの正しさを教師なしで推定するため、モデル自身の推論軌跡から得られるシグナルを活用する。最終的な正解/不正解の情報と推論過程の構造的特性を組み合わせ、各ステップの品質を自動的に評価するPRMを学習する。

Hugging Face Daily Papers

Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

著者: Ali Hatamizadeh, Yejin Choi, Jan Kautz

線形アテンションにおける消去（erase）と書込み（write）の操作を分離し、固定サイズのリカレント状態をより効率的に編集可能にした新アーキテクチャを提案した研究（22 upvotes）。

新規性: 線形アテンションはソフトマックスアテンションの無制限キャッシュを固定サイズのリカレント状態に置き換えるが、この圧縮メモリの編集において既存の関連付けを壊さずに更新することが根本的な課題だった。Gated DeltaNet-2は消去と書込みを明示的に分離することで、メモリ編集の精度と柔軟性を大幅に向上させている。

手法: リカレント状態の更新を消去ゲートと書込みゲートに分離し、各操作を独立に制御する。これにより、不要な情報の選択的削除と新情報の正確な書込みを両立し、長いシーケンスにわたっても状態の品質を維持する。

Hugging Face Daily Papers

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

著者: Jinyang Wu, Guocheng Zhai, Ruihan Jin et al.

強化学習により複数のLLMとモジュラースキルの階層的なオーケストレーションを最適化するフレームワークを提案した研究（18 upvotes）。単一LLMと固定ロジックに依存する既存のエージェントフレームワークの限界を克服している。

新規性: 現行のエージェントフレームワークは単一のモノリシックLLMと固定的なスキル呼び出しロジックに依存しており、異なるLLMが異なるスキルで異なる能力を持つという現実を活用できていなかった。Maestroは複数LLMとスキルの組み合わせを動的に最適化する階層的オーケストレーションを強化学習で実現している。

手法: 各タスクステップにおいて、どのLLMにどのスキルを割り当てるかを決定するメタポリシーを強化学習で訓練する。タスク成功率とコスト効率を報酬として、LLM-スキルの最適な組み合わせを動的に選択する階層的な意思決定を学習する。

Hugging Face Daily Papers

分野別の動向

RLVR・推論強化学習

DelTA（192 upvotes）がRLVRにおけるトークンレベルの信用割当を明示的に定式化し、応答全体への報酬を個々のトークンの貢献度に分解する判別的手法を提案した。前回レポートの「You Only Need Minimal RLVR Training」がRLVR重み軌跡のランク1構造からの計算コスト削減を示したのに対し、DelTAは学習シグナルの質の改善という相補的な軸で貢献している。Unsupervised Process Reward Models（23 upvotes）も教師なしでステップレベル報酬を学習する手法を提案しており、RLVR関連研究はコスト削減・シグナル改善・アノテーション不要化の三方面で急速に進展している。

エージェント・ツール使用

π-Bench（91 upvotes）がプロアクティブパーソナルアシスタントの長期ワークフロー評価を体系化し、ACC（56 upvotes）がエージェント軌跡を長文脈訓練に活用する手法を確立した。Spreadsheet-RL（33 upvotes）は強化学習によるスプレッドシート操作の改善、Maestro（18 upvotes）は複数LLM・スキルの階層的オーケストレーションをそれぞれ提案している。前回のVideo2GUI・IndusAgentがエージェントのデータ構築と能力拡張に焦点を当てたのに対し、今回は評価基盤の整備（π-Bench）と訓練データの自動生成（ACC）という基盤強化が目立つ。

LLMアーキテクチャ・効率化

Full Attention Strikes Back（85 upvotes）が数百ステップでフルアテンションをスパースに変換する手法を実証し、長文脈推論の実用的な効率化に大きく前進した。Gated DeltaNet-2（22 upvotes）は線形アテンションの消去・書込み分離で固定サイズメモリの編集精度を向上させている。前回のOScaR・Mix-QuantがKVキャッシュ量子化で推論時の効率化を図ったのに対し、今回はアテンション構造自体の変換・改良という訓練側のアプローチが中心であり、推論効率化研究が訓練時と推論時の両面から包括的に進んでいる。

マルチモーダル・クロスモーダル推論

LatentOmni（40 upvotes）がテキストを介さない潜在空間での音声・視覚統合推論を実現し、マルチモーダルLLMの細粒度理解における情報損失問題を解決した。同日のPerception or Prejudice（162 upvotes）はMLLMの性格認知能力を行動レベルで評価し、SpaceDG（24 upvotes）は視覚劣化条件下での空間知能ベンチマークを提案するなど、マルチモーダルモデルの評価が「理想条件」から「実環境条件」へと着実にシフトしている。

AI・科学の方法論

Forecasting Scientific Progress（34 upvotes）がAIによる科学的進歩の予測を時間制約付き評価で検証し、AIの科学予測能力の可能性と限界を定量化した。前回のResearchArenaがAI自動生成論文の品質評価を行ったのに続き、「AIが科学にどこまで貢献できるか」という根本的問いへの実証的アプローチが本格化している。

注目論文

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

ACC: Compiling Agent Trajectories for Long-Context Training

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

Forecasting Scientific Progress with Artificial Intelligence

Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

Unsupervised Process Reward Models

Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

分野別の動向

RLVR・推論強化学習

エージェント・ツール使用

LLMアーキテクチャ・効率化

マルチモーダル・クロスモーダル推論

AI・科学の方法論

ソース