DelTAが124 upvotesでRLVRにおけるトークンレベル信用割当の新手法を提案し、Full Attention Strikes Backが71 upvotesで数百ステップでフルアテンションからスパースへの変換を実現。ACCがエージェント軌跡の長文脈QA変換で51 upvotes、π-Benchがプロアクティブアシスタント評価で75 upvotesを獲得し、RLVR・効率化・エージェント評価の三方面で研究が前進した。
注目論文
DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
著者: Kaiyi Zhang, Wei Wu, Yankai Lin
RLVRにおいて応答レベルの報酬がトークンレベルの確率変化にどう変換されるかを分析し、識別的なトークン信用割当手法を提案した研究(124 upvotes)。報酬信号の粒度の粗さがRLVRの効率を制限する根本的問題に取り組んでいる。
新規性: RLVRは検証可能な報酬で推論能力を向上させる中心的技術だが、応答全体に対する二値報酬からトークンごとの貢献度を分離する方法は十分理解されていなかった。DelTAは各トークンの信用を識別的に割り当てることで、報酬信号のトークンレベルへの効果的な伝播を実現した。
手法: 応答レベルの報酬から各トークンの確率変化パターンを解析し、正解・不正解応答間のトークンレベル差異を識別的に捉える信用割当スコアを設計する。このスコアに基づき、推論過程の重要なステップに報酬信号を集中させ、学習効率を向上させる。
Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps
著者: Yanke Zhou, Yiduo Li, Hanlin Tang et al.
わずか数百ステップの追加学習でフルアテンションモデルをスパースアテンションに変換し、長文脈推論の二次コストを解消する手法を提案した研究(71 upvotes)。効率性・訓練コスト・精度のトレードオフを打破している。
新規性: 長文脈推論ではフルアテンションの二次コストがボトルネックとなるが、既存の効率的代替手法はネイティブスパース訓練かヒューリスティックなトークン除去に依存し、効率性・訓練コスト・精度の三方面で妥協が必要だった。本研究はフルアテンションで訓練済みのモデルを数百ステップでスパースに変換可能であることを示し、この三すくみを解消した。
手法: フルアテンションで事前学習されたLLMに対し、スパースアテンションパターンへの変換を少数ステップの追加学習で実現する。訓練済みモデルのアテンション構造を活用し、重要なトークン間の接続を保持しつつ不要な計算を削減する。
π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
著者: Haoran Zhang, Luxin Xu, Zhilin Wang et al.
プロアクティブなパーソナルアシスタントエージェントの長期ワークフローにおける能力を評価するベンチマークを導入した研究(75 upvotes)。ユーザの曖昧な要求から未言明のニーズを先読みする能力を体系的に評価する初の枠組みを提供している。
新規性: OpenClawなどのパーソナルアシスタントエージェントの台頭により、LLMの日常的支援能力が注目されているが、ユーザの不完全な指示から重要なニーズを先読みする「プロアクティブ支援」の評価基盤が欠如していた。π-Benchはこの能力を長期ワークフローの文脈で体系的にベンチマークする初の取り組みである。
手法: 日常生活・業務にまたがる長期ワークフロータスクを設計し、エージェントがユーザの明示的指示を超えて暗黙のニーズを検出・対応する能力を多面的に評価する。タスクの時間的範囲と複雑さを制御し、プロアクティブ性の段階的な評価を可能にしている。
ACC: Compiling Agent Trajectories for Long-Context Training
著者: Qisheng Su, Zhen Fang, Shiting Huang et al.
エージェントの実行軌跡を長文脈QAペアに変換し、LLMの長文脈推論能力を効率的に訓練するデータ合成手法を提案した研究(51 upvotes)。高コストな長文書キュレーションやヒューリスティックな文脈合成に代わる実用的アプローチを提示している。
新規性: エージェントの多ターン実行軌跡にはツール呼び出しと環境観察が散在し、元の質問への回答に必要な証拠が遠く離れた文脈に分散している。標準的なエージェントSFTはツール応答をマスクし局所的なツール選択のみを学習するため、この分散した信号を活用できなかった。ACCはこの監督の盲点を埋める手法である。
手法: 検索・ソフトウェアエンジニアリング・データベースクエリ等のエージェント軌跡を、元の質問とツール応答・環境観察を組み合わせた長文脈QAペアに変換する。ツール使用なしで直接回答する形式にすることで、質問と証拠間の依存関係を明示的に監督する。Qwen3-30B-A3BでMRCR +18.1、GraphWalks +7.6を達成し、Qwen3-235B-A22B相当の性能を実現している。
LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
著者: Yifan Dai, Zhenhua Wu, Bohan Zeng et al.
テキスト推論と音声・視覚の潜在状態を交互に行うクロスモーダル推論フレームワークを提案し、オムニモーダル理解を改善した研究(34 upvotes)。テキストベースのChain-of-Thoughtが連続的な音声・視覚信号を離散トークンに圧縮することで情報が失われる問題に対処している。
新規性: 既存のマルチモーダルLLMはテキストベースのCoTで推論するが、連続的な音声・視覚信号を離散トークンに圧縮することで時間的接地が弱まり、中間推論が言語バイアスに偏る。LatentOmniは統一された潜在空間がこうした推論のより適切な媒体であると主張し、潜在状態での推論を実現した。
手法: テキスト推論ステップと音声・視覚の潜在状態を交互に配置する推論フレームワークを構築する。特徴レベルの監督で潜在推論状態をタスク関連の感覚特徴に整合させ、Omni-Sync Position Embedding(OSPE)で潜在音声・視覚状態間の時間的一貫性を維持する。LatentOmni-Instruct-35Kデータセットで潜在空間推論を監督する。
Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning
著者: Banghao Chi, Yining Xie, Mingyuan Wu et al.
強化学習によりLLMエージェントのスプレッドシート操作能力を向上させるベンチマークと手法を提案した研究(29 upvotes)。Excel・Google Sheetsなどのスプレッドシートシステムはデータ中心のワークフローで中心的役割を果たすが、AI駆動のスプレッドシートエージェント構築は未開拓の課題だった。
新規性: コンピュータ制御やプレゼンテーション生成などでAIエージェントの能力が向上しているが、スプレッドシート操作はセル参照・数式・書式設定など固有の複雑さを持ち、専用のベンチマークと学習手法が不足していた。Spreadsheet-RLはこの領域に強化学習を導入した初の体系的研究である。
手法: 現実的なスプレッドシートタスクのベンチマークを構築し、セル操作・数式入力・書式設定等の多様なアクション空間を定義する。強化学習により、タスク完了に対する検証可能な報酬を用いてLLMエージェントの操作方策を最適化する。
Forecasting Scientific Progress with Artificial Intelligence
著者: Sean Wu, Pan Lu, Yupeng Chen et al.
AIが科学的進歩を予測できるかを評価する、時間的に制約された評価フレームワークを導入した研究(27 upvotes)。AIが科学的発見に組み込まれる中、科学の進展を先読みする能力の有無を体系的に検証している。
新規性: AIは科学的発見にますます組み込まれているが、科学的進歩を予見できるかどうかは未解明だった。本研究は制御された知識制約のもとで科学的進歩の予測を評価する、時間的に接地された評価フレームワークを初めて導入した。
手法: 過去の科学文献に基づく知識を時間的に制約し、その時点で利用可能な情報のみからAIが将来の科学的成果を予測できるかを評価する。予測の正確性を多面的に測定するベンチマークを構築している。
Unsupervised Process Reward Models
著者: Artyom Gadetsky, Maxim Kodryan, Siba Smarak Panigrahi et al.
専門家によるステップレベルのアノテーションなしでプロセス報酬モデル(PRM)を学習する教師なし手法を提案した研究(15 upvotes)。PRMの実用的普及を阻む高コストなアノテーション問題を解決している。
新規性: PRMはLLMの推論をステップレベルで監督する強力な機構だが、全推論ステップに専門家アノテーションが必要であり、コストとスケーラビリティが大きな障壁だった。本研究はアノテーション不要の教師なしPRM学習を実現し、この障壁を除去した。
手法: ステップレベルの正解ラベルなしでPRMを訓練する教師なし学習フレームワークを構築する。推論過程の内部構造から自己監督的にステップの質を評価するシグナルを抽出し、外部アノテーションに依存せずに細粒度の報酬モデルを学習する。
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
著者: Ali Hatamizadeh, Yejin Choi, Jan Kautz
線形アテンションの固定サイズ再帰状態における消去と書き込みを分離し、圧縮メモリの編集精度を向上させた研究(14 upvotes)。線形アテンションの実用的課題である連想記憶の破壊問題に対処している。
新規性: 線形アテンションはソフトマックスアテンションの無制限キャッシュを固定サイズの再帰状態に置き換えるが、困難な点は何を忘れるかではなく、既存の連想を壊さずにこの圧縮メモリをどう編集するかにある。Gated DeltaNet-2は消去と書き込みを明示的に分離することでこの問題を解決した。
手法: 線形アテンションの再帰更新ステップにおいて、既存情報の消去と新規情報の書き込みを独立したゲート機構で制御する。これにより、新しい情報の書き込み時に既存の連想記憶が不必要に破壊されることを防ぎ、長系列処理での情報保持能力を向上させる。
Hallucination as Commitment Failure: Larger LLMs Misfire Despite Knowing the Answer
著者: Jewon Yeom, Jaewon Sok, Heejun Kim et al.
LLMの幻覚が知識の欠如ではなく、正解の確率質量が複数の表層形に分散することによるコミットメント失敗であることを実証した研究。モデル規模の拡大とともにこの現象が増加するという反直感的な知見を報告している。
新規性: 幻覚は一般に知識の欠如の帰結と見なされてきたが、本研究はトークンレベルの確率分布を意味的に集約する分析手法を導入し、正解概念が生成時分布に十分な確率質量を持つにもかかわらず幻覚が発生する事例がQwen・Llamaの0.8Bから72Bまでで16-47%存在し、モデル規模とともに単調増加することを示した。
手法: トークンレベルの変種を同一の回答概念に集約する意味的回答可用性の概念を導入し、モデルが回答にコミットする時点で正解概念が利用可能かを評価する。正解生成ではコミットメント時に確率質量が単一の表層形に集中するのに対し、幻覚では複数の代替形に分散することを発見した。指示チューニングがスケールに応じてコミットメントを先鋭化し、有用性と自信過剰な幻覚が同一の傾向の二つの帰結であることを示している。
分野別の動向
RLVR・推論強化学習
DelTA(124 upvotes)がRLVRにおけるトークンレベル信用割当の新手法を提案し、前日のRank-1軌跡によるRLVR計算コスト削減に続き、RLVR学習の効率化が多角的に進展している。Unsupervised Process Reward Models(15 upvotes)は専門家アノテーション不要のPRM学習を実現し、PRMの実用的スケーラビリティを大幅に改善した。arXivからはFrom Reasoning Chains to Verifiable Subproblems(カリキュラムRLによる信用割当の改善)、Token-weighted DPO with Attention(アテンションベースのトークン重み付きDPO)、Conditional Equivalence of DPO and RLHF(DPOとRLHFの条件付き等価性の証明とCPOの提案)が登場し、報酬信号の粒度改善とアライメント手法の理論的基盤整備が同時に進んでいる。
LLM基盤技術・アーキテクチャ
Full Attention Strikes Back(71 upvotes)が数百ステップでのフルからスパースアテンション変換を実現し、Gated DeltaNet-2(14 upvotes)が線形アテンションの消去・書き込み分離で再帰メモリの精度を向上させた。Hallucination as Commitment Failure はモデル規模の拡大に伴う幻覚の構造的原因を解明し、指示チューニングによるコミットメント先鋭化が有用性と幻覚の共通原因であることを示した。前日のHRM-TextやGenerative Recursive Reasoningに続き、Transformer一極集中のアーキテクチャに対する代替・改善が活発に模索されている。arXivからはSame Architecture, Different Capacity(オプティマイザによるスペクトルスケーリング則)やForecasting Downstream Performance of LLMs With Proxy Metrics(プロキシメトリクスによるLLM性能予測)も登場し、モデル設計の理論的理解が深化している。
エージェント・ツール使用
ACC(51 upvotes)がエージェント軌跡の長文脈QA変換で効率的な長文脈訓練データを提供し、π-Bench(75 upvotes)がプロアクティブアシスタントの評価基盤を確立した。Spreadsheet-RL(29 upvotes)はスプレッドシート操作というデータ中心ワークフローの新ドメインにRLを導入した。arXivからはTerminalWorld(ターミナル操作の大規模ベンチマーク)、SpecHop(マルチホップ検索の投機的加速)、AgentAtlas(エージェント評価の多軸フレームワーク)、Maestro(17 upvotes、モデル・スキルアンサンブルのRL制御)が登場し、エージェントの能力構築と評価の両面で研究が深化している。前日のVideo2GUI・IndusAgentに続き、エージェント研究はドメイン特化の応用と評価基盤の整備が並行して進んでいる。
マルチモーダル・生成モデル
LatentOmni(34 upvotes)が音声・視覚の潜在空間でのクロスモーダル推論を提案し、テキストCoTの限界を超えるオムニモーダル理解の新方向を示した。PhysX-Omni(42 upvotes)はリジッド・変形・関節物体を統一的に扱うシミュレーション対応3D生成を実現し、WorldKV(28 upvotes)は自己回帰ビデオ拡散モデルにおける持続的世界記憶の効率的圧縮を提案した。SEGA(22 upvotes)はDiffusion Transformerの解像度外挿問題にスペクトル・エネルギー誘導アテンションで対処し、Q-ARVD(16 upvotes)は自己回帰ビデオ拡散モデルの量子化による推論効率化を実現した。ビデオ生成・3D生成・オムニモーダル理解の各領域で効率化と品質向上が同時に進展している。
AI研究・科学予測の方法論
Forecasting Scientific Progress(27 upvotes)がAIによる科学的進歩の予測可能性を体系的に評価するフレームワークを導入した。arXivからはOpen-World Evaluations for Measuring Frontier AI Capabilities(ベンチマーク外の実世界タスクでAI能力を測定するCRUXプロジェクト)、PlanningBench(計画能力の制御可能なデータ生成と評価)、Perception or Prejudice(151 upvotes、MLLMの性格知覚評価)が登場し、AI能力の評価方法論が多様化している。前日のResearchArenaやInteractive Evaluationに続き、静的ベンチマークを超えた実世界的・動的な評価への移行が加速している。