LIBERO-ParaがVLAモデルの指示文ロバスト性の脆弱さを暴き、Video-MME-v2が動画理解の次段階ベンチマークを提案。ClawArenaやFileGramなどエージェント評価・個人化の研究が集中し、MegaTrainが単一GPUでの100B+モデル学習を実現した。
注目論文
LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
著者: Chanyoung Kim, Minwoo Kim, Minseok Kang et al.
Vision-Language-Action(VLA)モデルは事前学習済みの視覚言語バックボーンを活用してロボット操作で高い性能を達成するが、限られたデータでの微調整により特定の指示文表現に過適合する問題がある。本研究は指示文のパラフレーズに対するVLAモデルのロバスト性を体系的に診断するベンチマークと評価指標を提案。
新規性: VLAモデルの「指示文パラフレーズに対する脆弱性」という実用上重要だが見過ごされてきた問題を初めて体系的に定量化。意味的に同等な指示文の言い換えだけで性能が大幅に低下することを実証した。
手法: 多様なパラフレーズパターンを体系的に生成し、同一タスクに対する指示文表現の変化がVLAモデルの行動にどう影響するかを診断。ロバスト性の度合いを定量化する専用メトリクスを設計。
Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding
著者: Chaoyou Fu, Haozhi Yuan, Yuhao Dong et al.
動画理解の急速な進展に伴い、既存ベンチマークが飽和し始め、リーダーボードのスコアと実際のモデル能力の乖離が拡大している。Video-MME-v2はこのギャップに対応する包括的な動画理解ベンチマークを提案。
新規性: 既存ベンチマークのスコア飽和という構造的問題に正面から取り組み、現実のモデル能力をより正確に反映する次世代評価基盤を設計した点。
手法: 従来のベンチマークで高スコアを得ながら実世界で失敗するケースを分析し、より多様で困難な評価タスクを体系的に構築。包括的な動画理解能力を多面的に測定する設計。
Adam’s Law: Textual Frequency Law on Large Language Models
著者: Hongyuan Adam Lu, Z. L., Victor Wei et al.
テキスト頻度が人間の認知(読速度等)に影響することは検証されているが、LLMとの関連は未開拓だった。本研究はテキストデータ頻度がLLMの振る舞いに与える影響を体系的に分析する新たな研究方向を提案。
新規性: テキスト頻度という観点からLLMの振る舞いを分析するという、ほぼ未開拓の研究方向を切り拓いた点。人間認知との類似性と相違点を定量的に明らかにする。
手法: 大規模コーパスにおけるテキストの出現頻度を体系的に測定し、LLMの生成確率・予測精度・内部表現との相関を多角的に分析。頻度効果の法則性を定式化。
AURA: Always-On Understanding and Real-Time Assistance via Video Streams
著者: Xudong Lu, Yang Bo, Jinpeng Chen et al.
Video LLMは多くの動画理解タスクで高い性能を示すが、既存システムの大半はオフライン処理前提であり、継続的な観察とタイムリーな応答が求められるライブ動画ストリームには適していない。AURAはライブ映像に対する常時観察・リアルタイム応答を実現するフレームワークを提案。
新規性: オフラインの動画理解からリアルタイムのストリーミング処理への転換を目指し、常時観察(Always-On)というコンセプトを具現化した点。
手法: ストリーミング映像を連続的に処理しつつ、ユーザーのクエリに対してリアルタイムで応答するアーキテクチャを設計。映像の時間的文脈を効率的に管理し、低遅延での理解と応答を実現。
ClawArena: Benchmarking AI Agents in Evolving Information Environments
著者: Haonian Ji, Kaiwen Xiong, Siwei Han et al.
持続的アシスタントとして展開されるAIエージェントは、情報環境の変化に応じて正しい信念を維持する必要がある。しかし実際には、異種ソース間の矛盾、新情報による既存結論の無効化、ユーザー嗜好の顕在化など、複雑な状況が発生する。ClawArenaはこうした動的環境でのエージェント能力を評価するベンチマーク。
新規性: 静的なベンチマークではなく、情報環境が時間とともに変化する動的設定でエージェントの信念維持・更新能力を評価する初の包括的ベンチマーク。
手法: 異種情報ソース、矛盾する証拠、時間経過による情報更新などを含む動的環境を構築し、エージェントが正しい結論を維持・修正できるかを多面的に評価。
FileGram: Grounding Agent Personalization in File-System Behavioral Traces
著者: Shuai Liu, Shulin Tian, Kairui Hu et al.
ローカルファイルシステム上で動作するAIエージェントの個人化は、プライバシー障壁とマルチモーダルな実世界トレースの収集困難さにより制限されている。FileGramはファイルシステムの行動トレースに基づくエージェント個人化手法を提案。
新規性: ファイルシステム上のユーザー行動パターンという、プライバシーを考慮しつつ豊富な情報を持つデータソースに着目し、エージェント個人化の基盤とした点。
手法: ファイルの作成・編集・移動・削除などの行動トレースからユーザーの作業パターンや嗜好を抽出し、エージェントの振る舞いを個人化するフレームワークを構築。
Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
著者: Qisheng Su, Shiting Huang, Zhen Fang et al.
Tool-Integrated Reasoning(TIR)ではLLMが推論と外部ツール呼び出しを交互に行うが、ツール呼び出しによる一時停止がKVキャッシュの追い出しと再計算を引き起こし、効率性の大きな低下源となっている。本研究はTIRにおける非効率パターンを体系的に分析。
新規性: TIRの「正確性」だけでなく「効率性」に焦点を当て、ツール呼び出しがもたらす計算オーバーヘッドのパターンを初めて体系的に分類・分析した点。
手法: ツール呼び出しの頻度・タイミング・応答長がKVキャッシュの再計算コストに与える影響を定量化し、非効率パターンを類型化。冗長な応答のフィルタリングなど改善策を提示。
Learning to Retrieve from Agent Trajectories
著者: Yuqi Zhou, Sunhao Dai, Changle Qu et al.
情報検索システムは従来、人間ユーザー向けに設計され、クリックや滞在時間などの人間のインタラクションログに基づく学習ランキングに依存してきた。LLMベースの検索エージェントの台頭により、エージェント軌跡からの検索学習という新たな課題が浮上。
新規性: 人間のクリックログではなく、LLMエージェントの検索・閲覧軌跡から検索モデルを学習するという新パラダイムを提案。エージェント時代の情報検索の再定義。
手法: LLMエージェントが実際に検索・閲覧・利用したドキュメントの軌跡を学習信号として活用し、エージェントの情報ニーズに最適化されたランキングモデルを構築。
MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
著者: Zhengqing Yuan, Hanchi Sun, Lichao Sun et al.
従来のGPU中心システムとは異なり、パラメータとオプティマイザ状態をホストメモリ(CPUメモリ)に格納し、GPUを一時的な計算エンジンとして扱うメモリ中心システムを提案。単一GPU上で100B+パラメータのフルプレシジョン学習を実現。
新規性: パイプライン化されたダブルバッファリング実行エンジンとステートレスなレイヤーテンプレートにより、CPU-GPU帯域幅ボトルネックを克服し、単一GPUでの超大規模モデル学習を可能にした点。
手法: 各レイヤーのパラメータをストリーミングで読み込み勾配を書き出す方式で、永続的なデバイス状態を最小化。複数CUDAストリームによるプリフェッチ・計算・オフロードのオーバーラップで連続的なGPU実行を実現。H200単一GPUで120Bパラメータまでの学習を確認。
SkillX: Automatically Constructing Skill Knowledge Bases for Agents
著者: Chenxi Wang, Zhuoyun Yu, Xin Xie et al.
LLMエージェントの経験からの学習は重要だが、既存の自己進化パラダイムでは各エージェントが孤立して学習し、類似の行動を繰り返し再発見するため非効率。SkillXはエージェントのスキル知識ベースを自動構築するフレームワークを提案。
新規性: エージェントの経験を再利用可能な「スキル」として構造化・蓄積し、集団レベルでの知識共有を可能にする点。孤立学習による冗長な探索を排除。
手法: エージェントの成功軌跡からドメイン固有のスキルを自動抽出・構造化し、知識ベースとして蓄積。新タスクに対して関連スキルを検索・適用する仕組みを構築。
分野別の動向
エージェント評価・安全性
本日最も論文が集中した分野。ClawArenaが動的情報環境でのエージェント信念維持を評価し、Claw-Evalが軌跡透過型の評価と安全性仕様の不足を指摘、ClawsBenchが生産性エージェントの安全性評価基盤を提供するなど、エージェント評価の多面化が顕著。OpenClawの安全性分析も、実世界展開されたパーソナルAIエージェントのリスクを実証的に示した。エージェントの能力評価から安全性・信頼性評価へと重心がシフトしつつある。
エージェント学習・スキル獲得
SkillXのスキル知識ベース自動構築、FileGramのファイルシステム行動トレースによる個人化、Learning to Retrieve from Agent Trajectoriesのエージェント軌跡からの検索学習、Echo(Minecraft環境での経験転移メモリフレームワーク)など、エージェントの「経験からの学習」に関する研究が複数出現。孤立した試行錯誤から、構造化された知識蓄積・再利用への転換が共通テーマ。
動画理解・マルチモーダル
Video-MME-v2がベンチマーク飽和問題に取り組み、AURAがリアルタイムストリーミング動画理解を実現。LIBERO-ParaはVLAモデルの言語ロバスト性という基礎的課題を提起。動画理解は「より高いスコア」から「より実用的な能力評価」へとフェーズが移行している。
LLM基盤技術・効率化
MegaTrainの単一GPU超大規模学習、Beyond AccuracyのTIR非効率分析に加え、arXivではOlmo Hybridが注意機構とリカレント層のハイブリッドモデルの優位性を7Bスケールで実証し、Phase-Associative Memoryが複素数値の連想記憶による新しいシーケンスモデリングを提案。MegaTrainはデモクラタイゼーションの観点で注目に値し、大規模モデル学習へのアクセス障壁を大幅に下げる可能性がある。
LLMの振る舞い分析
Adam’s Lawがテキスト頻度とLLMの関係という未開拓の研究方向を提案し、The Illusion of Latent Generalization(ICLR 2026)がリバーサルカースの解決が真の双方向理解ではなく別個の方向性記憶に基づくことを示した。Memory Dialは記憶化圧力を制御可能な学習フレームワークを提案。LLMの内部メカニズムへの理解を深める基礎研究が着実に進展している。