SkillClawがLLMエージェントのスキルをデプロイ後も集団的に進化させる仕組みを提案し143件の支持を集めた。HY-Embodied-0.5は実世界エージェント向けVLM基盤モデルを発表。ClawBenchやMolmoWebなどエージェント評価・構築の研究も多数登場し、エージェント技術の成熟が加速している。
注目論文
SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
著者: Ziyu Ma, Shidong Yang, Yuxiang Ji et al.
OpenClawなどのLLMエージェントは再利用可能なスキルに依存して複雑なタスクを遂行するが、デプロイ後はスキルが静的なままとなり、類似のワークフローや失敗パターンがユーザ間で繰り返し再発見される問題がある。SkillClawはエージェントのスキルをデプロイ後も集団的に進化させるフレームワークを提案。
新規性: スキルの静的運用という根本的制約を打破し、ユーザ間でのツール使用パターンや失敗回避の知識を蓄積・共有する集団的進化メカニズムを実現。エージェントシステムの継続的改善を可能にする新パラダイムを提示。
手法: Agentic Evolverがエージェント実行履歴からスキルの改善機会を自動検出し、スキルの追加・更新・統合を行う。ユーザ間での知識の集約により、個別エージェントでは到達困難な性能改善を実現。
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
著者: Tencent Robotics X, HY Vision Team, Xumin Yu et al.
汎用VLMと実世界の身体化エージェントが必要とする能力の間には大きなギャップがある。HY-Embodied-0.5は、このギャップを埋めるために実世界の身体化エージェント向けに特化設計されたVLM基盤モデルファミリーを提案。
新規性: 汎用的なVLMを身体化タスクに単純適用するのではなく、身体化知能に必要なコア能力(空間理解、動作計画、環境認識など)を強化する設計思想で基盤モデルを構築。実世界ロボット操作への直接適用を見据えた包括的なモデル群を提供。
手法: 身体化エージェントに必要な能力を体系的に分析し、それらを強化するための訓練データと学習手法を設計。視覚言語理解に加え、3D空間推論や動作系列の生成など、実世界エージェントに不可欠な能力を統合的に獲得。
ClawBench: Can AI Agents Complete Everyday Online Tasks?
著者: Yuxuan Zhang, Yubo Wang, Yipeng Zhu et al.
AIエージェントがメール処理を自動化できることは知られているが、日常的なオンラインタスク全般をこなせるかは未解決の課題である。ClawBenchは、日常的オンラインタスクの遂行能力を評価する153タスクのベンチマークフレームワークを導入。
新規性: 既存のWebエージェントベンチマークが特定ドメインに偏る中、日常生活の多様なオンラインタスク(買い物、予約、情報検索など)を網羅的にカバー。実用的なエージェント能力の測定基準を確立。
手法: 153の日常的タスクを体系的に設計し、各タスクに対して明確な成功判定基準を定義。現行の最先端エージェントの能力と限界を包括的に評価する枠組みを提供。
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
著者: Chenyu Zhou, Huacan Chai, Wenteng Chen et al.
LLMエージェントは、モデルの重みを変更するよりも、ランタイム周辺の再構成によって構築される傾向が強まっている。メモリストア、再利用可能なスキル、インタラクションプロトコル、実行ハーネスなど、外部化された機構を統合的にレビューした包括的サーベイ。
新規性: メモリ・スキル・プロトコル・ハーネスという4つの外部化軸を統一的なフレームワークで整理した初の包括的レビュー。エージェント構築が「モデル内部の改善」から「ランタイム外部化」へとパラダイムシフトしていることを体系的に論じる。
手法: 既存研究を外部化の4軸に沿って分類・分析し、各軸の設計原則と相互関係を明らかにする。エージェントアーキテクチャの設計指針を提供。
DMax: Aggressive Parallel Decoding for dLLMs
著者: Zigeng Chen, Gongfan Fang, Xinyin Ma et al.
拡散型言語モデル(dLLM)は並列デコードにより高速生成が期待されるが、並列度を上げると誤差が蓄積し品質が低下する問題がある。DMaxはこの誤差蓄積を軽減し、品質を維持しつつ積極的な並列デコードを可能にする新パラダイムを提案。
新規性: 従来のマスクベース(mask-to-token)遷移ではなく、連続的なデコーディング戦略を採用することで、並列度と生成品質のトレードオフを大幅に改善。拡散型言語モデルの実用性を飛躍的に高める。
手法: バイナリなmask-to-token遷移を超えた新しいデコーディングメカニズムにより、各ステップでの誤差伝播を抑制。積極的な並列化を維持しながら、自己回帰モデルに匹敵する生成品質を達成。
Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
著者: Shilin Yan, Jintao Tong, Hongwei Xue et al.
エージェント型マルチモーダルモデルは外部環境との積極的なインタラクションを可能にするが、内部知識と外部ツールの使い分けに関するメタ認知能力が著しく不足している。この結果、不必要なツール呼び出しや、ツールを使うべき場面での内部知識への過度な依存が生じる。
新規性: エージェントのメタ認知的欠陥を明確に定義し、内部知識の活用と外部ツールへの問い合わせを適切に判断する能力を体系的に強化する手法を提案。エージェントの「賢明な行動」選択を可能にする。
手法: メタ認知的判断能力を訓練するための専用フレームワークを設計。各意思決定場面で、内部知識の信頼度評価とツール呼び出しのコスト・ベネフィット分析を統合的に行う機構を導入。
MolmoWeb: Open Visual Web Agent and Open Data for the Open Web
著者: Tanmay Gupta, Piper Wolters, Zixian Ma et al.
Webエージェントはユーザに代わってWeb上のタスクを実行する自律システムとして大きな可能性を持つが、最も高性能なエージェントはプロプライエタリモデルに依存し、訓練データやレシピが非公開である。MolmoWebはオープンモデルとオープンデータによるWebエージェントを構築。
新規性: プロプライエタリモデル依存からの脱却を目指し、モデル・データ・訓練レシピのすべてをオープンにしたWebエージェントを実現。再現可能な研究基盤の確立に貢献。
手法: オープンな視覚言語モデルをベースに、Web上での操作に特化した訓練データを構築。モデルのアーキテクチャと訓練パイプラインを公開し、コミュニティによる改善を促進。
OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks
著者: Wenbo Hu, Xin Chen, Yan Gao-Tian et al.
Group Relative Policy Optimization(GRPO)はマルチモーダル大規模言語モデルの強化学習における事実上の標準となっているが、オープンソースのマルチモーダル汎用モデルへの拡張は、報酬設計と訓練安定性の2つの課題により大きく制約されている。
新規性: GRPOベースの強化学習をオープンソースマルチモーダル汎用モデルに適用する際の2つの主要課題を特定・解決し、複数の視覚ドメインにまたがる汎用的な推論能力を実現。
手法: 報酬設計の改善と訓練安定化手法を組み合わせ、GRPOの恩恵をオープンソースモデルで享受可能に。多様な視覚タスクベンチマークで既存手法を上回る性能を達成。
Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
著者: Quantong Qiu, Zhiyi Hong, Yi Yang et al.
標準的なAttentionメカニズムの二次計算量は、長文脈LLMにおける深刻なスケーラビリティのボトルネックとなっている。Full AttentionとSparse Attentionを組み合わせるハイブリッド手法は有望だが、既存手法は静的な割り当て比率に依存し、タスクごとの検索要件の違いに対応できない。
新規性: 軽量なLayer Routerを凍結済み事前学習LLMに統合し、入力コンテキストに基づいて各層をFull AttentionまたはSparse Attentionに動的にルーティング。層レベルでの動的切り替えにより、ヘッドレベル手法の計算負荷不均衡問題を回避。
手法: Layer Routerによる層単位のAttention選択で、高忠実度な情報検索を維持しつつ連続的なメモリアクセスを保証。8×A800 GPUで12時間の訓練のみで適用可能。prefillステージで最大2.8倍、decodeステージで最大2.0倍の高速化を達成。
分野別の動向
エージェント・自律システム
本日最も活発な分野。SkillClawのスキル集団進化、ClawBenchの日常タスク評価、Act Wiselyのメタ認知的ツール使用、MolmoWebのオープンWebエージェントなど、エージェント技術の多面的な成熟が見られる。特にExternalizationサーベイが示すように、エージェント構築の重心はモデル内部の改善からランタイム外部化(メモリ・スキル・プロトコル・ハーネス)へと明確にシフトしており、エコシステム全体の設計原則が確立されつつある。
LLM推論・デコーディング効率化
DMaxが拡散型言語モデルの並列デコードにおける誤差蓄積問題を解決し、Flux Attentionが層レベルの動的Attention切り替えで長文脈推論を高速化した。両研究とも、モデルアーキテクチャを変更せずに推論効率を大幅に改善するアプローチであり、既存モデルへの即座の適用可能性が高い。
マルチモーダル推論
OpenVLThinkerV2がGRPOベースRLのオープンソースマルチモーダルモデルへの拡張課題を解決し、汎用的な視覚推論能力を実現。HY-Embodied-0.5は汎用VLMと身体化タスクのギャップを埋める専用基盤モデルを提案。マルチモーダルモデルが「汎用的な理解」から「特定ドメインでの実用的行動」へと進化する流れが顕著であり、身体化知能やWebナビゲーションなど具体的な応用シナリオでの性能追求が加速している。