LLM/NLP最新論文

LLMエージェントのスキルをデプロイ後も集合的に進化させるSkillClawが258件の支持を集め、日常タスク評価のClawBenchも241件と高注目。身体性VLM、拡散型LMの高速化、マルチモーダル推論など多方面で重要な進展が見られた。

注目度

注目論文

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

著者: Ziyu Ma, Shidong Yang, Yuxiang Ji et al.

OpenClawなどのLLMエージェントは再利用可能なスキルに依存して複雑なタスクを遂行するが、これらのスキルはデプロイ後は静的なままであり、類似のワークフローやツール使用パターン、失敗モードがユーザー間で繰り返し再発見される問題があった。SkillClawはスキルをデプロイ後も集合的に進化させるエージェント型フレームワークを提案する。

新規性: スキルを静的な資産ではなく、ユーザーの使用パターンから継続的に学習・進化する動的なものとして扱う点が画期的。エージェント型のEvolver機構により、個別ユーザーの経験を集約してスキルライブラリ全体を改善し、システムレベルでの知識蓄積を実現する。

手法: Agentic Evolverがユーザーのタスク実行ログからスキルの改善点を抽出し、既存スキルの更新・新規スキルの生成・不要スキルの統合を自律的に実行。集合知としてのスキル進化により、同じ失敗を繰り返さないシステムを構築する。

Hugging Face Daily Papers


ClawBench: Can AI Agents Complete Everyday Online Tasks?

著者: Yuxuan Zhang, Yubo Wang, Yipeng Zhu et al.

AIエージェントの受信トレイ自動化は進んでいるが、日常生活の他の側面を自動化できるかは未検証だった。ClawBenchは、153の日常的オンラインタスクでAIエージェントの実用能力を体系的に評価するフレームワークを提案する。

新規性: 日常的なオンラインタスクという現実的かつ未解決のテストベッドに焦点を当て、次世代AIエージェントの評価基盤を構築。単なるベンチマークではなく、エージェントの実世界適用可能性を測る包括的な評価フレームワークとして設計されている。

手法: ウェブブラウジング、フォーム入力、情報検索など多様なオンラインタスク153件を体系化し、タスクの複雑度・ドメイン・必要スキルに基づく分類体系を構築。各タスクに対する成功基準を明確に定義し、エージェントの能力を多角的に評価する。

Hugging Face Daily Papers


HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

著者: Tencent Robotics X, HY Vision Team, Xumin Yu et al.

汎用VLMと身体性エージェントの要求の間にはギャップが存在する。HY-Embodied-0.5は実世界の身体性エージェント向けに特化設計されたファウンデーションモデル群で、身体性知能に必要なコア能力の強化を目指す。

新規性: 汎用VLMを身体性エージェントに単純適用するのではなく、空間理解・操作計画・環境認識など身体性に固有の能力を強化する設計思想。実世界のロボットエージェントが必要とする知覚・推論・行動の統合を一つのモデルファミリーで実現。

手法: VLMの事前学習に身体性タスク固有のデータを組み込み、空間的推論・物体操作・環境ナビゲーションなどの能力を体系的に獲得。実世界のロボット制御への直接適用を見据えた評価体系も構築。

Hugging Face Daily Papers


OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

著者: Wenbo Hu, Xin Chen, Yan Gao-Tian et al.

Group Relative Policy Optimization(GRPO)はマルチモーダルLLMの強化学習において事実上の標準となっているが、オープンソースのマルチモーダル汎用モデルへの拡張は2つの主要課題により大きく制約されている。本研究はこれらの課題を克服し、多領域視覚タスクに対応する汎用推論モデルを構築する。

新規性: GRPOベースの強化学習をオープンソースのマルチモーダルモデルに効果的に適用するための具体的な課題解決策を提示。従来困難だった多領域にまたがる視覚推論の汎化を、RLベースのアプローチで実現した点が重要。

手法: GRPOの枠組みを拡張し、マルチモーダル入力に対する報酬設計と学習安定性の課題を解決。複数の視覚推論ドメインにまたがるベンチマークで既存手法を上回る性能を達成。

Hugging Face Daily Papers


DMax: Aggressive Parallel Decoding for dLLMs

著者: Zigeng Chen, Gongfan Fang, Xinyin Ma et al.

拡散型言語モデル(dLLM)の並列デコーディングではエラー蓄積が課題となり、デコーディングの並列度を上げると生成品質が低下する問題があった。DMaxはこのエラー蓄積を軽減し、品質を維持したまま積極的な並列化を実現する新パラダイムを提案する。

新規性: 従来のマスク型dLLMが採用するバイナリな「マスク→トークン」遷移とは異なるアプローチにより、並列デコーディングのエラー蓄積問題に根本的に対処。生成品質と速度のトレードオフを大幅に改善。

手法: バイナリなマスク・トークン遷移に代わる新しいデコーディング戦略を導入し、各ステップでのエラー伝播を抑制。これにより従来手法では品質劣化を招いた高並列度でのデコーディングが実用的に可能となる。

Hugging Face Daily Papers


Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

著者: Chenyu Zhou, Huacan Chai, Wenteng Chen et al.

LLMエージェントは、モデルの重みを変更するのではなく、ランタイム環境を再編成することで構築されるようになっている。以前は内部的に回復することが期待されていた能力が、メモリストア、再利用可能なスキル、対話プロトコル、ハーネス基盤へと外部化されている現状を統合的にレビューする。

新規性: LLMエージェントの「外部化」という概念で、メモリ・スキル・プロトコル・ハーネスという4つの異なる機構を統一的な視点から体系化。個別技術のサーベイではなく、エージェント構築パラダイムそのものの変化を捉えた包括的レビュー。

手法: エージェントの外部化機構を4カテゴリ(メモリストア、再利用可能スキル、対話プロトコル、ハーネスエンジニアリング)に分類し、各カテゴリの設計原則・代表的実装・課題を体系的に整理。

Hugging Face Daily Papers


MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

著者: Tanmay Gupta, Piper Wolters, Zixian Ma et al.

最も高性能なWebエージェントは非公開モデルと非公開の学習データに依存しており、科学的再現性と改善を制約している。MolmoWebはオープンソースのビジュアルWebエージェントとオープンデータを公開し、この問題に取り組む。

新規性: モデル・学習データ・学習レシピをすべてオープンにすることで、Webエージェント研究の民主化を推進。非公開モデルへの依存を断ち切り、コミュニティ全体での改善サイクルを可能にする。

手法: 視覚的理解に基づくWebナビゲーションエージェントをオープンソースで構築し、学習に使用したデータセットと手法も公開。実際のWeb環境での評価を通じて、オープンモデルでも実用的なWeb操作が可能であることを実証。

Hugging Face Daily Papers


Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

著者: Hanchen Li, Runyuan He, Qizheng Zhang et al.

ACEやGEPAなどの既存のプロンプト学習手法は、推論時のコンテキストからパラメータ変更なしにタスク関連知識を獲得できるが、スケーリングに課題がある。Combeeはプロンプト学習をスケールさせ、LLMエージェントの自己改善を実現するフレームワークを提案する。

新規性: 推論時のプロンプト学習というパラダイムをスケーラブルにする具体的な手法を提示。過去のエージェント実行結果からシステムプロンプトを学習・改善するアプローチを、大規模なタスク環境に適用可能にした。

手法: 過去のエージェント実行ログに基づくプロンプト最適化を、タスクの多様性と規模に対応できるよう拡張。既存手法の制約であった単一タスク最適化を超え、複数タスクにまたがるプロンプト改善を実現。

Hugging Face Daily Papers


Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

著者: Quantong Qiu, Zhiyi Hong, Yi Yang et al.

標準的なAttention機構の二次計算量は長コンテキストにおけるLLM推論のスケーラビリティのボトルネックとなっている。Full AttentionとSparse Attentionを組み合わせたハイブリッド手法は有望だが、既存手法は静的な割り当てに依存している。Flux Attentionは文脈に応じた動的な切り替えを実現する。

新規性: Full AttentionとSparse Attentionの選択を静的な事前設定ではなく、入力コンテキストに応じて動的に行う点が新しい。各レイヤー・各ヘッドの注意パターンを実行時に分析し、最適なAttention戦略を適応的に選択する。

手法: 各Attentionヘッドの注意分布パターンを実行時に評価し、Full AttentionとSparse Attentionを動的に切り替えるメカニズムを導入。計算コストの削減と推論品質の維持を両立。

Hugging Face Daily Papers


分野別の動向

エージェント・スキル

本日はエージェント関連研究が圧倒的な注目を集めた。SkillClaw(258件)とClawBench(241件)がともに高い支持を獲得し、エージェントの「能力の進化」と「能力の評価」の両輪が同時に進展している。Externalizationのレビューが示すように、LLMエージェントはモデル内部の改善からランタイム環境の設計へとパラダイムが移行しており、スキル・メモリ・プロトコルの外部化が主流になりつつある。MolmoWebのオープンソース化やCombeeのプロンプト学習スケーリングも、エージェント技術の実用化と民主化を加速する動きとして注目される。

マルチモーダル・身体性AI

HY-Embodied-0.5(152件)は、汎用VLMと身体性エージェントのギャップを埋める試みとして大きな注目を集めた。OpenVLThinkerV2はGRPOベースの強化学習でマルチモーダル推論の汎化を追求しており、視覚と言語の統合的推論能力の向上が継続的なテーマとなっている。

LLM効率化

DMaxは拡散型言語モデルの並列デコーディングにおけるエラー蓄積問題に新しい解を提示し、Flux Attentionは長コンテキスト推論の効率化に動的なAttention切り替えで取り組んだ。両研究とも、モデル性能を損なわずに推論コストを削減するという実用的課題に焦点を当てており、LLMのデプロイメント効率化が引き続き活発な研究領域であることを示している。

ソース