LLM/NLP最新論文

GUIエージェントの学習・評価・デプロイを統一するClawGUIが129 upvotesで最注目を集めた。Seedance 2.0による音声動画統合生成、GameWorldによるゲームエージェント評価、RationalRewardsによる報酬モデル刷新など、マルチモーダル基盤とエージェント評価の両面で進展が見られた。

注目度

注目論文

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

著者: Fei Tang, Zhiqiong Lu, Boxuan Zhang et al.

GUIエージェントはプログラムAPIではなく視覚インターフェイス経由でアプリを操作することで、CLIベースのエージェントがリーチできないロングテール領域に手が届く。しかしこの領域の進展は、モデル容量よりも学習・評価・デプロイを跨ぐ統合フレームワークの欠如で阻まれていた。ClawGUIはそこを一気通貫で提供する統一基盤を打ち出した(129 upvotesでHF最上位)。

新規性: GUIエージェントの研究が分散したパイプラインで行われてきた現状に対し、学習から評価・本番デプロイまでを1つのフレームワークに統合。コミュニティ全体の開発コストを下げる基盤として位置づけられる。

手法: 学習時のデータ取得から評価ベンチマーク、実運用配備までを連結するモジュラ設計を採用。他のClaw系研究(ClawHub、LiveClawBench等)と連携可能な構造で、GUIエージェントのエコシステム全体を支える設計思想を示した。

arXiv


Seedance 2.0: Advancing Video Generation for World Complexity

著者: Team Seedance et al.

Seedance 2.0は2026年2月に中国で正式リリースされたネイティブマルチモーダル音声動画生成モデル。前身のSeedance 1.0・1.5 Proと比較して、統合された高効率かつ大規模なアーキテクチャでマルチモーダル音声動画の結合生成を実現する(110 upvotes)。

新規性: 音声と動画を後段で統合するのではなく、native multi-modal joint generationとして両者を同時に生成する統合アーキテクチャを採用。世界の複雑性(world complexity)の表現に焦点を当て、従来の動画生成が苦手としていた物理的整合性と時間的一貫性を前進させた。

手法: 統一された大規模アーキテクチャで音声と動画を同時生成。前世代モデルからの改善点として効率性とスケーラビリティを強調しており、プロダクション品質の映像生成を志向する設計。

arXiv


GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

著者: Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin et al.

実世界相互作用が可能なエンボディド汎用エージェントを目指す上で、マルチモーダルLLMエージェントは依然としてレイテンシ、スパース報酬、不可逆な失敗といった課題に直面している。ビデオゲームはリッチな視覚観測と閉ループ相互作用を備え、細粒度の意思決定を要求する理想的なテストベッドとなる(105 upvotes)。

新規性: 既存のエージェントベンチマークがゲーム単体やタスク単体に留まるのに対し、標準化された検証可能な評価プロトコルを複数ゲームにまたがって整備。マルチモーダル・ゲームエージェントを公平に比較できる共通軸を提供する。

手法: 多様なビデオゲーム環境を統一インタフェースに集約し、検証可能な評価指標を設計。視覚観測下での長期意思決定と不可逆的失敗の扱いを計測できる枠組みを構築した。

arXiv


RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

著者: Haozhe Wang, Cong Wei, Weiming Ren et al.

視覚生成の報酬モデルの大半は、人間の豊かな判断を1つの説明できないスコアに圧縮し、選好の背後にある推論を捨てている。RationalRewardsは、スコア付けの前に明示的で多次元の批評を生成するよう報酬モデルを訓練することで、評価器を受動的スコアラから能動的推論者へと変える(95 upvotes)。

新規性: 報酬モデルを「暗黙の数値予測器」から「明示的な批評生成器」へと再定義。訓練時とテスト時の両方で視覚生成をスケールさせられる点が特徴で、報酬モデルの解釈可能性と性能を同時に向上させる新パラダイムを提示。

手法: 報酬モデルに明示的・多次元の批評テキストを出力させてから最終スコアを与える多段階設計を採用。これにより訓練データのシグナル密度が増すほか、推論時にも批評を活用した再サンプリングが可能となる。

arXiv


SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

著者: Dinging Li, Yingxiu Zhao, Xinrui Cheng et al.

3Dシーンに対する空間推論はエンボディドインテリジェンスの中核能力だが、モデル改善は幾何アノテーションのコストに阻まれてきた。自己進化パラダイムは有望だが、擬似ラベル生成をモデルのコンセンサスに依存することで、誤りが固着するリスクがあった(60 upvotes)。

新規性: モデルコンセンサスではなく決定論的な幾何環境を参照信号とすることで、自己進化における擬似ラベルの信頼性問題を解決。「モデルの合意」に代えて「幾何学的な事実」を根拠とする自己進化パラダイムを提示した。

手法: 決定論的な幾何環境を真値ジェネレータとして活用し、モデルが空間推論能力を繰り返し更新する自己進化ループを構成。幾何アノテーションの人手コストなしで空間知能をスケールさせる設計。

arXiv


OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

著者: Xiaomeng Hu, Yinger Zhang, Fei Huang et al.

AIエージェントはERの救急トリアージから原子炉安全監視、税関輸入処理まで、数百の職業領域にわたるプロ仕事を期待されている。しかし既存ベンチマークは公開環境が存在する一部ドメインでしか評価できず、エージェントの実務適用評価は大きな盲点となっていた(46 upvotes)。

新規性: 公開環境の有無に依存しない評価を実現するため、言語世界モデル(Language World Models)を評価基盤として採用。従来テスト不能だった高度専門職のタスクを体系的に計測できる枠組みを切り拓いた。

手法: 実環境の代わりに言語ベースの世界モデルでプロフェッショナルタスクをシミュレーションし、エージェントの挙動を記録・採点。ドメイン横断で数百の職業タスクを対象とし、リアルワールド職業AIの評価空間を大幅に拡張した。

arXiv


Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

著者: Jiachen Zhu, Lingyu Yang, Rong Shan et al.

自律GUIエージェントの台頭は、デジタルプラットフォーム側の敵対的カウンター措置を招いたが、既存研究は有用性・頑健性を重視し、アンチ検知(anti-detection)という軸を見過ごしてきた。人間中心のエコシステムで生き残るエージェントは、人間らしさ(Humanization)を発達させる必要があると本稿は主張する(28 upvotes)。

新規性: GUIエージェント研究に「人間らしさ」という新たな評価軸を持ち込み、モバイル向けに初のHumanization評価ベンチマークを整備。自動化検出を回避しつつ正常に動作できるかを定量的に測定可能とした。

手法: タッチ・スワイプ・キーストロークといったモバイルGUIの操作パターンを、人間と区別できるかという観点で評価するベンチマークを構築。検出回避の性能とタスク成功率のトレードオフを評価できる設計となっている。

arXiv


Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

著者: Kangsan Kim, Minki Kang, Taeil Kim et al.

メモリベースの自己進化はコーディングエージェントで有望なパラダイムとなっているが、既存研究はメモリ利用を単一タスクドメインに閉じ込めてきた。ランタイム環境やプログラミング言語といった共通のインフラ基盤を横断する転移を活用できていなかった(23 upvotes)。

新規性: コーディングエージェントのメモリを「ドメイン固有の経験」ではなく「インフラ共通の知識」として再捉え、異種タスクドメイン間でメモリを転移させる転移学習パラダイムを初めて体系化した。

手法: ランタイムやプログラミング言語などのインフラ的共通性を手がかりに、タスクドメインをまたいだメモリ転移の仕組みを構築。単一ドメインに閉じた自己進化を超える再利用性を持つメモリ設計を提示。

arXiv


From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

著者: Yuqiao Tan, Minzheng Wang, Bo Liu et al.

検証可能な報酬を用いる強化学習(RLVR)は条件付き分布P(y|x)の最適化でLLM推論を大きく強化するが、その潜在能力はベースモデルの既存出力分布に根本的に縛られている。本稿はPre-train空間における周辺分布P(y)の最適化という新方向を提示する(23 upvotes)。

新規性: 既存RLVRの限界が「条件付き分布のみを動かす」設計に起因することを指摘し、事前学習空間での周辺分布最適化という新たな設計パラダイムを提示。RLVRの理論的基盤を拡張する意欲的な再定式化。

手法: P(y|x)のみを更新する従来RLから、P(y)そのものを強化学習で更新する枠組みへと拡張。ベースモデルの出力分布そのものを動かすことで、RLVRの性能上限を引き上げることを目指す。

arXiv


Target Policy Optimization

著者: Jean Kaddour

RLでは、あるプロンプトに対しモデルから完了候補群をサンプルしスコア付けする際、(1)どの完了に確率質量を与えるか、(2)パラメータをどう動かすか、の2問が発生する。標準的なポリシー勾配法は両者を1度に解くためアップデートが行き過ぎたり不安定になったりする(19 upvotes)。

新規性: 既存のポリシー勾配が「どれを重視するか」と「どう動かすか」を結合して解くことが不安定性の源泉だと整理し、両者を明示的に分離する新しい最適化手法を提案。グループサンプリングベースのRLに対する構造的な改善を狙う。

手法: ターゲットポリシーを明示的に設計し、そこへのパラメータ更新を独立したステップとして扱うことで、オーバーシュートや方向誤りを抑制。グループ内比較型RLの安定性向上に寄与する設計となっている。

arXiv


分野別の動向

GUIエージェント

本日最も目立ったのがGUIエージェント関連研究の集中投稿で、ClawGUIが統合基盤として129 upvotesの最上位を獲得した。UI-Copilot(長期GUI自動化のためのツール統合ポリシー最適化)、UI-Zoomer(不確実性駆動の適応ズームイン)、Turing Test on Screenなど、学習・推論・アンチ検知という異なる側面から同時多発的に研究が進展。ClawHubに公開された26,502スキルの実証研究(Red Skills or Blue Skills?)も併せて発表され、GUIエージェントのエコシステム全体を整備する動きが顕在化している。モバイルGUIエージェントの現実世界脅威評価(Mobile GUI Agents under Real-world Threats)も含め、このジャンルは評価軸が急速に多様化している。

エージェント評価・ベンチマーク

GameWorld、OccuBench、LiveClawBenchに加え、arXivからはHORIZON(長期タスクでのエージェント破綻診断)やInfiniteScienceGym(手続き的生成の科学分析ベンチ)も投下され、エージェント評価ベンチマークが急増している。特にOccuBenchが言語世界モデルで公開環境のない専門職タスクを評価可能にした点と、GameWorldが不可逆失敗を含む閉ループ評価を標準化した点は、評価空間の構造的拡張として重要。エージェントの能力拡大に評価側が追従しつつある構図が鮮明となった。

RL・強化学習

From P(y|x) to P(y)がRLVRの理論基盤を事前学習空間に拡張し、Target Policy Optimizationがポリシー勾配法の構造的な分離を提案。Self-Distillation Zero(二値報酬を密な監督に変換)やTIP(オンポリシー蒸留におけるトークン重要度)、IPVRM(暗黙プレフィックス値報酬)も同時発表され、報酬のスパース性・不安定性を克服する多様なアプローチが並走している。When Reasoning Models Hurt Behavioral Simulation(推論モデルが挙動シミュレーションを悪化させる)は、RLで鍛えた推論能力の適用領域の限界も示唆した。

マルチモーダル生成・VLM

Seedance 2.0が音声動画の統合生成で110 upvotes、RationalRewardsが報酬モデルに批評生成を取り込み95 upvotesを獲得。HDR Video Generation、LangFlow(連続拡散言語モデル)、PersonaVLM(長期パーソナライズMLLM)など、生成モダリティとパーソナライゼーションの両面で研究が進展。Caption First, VQA SecondはVQAが実質的にキャプションに還元可能であることを示し、マルチモーダルスケーリングの本質的ボトルネックは知識密度であると主張した点も注目に値する。

空間推論・3D

SpatialEvoの決定論的幾何環境による自己進化、Geometric Context Transformer(ストリーミング3D再構成)、Free Geometry(長尺版からの3D再構成精緻化)、Feed-Forward 3D Scene Modelingなど3D復元と空間推論の研究が豊富。Spatial Competence Benchmarkも併せて、評価と学習の両輪で空間知能領域が前進した1日となった。

ソース