Code as Agent Harnessが127 upvotesでコードをエージェント操作基盤として再定義し、SkillsVoteが111 upvotesでスキルのライフサイクル統治を提案。Auditing Agent Harness Safetyが47 upvotesでハーネス安全性監査を提起し、エージェントの「実行基盤・能力管理・安全性」という三層構造が本日の論文群を貫く主題となった。
注目論文
Code as Agent Harness
著者: Xuying Ning, Katherine Tieu, Dongqi Fu et al.
LLMのコード生成能力を活用し、コードをエージェントシステムの操作基盤(ハーネス)として位置づける統合的枠組みを提案した(127 upvotes)。コードが単なる出力対象ではなく、ツール呼び出し・リソース管理・メッセージルーティングを担うエージェントの実行層として機能する構図を体系化している。
新規性: 既存のエージェント研究はプロンプト設計やツール統合を個別に扱ってきたが、コードがエージェントの操作基盤として果たす役割を統一的に捉える視点が欠けていた。本研究はコード生成・実行・検証をエージェント構築の中核基盤として再定義し、分散していた知見を統合的なフレームワークに集約している。
手法: 競技プログラミングからリポジトリレベルのソフトウェア工学まで、LLMのコード能力を横断的に分析し、エージェントシステムにおけるコードの役割を操作基盤・制御フロー・状態管理の3軸で整理する。エージェントがコードを通じて外部環境と相互作用する際のパターンと設計原則を導出している。
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution
著者: Hongyi Liu, Haoyan Yang, Tao Jiang et al.
エージェントスキルを実行可能スクリプトと非実行可能な手順ガイダンスの対として定義し、スキルの収集・推薦・進化を投票メカニズムで統治するライフサイクル管理フレームワークを提案した(111 upvotes)。オープンなスキルエコシステムに蓄積される冗長・品質不均一なスキル群を体系的に管理する。
新規性: LLMエージェントの軌跡は再利用可能な経験になりうるが、生の軌跡はノイズが多く統治が困難である。本研究はスキルを経験スキーマとして形式化し、冗長除去・品質評価・進化を投票ベースで自動化する初の統治フレームワークを提供している。前日のMMSkills(マルチモーダルスキル再利用)と連続する形で、スキルの「管理・進化」という運用面に焦点を移している。
手法: エージェントの実行軌跡からスキルを抽出し、実行可能コンポーネントと手順的ガイダンスを対にしたスキーマに構造化する。スキル間の冗長性検出・品質スコアリング・推薦・進化の各段階で投票メカニズムを適用し、エコシステム全体の品質を維持する。
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation
著者: Yukang Chen, Luozhou Wang, Wei Huang et al.
長尺動画生成の学習・推論ワークフロー全体にNVFP4量子化とシーケンス並列を導入し、速度・メモリのボトルネックを解消するインフラストラクチャを提案した(90 upvotes)。
新規性: 長尺動画生成は計算コストとメモリ消費が深刻なボトルネックだが、既存手法はモデルアーキテクチャの改善に偏り、学習・推論インフラ全体の最適化は手薄だった。LongLive-2.0はBalanced SPによるシーケンス並列AR学習とNVFP4量子化を統合し、インフラレベルでの包括的解決を提示している。
手法: シーケンス並列自己回帰学習をBalanced SPとして具現化し、フレーム間の計算負荷を均等化する。NVFP4(4ビット浮動小数点)量子化を学習・推論の両方に適用し、精度劣化を最小限に抑えつつメモリ使用量と計算時間を大幅に削減する。
Lance: Unified Multimodal Modeling by Multi-Task Synergy
著者: Fengyi Fu, Mengqi Huang, Shaojin Wu et al.
画像・動画の理解・生成・編集を単一の軽量モデルで統合的に扱うネイティブ統合マルチモーダルモデルを提案した(61 upvotes)。モデル容量のスケーリングやテキスト・画像偏重の設計に頼らず、マルチタスク協調による実用的な統合パラダイムを探索している。
新規性: 既存の統合マルチモーダルモデルはモデルサイズの拡大やテキスト・画像中心の設計に依存する傾向があった。Lanceはマルチタスク間の協調学習を軸とする軽量な統合アプローチを示し、理解・生成・編集の3能力を動画を含めて単一モデルで実現する実用的な道筋を提示している。
手法: 画像・動画の理解タスク、生成タスク、編集タスクを共有アーキテクチャ上で協調的に学習する。タスク間の相互補完効果を活用し、個別タスク専用モデルに匹敵する性能を軽量な単一モデルで達成する。
AI for Auto-Research: Roadmap & User Guide
著者: Lingdong Kong, Xian Sun, Wei Chow et al.
完全自動化された研究システムが$15で論文を生成可能になった現状を踏まえ、AI支援研究の自動化に伴う整合性課題と今後のロードマップを包括的に議論した(50 upvotes)。
新規性: AI研究自動化の個別技術は急速に進展しているが、長期的エージェントによる実験実行・論文執筆・査読シミュレーションまでを含む全体像とその倫理的含意を体系的に整理した研究は少なかった。本研究は生産性フロンティアの先にある研究整合性の深層課題を正面から扱っている。
手法: 自動研究システムの現状能力($15での論文生成、長期エージェントによる実験実行等)を調査し、研究整合性・再現性・倫理的課題を分類・整理する。段階的な自動化の進展に応じたガバナンスの枠組みとユーザーガイドを提示している。
Auditing Agent Harness Safety
著者: Chengzhi Liu, Yichen Guo, Yepeng Liu et al.
LLMエージェントの実行ハーネス(ツール呼び出し・リソース割当・メッセージルーティング)の安全性監査手法を提案した(47 upvotes)。正しい最終出力を返しながらも、軌跡中で不正なリソースアクセスやコンテキスト漏洩を行うケースを検出する。
新規性: 既存のエージェント安全性研究は最終出力の品質や有害性に着目するが、ハーネスが正しい結果を返す過程で不正なリソースアクセスを行う問題は見過ごされていた。Code as Agent Harnessがハーネスの機能面を体系化したのに対し、本研究はハーネスの安全性という補完的な視点を提供し、「出力正当性≠軌跡安全性」という重要な区別を確立している。
手法: エージェントの実行軌跡を監査し、各ステップでのリソースアクセス・コンテキスト共有の正当性を検証する。出力が正しくても軌跡が不正なケースを検出するための監査フレームワークを設計し、複数のエージェントハーネス構成で評価している。
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
著者: Haolin Chen, Deon Metelski, Leon Qi et al.
医療業務の自動化に必要な3能力(ポリシー密度・多役割構成・多者対話)を評価するベンチマークを提案した(40 upvotes)。87のMCPツールと1,290以上の運営ハンドブック文書を備えた高忠実度シミュレータ上で、最良エージェントでも28.0%のタスクしか解決できないことを示している。
新規性: 既存のエージェントベンチマークはポリシー密度(大量の医療・保険・運営規則への準拠)、多役割構成(単一タスク内での役割切替)、多者対話(ピアレビューや患者対応)を十分に評価していなかった。CHI-Benchはこれら3要素を統合した初のヘルスケアベンチマークであり、現行エージェントの根本的な限界を定量化している。
手法: 事前認可・利用管理・ケアマネジメントの3ドメインにまたがる長期ワークフロータスクを設計し、エージェントが臨床ケースをシミュレータ上で終了状態まで処理する能力を評価する。30のエージェント構成を評価し、全タスク一括実行では成功率が3.8%まで低下することを確認している。
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
著者: Yixuan Yang, Zhen Luo, Wanshui Gan et al.
トップダウンビュー画像からエージェント的なコード合成を通じて3D室内空間を生成する手法を提案した(35 upvotes)。MLLMベースの手法がテキスト記述からの生成で成果を上げる中、参照画像からのコード駆動アプローチで空間の忠実性を向上させている。
新規性: 既存のMLLMベース3D部屋生成はテキスト記述を主な入力とするが、空間レイアウトの正確な再現にはトップダウンビューのような視覚的参照が有効である。本研究はコード生成をエージェント的プロセスとして構成し、視覚入力から3D空間への変換を反復的なコード修正で実現する独自のアプローチを提示している。
手法: トップダウンビュー画像を入力として、MLLMがプログラム的に3D室内空間を記述するコードを生成・修正する。エージェント的な反復プロセスにより、生成されたコードの実行結果を検証し、空間の忠実性を段階的に改善する。
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
著者: Ruicheng Zhang, Kaixi Cong, Jun Zhou et al.
蒸留済みAR動画生成モデルの決定論的ODEダイナミクスに整合したRL手法を提案し、ヒト選好への整列を改善した(34 upvotes)。既存手法がSDEベースの代理方策に依存する不整合を解消している。
新規性: 既存のRL手法はノイズベースの探索とSDEベースの代理方策に依存するが、蒸留されたARモデルの決定論的ODE動力学とは根本的に不整合であった。KVPOはODEネイティブな方策最適化を実現し、KV空間での意味的探索を導入することで、モデル固有のダイナミクスに沿った整列を可能にしている。
手法: ODE動力学に適合した方策勾配推定を設計し、KVキャッシュの意味空間における探索を通じて多様な動画候補を生成する。GRPOフレームワークを拡張し、各デノイジングステップでODE整合的な更新を行う。
Post-Trained MoE Can Skip Half Experts via Self-Distillation
著者: Xingtai Lv, Li Sheng, Kaiyan Zhang et al.
学習済みMoEモデルに自己蒸留を適用し、入力依存で活性化エキスパート数を動的に削減する手法を提案した(25 upvotes)。ゼロからの事前学習やタスク固有の適応を必要とせず、ポストトレーニング段階で推論コストを大幅に削減する。
新規性: 既存の動的MoE手法はゼロからの事前学習やタスク固有の微調整を要求するが、大規模モデルではこれらのコストが実用上の障壁となる。本手法は学習済みMoEにポストトレーニング段階で自己蒸留を適用するだけで動的スキップを実現し、既存モデルへの適用が容易な効率化手法を提供している。
手法: 学習済みMoEモデルの出力を教師信号とし、エキスパートの活性化判断を入力依存で行うゲーティング機構を自己蒸留で学習する。各層・各トークンで不要なエキスパートを動的にスキップし、エキスパートの約半数を省略しても性能劣化を最小限に抑える。
分野別の動向
エージェント基盤・安全性
本日最も顕著なテーマはエージェントの「実行基盤」に関する研究の集中である。Code as Agent Harness(127 upvotes)がコードをエージェントの操作基盤として再定義し、Auditing Agent Harness Safety(47 upvotes)がその安全性監査を提起した。SkillsVote(111 upvotes)はエージェントスキルのライフサイクル管理を投票メカニズムで統治する枠組みを提案し、CHI-Bench(40 upvotes)は医療ワークフローという高難度ドメインで現行エージェントの限界を定量化した。arXivからもAgentWall(ランタイム安全性レイヤー)、ANNEAL(記号的パッチ学習による故障修復)、NeuroMAS(マルチエージェントシステムのニューラルネットワーク的学習)など多数のエージェント関連論文が登場しており、エージェント研究が個別能力の向上から「基盤設計・運用管理・安全保証」という成熟段階に移行しつつある兆候が明確である。前日のMMSkills(マルチモーダルスキル再利用)に続き、SkillsVoteがスキルの統治に踏み込んだことで、エージェント能力の「蓄積→管理→進化」という研究軸が確立されつつある。
マルチモーダル生成・動画
LongLive-2.0(90 upvotes)がNVFP4並列基盤で長尺動画生成のインフラ問題に取り組み、Lance(61 upvotes)が軽量な統合マルチモーダルモデルを提案した。KVPO(34 upvotes)はAR動画生成モデルのRL整列をODEネイティブに行う手法で、動画生成の品質制御に新たなアプローチを示している。Code-as-Room(35 upvotes)はコード生成を3D空間合成に応用するユニークな試みである。動画生成はモデルアーキテクチャだけでなく、学習・推論インフラの最適化とヒト選好への整列が同時に進展しており、実用化に向けた多面的な成熟が見られる。
LLM効率化・量子化
Post-Trained MoE自己蒸留(25 upvotes)がポストトレーニング段階でのMoE動的スキップを実現し、arXivからはCompactAttention(チャンク化プリフィルの高速化)、RTPurbo(フルアテンションからスパースへの高速変換)、SNLP(レイヤー並列推論)など、推論効率化の多様なアプローチが登場した。HF Daily PapersからもOSCAR(2ビットKVキャッシュ量子化)やE-PMQ(マージ後量子化)が見られ、量子化・スパース化・並列化の各軸で技術が深化している。特に「既存の学習済みモデルを変更せずに効率化する」ポストトレーニング手法への注目が高まっている。
AI研究自動化・メタ研究
AI for Auto-Research(50 upvotes)が研究自動化の現状と整合性課題を包括的に整理した。$15で論文生成が可能な時代において、研究の品質保証・再現性・倫理的ガバナンスがどうあるべきかという問いは、学術コミュニティ全体に関わる課題である。エージェント基盤の成熟(Code as Agent Harness)と研究自動化の進展は表裏一体であり、今後の学術出版・査読プロセスへの影響が注視される。
推論・学習の理論的理解
arXivからは、Stop When Reasoning Converges(推論収束時の早期終了)、Monitoring the Internal Monologue(プローブ軌跡による推論ダイナミクスの可視化)、Effort as Ceiling, Not Dial(推論予算は上限であり調整ダイヤルではない)など、大規模推論モデルの内部挙動を理論的に解明する研究が複数登場した。Reasoning Can Be Restored by Correcting a Few Decision Tokens(少数の決定トークン修正で推論を回復可能)もベースモデルと推論モデルの差をトークンレベルで分析しており、推論能力の機構的理解が進展している。