LLM/NLP最新論文 - 2026-05-17

Warp-as-Historyが単一学習動画からのカメラ制御動画生成で35 upvotesを獲得し注目を集める。Lighthouse Attentionが超長系列事前学習の効率化を提案し、Orchardがオープンソースエージェントフレームワークの民主化を推進。前日のエージェント記憶・推論スケーリング一色から、生成モデルの実用化と基盤技術の効率改善へと関心が分散した。

注目度

注目論文

Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

著者: Yifan Wang, Tong He

単一の学習動画から汎化可能なカメラ制御動画生成を実現する手法を提案した（35 upvotes）。既存手法がカメラエンコーダや制御ブランチ、アテンション修正を必要とするのに対し、ワーピング画像を履歴として条件付けることで、追加モジュールなしにカメラ軌跡追従を可能にしている。

新規性: カメラ制御を明示的なエンコーダや位置符号化の修正で実現する従来アプローチとは根本的に異なり、ワーピング画像を履歴フレームとして入力するだけでカメラ条件付けを達成する点が斬新。単一動画からの学習で汎化性を獲得する効率性も実用上重要である。

手法: 入力動画のフレームをカメラパラメータに基づいてワーピングし、その結果を「疑似履歴」として動画生成モデルに条件付ける。アーキテクチャ修正を必要とせず、既存の動画生成モデルに適用可能な汎用的手法である。

Hugging Face Daily Papers

Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

著者: Ido Sobol, Kihyuk Sohn, Yoav Blum et al.

写実性と3D整合性を両立する画像生成のために、合成3Dアセットのレンダリングでファインチューニングする際のドメインギャップ問題に取り組んだ（20 upvotes）。実画像で事前学習した生成器を合成レンダリングで学習する際に失われる写実性を、ドメイン認識型学習で回復する。

新規性: 実画像事前学習モデルを合成3Dアセットでファインチューニングする際の写実性劣化は広く知られた問題だが、これをドメイン認識型の学習戦略で体系的に解決するアプローチは初めてである。幾何・材質・視点の精密な制御と写実性を同時に達成している。

手法: 合成レンダリングからの学習時にドメイン固有の特徴を明示的にモデル化し、実画像ドメインの分布特性を保持しながら3D制御性を獲得する。事前学習済み画像生成器の写実的表現力を維持したまま幾何学的一貫性を付与する。

Hugging Face Daily Papers

Long Context Pre-Training with Lighthouse Attention

著者: Bowen Peng, Subho Ghosh, Jeffrey Quesnelle

超長系列での因果Transformer事前学習において、SDPAの二次計算コストがボトルネックとなる問題に対し、学習時のみ適用する階層的選択ベースアテンション「Lighthouse Attention」を提案した（19 upvotes）。

新規性: 長文脈学習の効率化手法の多くが推論時にも特殊なアテンションを要求するのに対し、Lighthouse Attentionは学習時のみの対称的選択アルゴリズムであり、推論時は標準SDPAをそのまま使用できる点が実用上大きな利点である。通常のSDPAをラップする形で動作するため既存実装への統合が容易である。

手法: 標準SDPAを内部に持ちながら、階層的な選択メカニズムにより計算量を削減する。対称的な設計により学習時の勾配伝播を安定させつつ、長系列での二次コストを実用的な範囲に抑える。推論時はアンラップして通常のアテンションに戻る。

Hugging Face Daily Papers

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

著者: Ziyu Guo, Rain Liu, Xinyan Chen et al.

視覚推論において、中間的な視覚状態を伴う推論を統一的に扱うフレームワークを提案した（17 upvotes）。直接的な画像生成による推論は計算コストが高くアーキテクチャ的にも非自明だが、ATLASは一語のトリガーで明示的生成と潜在的推論を切り替える。

新規性: エージェント的（明示的画像生成を伴う）推論と潜在的（内部表現上の）推論を単一のフレームワークで統一し、一語の制御トークンで切り替え可能にした点が独自である。計算コストと推論品質のトレードオフを動的に制御できる。

手法: 視覚推論プロセスを明示的生成パスと潜在パスに分岐させ、タスクの複雑さに応じて適切なパスを選択する。一語のトークンが分岐条件として機能し、アーキテクチャの複雑化を最小限に抑えながら柔軟な視覚推論を実現する。

Hugging Face Daily Papers

Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

著者: Valeriy Vyaltsev, Alsu Sagirova, Anton Andreychuk et al.

大規模マルチエージェント経路探索（MAPF）において、局所通信の学習により効率的かつスケーラブルな解法を実現した（16 upvotes）。最適解がNP困難であるMAPFに対し、エージェント間のローカル通信を学習することで実用的な規模での解決を可能にしている。

新規性: MAPFにおけるエージェント間通信を明示的に学習対象とし、グローバルな情報共有なしに局所通信のみでスケーラブルな協調を達成する点が新しい。実世界のマルチロボット軌道計画への直接的な応用可能性が高い。

手法: 各エージェントが近傍のエージェントとのみ通信する局所通信プロトコルを学習し、共有環境内での同時移動における衝突回避と効率的な経路計画を実現する。通信内容と通信相手の選択を同時に最適化する。

Hugging Face Daily Papers

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

著者: Quanhao Li, Junqiu Yu, Kaixun Jiang et al.

拡散モデルに対するRLベースの改善を複数タスクに拡張する統一的なオンポリシー蒸留フレームワークを提案した（14 upvotes）。個別タスクへのRL最適化は強力だが、複数タスクの同時最適化ではタスク間干渉と不均衡が問題となっていた。

新規性: 拡散モデルへのRL適用を単一タスクから複数タスクへ拡張する際の根本的課題（タスク間干渉、不均衡）を、オンポリシー蒸留の統一的視点から解決するアプローチが独自である。

手法: 複数タスクのRL目的をオンポリシー蒸留の枠組みで統一し、タスク間の干渉を構造的に制御する。各タスクからの勾配信号を適切にバランスさせ、単一モデルで複数の報酬関数に対して同時に最適化する。

Hugging Face Daily Papers

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

著者: Shijie Lian, Bin Yu, Xiaopeng Lin et al.

ロボット模倣学習データにおけるマルチモーダル性（同じ観測から異なるアクションが続く問題）に対し、短期的な意図モデリングを導入したVLAモデルを提案した（14 upvotes）。

新規性: 既存のフレーム条件付きVLAポリシーが同一観測から複数の妥当なアクションが存在する状況で平均化してしまう問題を、明示的な短期意図変数の導入で解決する点が新しい。模倣データのマルチモーダル性を構造的に扱っている。

手法: 現在のフレーム観測に加え、短期的な意図（タスクフェーズや直近のコンテキスト）を明示的に推論し、それに基づいてアクションチャンクを生成する。意図空間のモデリングにより、観測のエイリアシング問題を構造的に解消する。

Hugging Face Daily Papers

Orchard: An Open-Source Agentic Modeling Framework

著者: Baolin Peng, Wenlin Yao, Qianhui Wu et al.

LLMを自律エージェントに変換するためのオープンソースフレームワークを提案した（13 upvotes）。計画・推論・ツール使用・マルチターン環境対話を統合し、高性能エージェントシステムの構築とトレーニングのギャップを埋めることを目指している。

新規性: 高性能エージェントシステムの多くがクローズドソースのインフラに依存する中、トレーニングパイプラインを含む包括的なオープンソースフレームワークを提供する点が実践的に重要である。研究とプロダクション間のギャップを具体的に埋める。

手法: エージェントとしてのLLMに必要な計画・推論・ツール使用・環境対話の各機能をモジュール化し、統一的なトレーニングインフラと組み合わせる。オープンソースにより研究コミュニティが共通基盤上で実験・比較できる環境を構築する。

Hugging Face Daily Papers

PanoWorld: Towards Spatial Supersensing in 360° Panorama World

著者: Changpeng Wang, Xin Lin, Junhan Liu et al.

MLLMの空間理解能力を360度パノラマ画像を用いて強化する「空間超感覚」の概念を提案した（13 upvotes）。従来の狭視野パースペクティブ画像パラダイムの限界を指摘し、パノラマ入力による空間認識の本質的な改善を目指している。

新規性: MLLMの空間理解が人間的な狭視野知覚に制約されている根本問題を指摘し、360度パノラマという全方位情報を活用する新たなパラダイムを提示した点が重要。ナビゲーション、ロボット探索、3Dシーン理解への直接的応用を想定している。

手法: 360度パノラマ画像からの空間情報抽出に特化した処理パイプラインを設計し、MLLMが全方位の空間関係を理解・推論できるよう学習する。狭視野画像では得られない空間的文脈の活用を可能にする。

Hugging Face Daily Papers

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

著者: Kaixin Zhu, Yiwen Tang, Yifan Yang et al.

フィードフォワード型3Dシーン再構成モデルに編集能力を付与し、単一フォワードパスでの3Dシーン編集を実現した（13 upvotes）。静的シーン知覚に優れるフィードフォワードアーキテクチャが動的な編集指示に対応できないという限界を克服している。

新規性: 汎化可能なフィードフォワード3D再構成モデル（VGGT系）に初めてネイティブな編集機能を統合した点が新しい。残差フィールド予測により、元のシーン表現を大きく変更せずに編集を適用できる。

手法: 3Dシーンの残差フィールドを予測することで、ベースとなる再構成結果に対する差分として編集を表現する。フィードフォワードの効率性を維持しながら、テキスト指示に基づく3Dシーンの局所的な変更を実現する。

Hugging Face Daily Papers

分野別の動向

動画生成・3D生成

本日はWarp-as-History（35 upvotes）がカメラ制御動画生成の新アプローチを示し、Realiz3D（20 upvotes）が3D生成の写実性問題に取り組んだ。DiffusionOPD（14 upvotes）は拡散モデルへのマルチタスクRL適用を統一化し、VGGT-Edit（13 upvotes）がフィードフォワード3D編集を実現した。前日のCausal Forcing++やSANA-WMに続き、生成モデルの「制御性」と「実用性」を高める研究が連日登場しており、生成品質の改善から運用可能な制御・編集への関心移行が明確である。

LLM基盤技術・効率化

Lighthouse Attention（19 upvotes）が超長文脈事前学習の効率化を提案した。学習時のみの手法で推論時は標準アテンションに戻せるという実用的設計が特徴的。前日の推論スケーリング研究が「性能の天井を押し上げる」方向だったのに対し、本日は「同等性能をより効率的に達成する」方向の研究が目立つ。

エージェント・マルチエージェント

Orchard（13 upvotes）がオープンソースエージェントフレームワークを提供し、Learning to Communicate Locally（16 upvotes）が大規模マルチエージェント協調の通信学習に取り組んだ。arXivではGraphBitがDAGベースの決定的エージェントオーケストレーション、Invisible Orchestratorsがマルチエージェントシステムの安全性リスクを実証的に分析している。前日のエージェント記憶研究群とは異なり、本日はエージェントの「実行基盤」と「協調メカニズム」に焦点が当たっている。

マルチモーダル理解・空間認識

ATLAS（17 upvotes）が視覚推論の明示的・潜在的アプローチを統一し、PanoWorld（13 upvotes）がパノラマ入力による空間超感覚を提案、IntentVLA（14 upvotes）がVLAモデルのマルチモーダル性問題に取り組んだ。空間理解とロボティクスへの応用が共通テーマとして浮上しており、言語理解を超えた身体的知覚への拡張が継続的な研究方向である。