LLM/NLP最新論文 - 2026-04-29

異種エージェントを企業組織として編成するFrom Skills to Talentが97票、動画生成の幾何的一貫性を強化学習で改善するWorld-R1が95票を記録。VLMの3D空間推論評価の体系的再構築、VLAモデルの安全性課題の体系化など、マルチモーダル・エージェント分野で注目度の高い研究が集中した。

注目度

注目論文

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

著者: Zhengxu Yu, Yu Fu, Zhiyuan He et al.

個々のエージェントの能力はモジュラースキルやツール統合で急速に進歩しているが、マルチエージェントシステムは固定的なチーム構造、密結合の協調ロジック、セッション限定の学習に制約されている。本研究は実世界の企業組織をメタファーとして、異種エージェントを階層的に編成する原理的なフレームワークを提案した（97 upvotes）。

新規性: マルチエージェントシステムの根本的な欠陥を「組織設計原理の欠如」と特定し、企業組織論（役割分化・階層・組織学習）をエージェントアーキテクチャに体系的に導入した初の試み。固定チーム構成ではなく、タスクの性質に応じてエージェントの役割と協調構造を動的に再編成する仕組みを提供する。

手法: 異種エージェント（異なる能力・専門性を持つエージェント群）を企業の部門・チーム・個人の3層構造で組織化し、タスク分解・役割割当・セッション間学習を統合的に管理する。組織レベルでの経験蓄積により、同一タスクの再実行時に効率が向上するメカニズムを組み込んだ。

Hugging Face Daily Papers

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

著者: Weijie Wang, Xiaoxuan He, Youping Gu et al.

動画基盤モデルは印象的な映像合成を実現するが、幾何的一貫性の欠如が深刻な問題となっている。既存手法はアーキテクチャ変更による3D事前知識の注入を試みるが、計算コストが高くスケーラビリティが制限される。本研究はアーキテクチャ変更なしで3D制約を強化学習により注入するWorld-R1を提案した（95 upvotes）。

新規性: 動画生成モデルの幾何的一貫性を、モデルアーキテクチャの修正ではなく強化学習の報酬設計で実現するアプローチ。3D制約を報酬関数として定式化することで、既存モデルへの後付け適用が可能であり、計算コストの大幅な削減とスケーラビリティの確保を両立した。

手法: テキストから動画を生成する過程で、3D幾何的一貫性（深度推定の時間的整合性、カメラ運動の物理的妥当性など）を報酬信号として用い、強化学習によりモデルを最適化する。アーキテクチャの変更が不要なため、様々な動画生成モデルに適用可能な汎用的なフレームワークとなっている。

Hugging Face Daily Papers

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

著者: Yiming Zhang, Jiacheng Chen, Jiaqi Tan et al.

VLMの空間知能評価は、現代のVLM設定下では体系的に無効である可能性がある。多くのベンチマークは点群ベースの3Dアノテーションから質問応答ペアを導出しているが、これを画像ベースのVLM評価に転用すると系統的なバイアスが生じる。本研究はこの根本的問題を特定し、評価フレームワークを再構築した（54 upvotes）。

新規性: 3D知覚タスク用に作成されたアノテーションをVLM評価に転用する際の体系的な妥当性問題を初めて定量的に示した。点群アノテーションと画像入力の間のモダリティギャップが評価スコアを歪めることを実証し、画像ベースの評価に適したベンチマーク再構築を行った。

手法: 既存ベンチマークの質問応答ペアがどのように生成されたかを追跡し、3Dアノテーション由来のペアが画像入力でのVLM評価において無効となるケースを分類。画像から直接アクセス可能な空間情報に基づく評価基準を再設計し、VLMの真の3D推論能力をより正確に測定するベンチマークを構築した。

Hugging Face Daily Papers

Video Analysis and Generation via a Semantic Progress Function

著者: Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri et al.

画像・動画生成モデルが生み出す変換は、内容がほとんど変化しない長い区間と突然の意味的ジャンプが交互に現れるという、高度に非線形な振る舞いを示す。本研究はこの問題を分析・制御するためのSemantic Progress Functionを導入した（53 upvotes）。

新規性: 動画生成の意味的進行を1次元関数として定量化する概念を導入。生成過程における意味的変化の非線形性を測定可能にし、意味的に均一な進行への修正を可能にした初の枠組み。

手法: 動画の各フレーム間の意味的変化量を定量化するSemantic Progress Functionを定義し、生成済み動画の分析と生成過程の制御の両方に適用する。意味的な進行が均一になるようにフレーム補間やサンプリング戦略を調整することで、急激なジャンプや停滞のない滑らかな動画生成を実現する。

Hugging Face Daily Papers

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

著者: Qi Li, Bo Yin, Weiqi Huang et al.

Vision-Language-Action（VLA）モデルが身体知能の統一基盤として台頭する中、物理世界での不可逆的な結果を伴う新たな安全性課題が浮上している。本研究はVLAモデル特有の安全性脅威・課題・評価手法・防御機構を体系的に整理した（42 upvotes）。

新規性: VLAモデルが持つ身体性に起因する安全性課題（物理的不可逆性、ビジョン・言語・行動にまたがるマルチモーダル攻撃面）を初めて包括的に分類した。従来のLLM安全性研究がテキスト出力の有害性に焦点を当てていたのに対し、物理的行動の安全性という新しい次元を体系化した。

手法: VLAシステムにおける脅威モデルを攻撃面（ビジョン入力の敵対的摂動、言語指示の操作、行動空間の攻撃）ごとに分類し、既存の安全性評価手法の適用可能性と限界を分析。物理的行動を伴うAIシステムに必要な安全性メカニズムのロードマップを提示した。

Hugging Face Daily Papers

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

著者: Zhiheng Liu, Weiming Ren, Xiaoke Huang et al.

統合マルチモーダルモデルは通常、事前学習済みビジョンエンコーダに依存し、理解と生成で別々の視覚表現を使用するため、両タスク間の不整合とエンドツーエンド最適化の制限が生じる。本研究はビジョンエンコーダを廃しピクセル埋め込みで統合するTuna-2を提案した（40 upvotes）。

新規性: 事前学習済みビジョンエンコーダを完全に排除し、生のピクセルからの埋め込みのみで視覚理解と画像生成を統合するネイティブマルチモーダルモデル。理解と生成で同一の視覚表現を共有することで、両タスクの相互強化を実現した。

手法: 画像をピクセルレベルの埋め込みとして直接モデルに入力し、言語モデルの統一的なアーキテクチャ内で視覚理解（質問応答、キャプション生成）と画像生成の両方を処理する。ビジョンエンコーダの事前学習バイアスから解放されることで、タスク固有の視覚特徴学習が可能となった。

Hugging Face Daily Papers

Why Fine-Tuning Encourages Hallucinations and How to Fix It

著者: Guy Kaplan, Zorik Gekhman, Zhen Zhu et al.

LLMはファインチューニング時に新たな事実情報に曝露されることでハルシネーションが増加する。本研究はSFTにおける新規事実情報の導入がプレトレーニングで獲得した知識に対するハルシネーションを増加させるメカニズムを分析し、対策を提案した（6 upvotes）。

新規性: SFTでの新規事実曝露がハルシネーション増加の鍵であることを因果的に特定し、プレトレーニング知識との干渉メカニズムを解明した。ファインチューニングデータの事実的新規性を制御することでハルシネーションを軽減できることを示した。

手法: SFTデータに含まれる事実情報の新規性（プレトレーニングデータとの重複度）を体系的に変化させ、ハルシネーション率への影響を測定。新規事実の曝露量とハルシネーション増加の関係を定量化し、データキュレーションと訓練戦略による緩和手法を提案した。

Hugging Face Daily Papers

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

著者: Cheng Gao, Cheng Huang, Kangyang Luo et al.

LLMが知識の範囲外の質問に対して適切に回答を控えることはハルシネーション軽減に重要だが、既存の強化学習手法は静的な報酬設計のためモデルが過度に慎重になり回答精度が低下する問題があった。本研究はモデルの知識境界を動的に推定するKARLフレームワークを提案した。

新規性: グループ内応答統計を用いたオンライン知識境界推定と、知識境界探索→不正解の回答拒否変換という2段階RL訓練戦略を導入。静的報酬に起因する「回答拒否の罠」を回避しつつ、精度を維持したハルシネーション抑制を実現した。

手法: Knowledge-Boundary-Aware Rewardがグループ内の応答分布からモデルの知識境界をオンラインで推定し、正解には報酬を、境界外の誤答には適切な回答拒否を報酬する。第1段階で知識境界を探索し回答拒否の罠を回避した後、第2段階で境界外の誤答を回答拒否に変換する。

arXiv

Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance

著者: Xinzhu Chen, Wei He, Huichuan Fan et al.

GRPOは検証可能な報酬を用いた強化学習（RLVR）で粗い信用割当を行い、ロールアウト内の全トークンに同一のアドバンテージを割り当てる。プロセス報酬モデルはより細粒度の監督を提供できるが、ステップレベルのアノテーションが必要となる。本研究は隠れ状態の分布的乖離を自己監督信号として活用するSHEARを提案した。

新規性: 正解・不正解ロールアウト間のスパンレベル隠れ状態分布のWasserstein距離が、推論の質が分岐する領域で増大するという発見を形式化。追加モデルやアノテーション不要で、GRPOのトークンレベル信用割当を改善する手法を実現した。

手法: GRPOの各グループ内で正解・不正解ロールアウトのスパンごとの隠れ状態分布のWasserstein距離を計算し、距離が大きいスパンのトークンアドバンテージを増幅する。5つの数学推論ベンチマークと5つのコード生成ベンチマークで標準GRPOを上回り、監督付きプロセス報酬モデルと同等の性能を達成した。

arXiv

分野別の動向

マルチエージェント・組織設計

From Skills to Talent（97 upvotes）がマルチエージェントシステムに企業組織論を導入し、固定チーム構成から動的な組織再編へのパラダイム転換を提案した。同日のTaming Actor-Observer Asymmetry（13 upvotes）はマルチエージェントフレームワークにおける自己反省と相互監査の非対称性を弁証法的アライメントで解消するアプローチを、Efficient Agent Evaluation（12 upvotes）は多様性誘導のユーザシミュレーションによるエージェント評価の効率化を提案している。ClawMark（25 upvotes）は複数日にわたるマルチターン協働エージェントのベンチマークを導入し、環境がエージェントとは独立に変化する実世界的な設定での評価を可能にした。エージェント研究が個別能力の向上から組織・評価のインフラ整備へと成熟しつつある。

動画生成・3D理解

World-R1（95 upvotes）が動画生成の幾何的一貫性を強化学習で改善し、Semantic Progress Function（53 upvotes）が生成過程の意味的進行の非線形性を定量化・制御する枠組みを提示した。ReVSI（54 upvotes）はVLMの3D空間推論評価の体系的欠陥を指摘し、Building a Precise Video Language（13 upvotes）は構造化された動画キャプション仕様とスケーラブルな監督レシピを提案している。FlowAnchor（14 upvotes）はフローベース動画編集の安定化を、UniGeo（7 upvotes）はカメラ制御可能な画像編集の幾何的ガイダンス統合をそれぞれ実現した。動画・3D分野では「生成品質」から「幾何的正確性と制御可能性」へと研究の焦点が移行している。

ハルシネーション・推論の信頼性

Why Fine-Tuning Encourages Hallucinations（6 upvotes）がSFTでの新規事実曝露とハルシネーション増加の因果関係を解明し、KARL がオンライン知識境界推定による適応的回答拒否を実現した。SHEAR は隠れ状態のWasserstein距離を用いてGRPOの信用割当を改善し、Stabilizing Efficient Reasoning（4 upvotes）はステップレベルのアドバンテージ選択で推論効率化を安定化させた。Reward Models Are Secretly Value Functions（arXiv cs.LG）は報酬モデルの中間トークン出力を条件付き期待値として解釈し、Temporally Coherent Reward Modelingを導入した。前日のCoT推論の因果的妥当性への問題提起に続き、推論プロセスの内部メカニズム理解と制御の研究が厚みを増している。

マルチモーダル統合・安全性

Tuna-2（40 upvotes）がビジョンエンコーダを廃したネイティブマルチモーダルモデルを提案し、VLA Safety（42 upvotes）が身体知能の安全性課題を体系化した。SketchVLM（22 upvotes）はVLMが画像上にアノテーションを描いて推論を説明する訓練不要フレームワークを、TexOCR（6 upvotes）は科学PDFからコンパイル可能なLaTeXへの再構築を実現している。Sapiens2（7 upvotes）は人体中心ビジョンの高解像度Transformerファミリーを提案した。マルチモーダル研究では、モダリティ間の統合深度を高める方向（Tuna-2）と、新たな応用領域の安全性基盤を整備する方向（VLA Safety）の二軸が並行して進展している。

アーキテクチャ・効率化

Stochastic KV Routing がランダムクロスレイヤアテンションによる深度方向KVキャッシュ共有を提案し、How Much Is One Recurrence Worth（5 upvotes）がループ型言語モデルの再帰回数とパラメータ数のスケーリング則を導出した。Mixture of Heterogeneous Grouped Experts（arXiv cs.CL）は異種サイズのエキスパートをグループ化する2段階ルーティングで総パラメータを約20%削減し、Parameter Efficiency Is Not Memory Efficiency（arXiv cs.LG）はLoRAのメモリ効率の限界を指摘しアクティベーション部分空間制約によるLARS手法を提案した。ContextWeaver（arXiv cs.CL）は依存関係構造に基づく選択的メモリフレームワークでSWE-Benchのパス率を改善した。効率化研究は深度方向・エキスパート構成・メモリ管理と多面的に展開されている。

注目論文

From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Video Analysis and Generation via a Semantic Progress Function

Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Why Fine-Tuning Encourages Hallucinations and How to Fix It

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance

分野別の動向

マルチエージェント・組織設計

動画生成・3D理解

ハルシネーション・推論の信頼性

マルチモーダル統合・安全性

アーキテクチャ・効率化

ソース