LLM/NLP最新論文 - 2026-04-28

Agentic World Modelingが400超の論文を体系化する包括的サーベイで151 upvotesを記録。RLVRで訓練されたCoT推論が回答に因果的影響を与えていない場合があることが実証され、LLMの推論プロセスの信頼性に新たな問題提起がなされた。

注目度

注目論文

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

著者: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin et al.

テキスト生成から目標達成型のエージェントへとAIが進化する中、環境ダイナミクスのモデリングが中核的なボトルネックとなっている。本研究は「レベル×法則」の二軸分類体系を導入し、400以上の論文・100以上の代表的システムを体系的にサーベイした（151 upvotes）。

新規性: 世界モデルを3つの能力レベル（L1 Predictor: 1ステップ局所遷移、L2 Simulator: 多ステップ行動条件付きロールアウト、L3 Evolver: 予測失敗時の自律的モデル修正）と4つの法則領域（物理・デジタル・社会・科学）で整理する初の統一的分類体系。従来は分断されていたモデルベースRL・動画生成・Web/GUIエージェント・マルチエージェント社会シミュレーション・AI駆動科学発見の各コミュニティを横断的に接続した。

手法: レベル×法則の各組み合わせにおける手法・失敗モード・評価慣行を分析し、決定中心の評価原則と最小限の再現可能な評価パッケージを提案。受動的な次ステップ予測から、環境をシミュレートし最終的に再構成できる世界モデルへのロードマップを示した。

Hugging Face Daily Papers

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

著者: Qinan Yu, Alexa Tartaglini, Peter Hase et al.

RLVRによるChain-of-Thought推論訓練はLLMのポストトレーニングの標準となっているが、生成された推論連鎖が実際に回答を導いているかは不明確だった。本研究は推論の因果的重要性（CIR）と十分性（SR）の2つのメトリクスを開発し、この前提を批判的に検証した。

新規性: RLVRがタスク精度を改善する一方でCIRやSRを必ずしも改善しないことを実証し、推論連鎖がモデル性能に実際に寄与しているかに疑問を呈した。SFTの少量適用やCIR/SR補助報酬の追加という簡潔な修正で問題を緩和できることも示した。

手法: Qwen2.5モデル系列とReasoningGymタスクで実験。推論トークンの最終回答への累積効果（CIR）と、推論のみから検証者が明確な回答に到達できるか（SR）を測定。RLVR単独・SFT+RLVR・CIR/SR補助報酬付きRLVRを比較し、補助報酬がRLVRと同等の精度を維持しつつ因果的に重要で十分な推論を実現することを確認した。

arXiv

Large Language Models Decide Early and Explain Later

著者: Ayan Datta, Zhixue Zhao, Bhuvanesh Verma et al.

LLMは長い中間推論を生成して高い性能を達成するが、最終回答が生成のどの段階で実際に決定されるかは不明だった。本研究はforced answer completionにより推論途中の予測回答の変遷を調査し、CoT生成の大部分が冗長であることを実証した。

新規性: Qwen3-4Bで予測回答が変化するのは全クエリの32%のみであり、最終回答切り替え後に平均760トークンの追加推論が生成されることを発見。プローブベースの早期停止により、クエリあたり500トークン削減・精度低下2%以内を達成した。

手法: 部分的な推論プレフィックスでforced answer completionを適用し、中間予測の変遷を追跡。回答が安定した時点で生成を停止するヒューリスティクスを複数検討し、プローブベース停止が推論トークン使用量と精度のトレードオフで最も効果的であることを示した。

arXiv

LLM Safety From Within: Detecting Harmful Content with Internal Representations

著者: Difan Jiao, Yilun Liu, Ye Yuan et al.

ガードモデルはLLMの有害コンテンツ検出に広く使用されるが、最先端モデルは終端層の表現のみに依存し、内部層に分散する安全性関連の豊富な特徴を見落としている。本研究は内部層の表現を活用する軽量ガードモデルSIRENを提案した（21 upvotes）。

新規性: LLMの内部層全体に分散する安全性関連特徴を活用する初の軽量ガードモデル。終端層のみに依存する従来手法を上回る検出精度を、少ないパラメータで実現した。

手法: LLMの各内部層から安全性に関連する特徴を抽出し、軽量な分類器で統合することで有害コンテンツを検出。層ごとの安全性信号の分布を分析し、中間層に特に有用な特徴が集中していることを示した。

Hugging Face Daily Papers

Sessa: Selective State Space Attention

著者: Liubomyr Horbatko

Transformerの自己注意は任意の位置へのアクセスが可能だがコストが高く、SSMは効率的だが情報伝播が明示的な再帰状態に制限される。本研究は両者の制約を統合的に克服するSelective State Space Attention（Sessa）を提案した（4 upvotes）。

新規性: TransformerとSSMの機構を単一のアーキテクチャ内で選択的に組み合わせ、長文脈での効率的な情報伝播と任意位置へのアクセスを両立させる新しいシーケンスモデリング手法。

手法: 状態空間モデルの再帰的情報伝播に選択的注意機構を統合し、入力に応じて注意と再帰の比重を動的に調整する。長距離依存関係が必要な場合は注意機構を活用し、局所的な処理ではSSMの効率性を維持する設計とした。

Hugging Face Daily Papers

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

著者: Hector Borobia, Elies Segui-Mas, Guillermina Tormo-Carbo

ハイブリッド言語モデル（アテンション＋リカレント）ではLoRAを均一に適用するのが標準だが、各コンポーネントの機能的役割の違いは考慮されていなかった。本研究は2つのハイブリッドアーキテクチャで部品種別LoRA配置を体系的に分析した。

新規性: アテンション経路のみへのLoRA適用が、全モデル適応に比べ5-10倍少ないパラメータで同等以上の性能を達成することを発見。さらにリカレント層の適応が逐次型ハイブリッドでは破壊的（GSM8Kで-14.8pp）、並列型では建設的（+8.6pp）であるという非対称性を実証した。

手法: Qwen3.5-0.8B（逐次型、GatedDeltaNet＋softmax注意）とFalcon-H1-0.5B（並列型、Mamba-2 SSM＋注意）を3ドメインでファインチューニングし、5ベンチマークで評価。アテンション層のみ・リカレント層のみ・全体の3条件を比較し、トポロジーが適応応答を根本的に決定することを示した。

arXiv

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

著者: Kanzhi Cheng, Zehao Li, Zheng Ma et al.

VLMを活用したモバイルエージェントはAndroidWorldで約70%の成功率を達成しているが、最先端モデルは訓練データを非公開にしており再現性に課題がある。本研究はオープンなモバイルエージェント構築のためのタスク・軌跡合成データセットと訓練レシピを公開した（27 upvotes）。

新規性: モバイルエージェントの訓練データ合成パイプラインを完全にオープン化し、タスク記述の自動生成から操作軌跡の合成までを再現可能な形で提供。クローズドなフロンティアモデルに匹敵する性能をオープンモデルで実現した。

手法: タスク記述の自動合成・UIスクリーンショットからの軌跡データ生成・合成データによるVLMのファインチューニングを統合したパイプラインを構築。合成データの品質保証にはフィルタリングと検証ステップを導入し、実環境での評価で有効性を確認した。

Hugging Face Daily Papers

分野別の動向

LLM推論の信頼性・検証

本日最も示唆的だったのはCoT推論の信頼性に関する2つの論文の収束である。Outcome Rewards Do Not GuaranteeはRLVRで訓練された推論連鎖が回答に因果的影響を与えていない場合があることを定量的に示し、LLMs Decide Early and Explain Laterは推論トークンの大部分が回答決定後に生成される「事後説明」であることを発見した。両論文は独立にCoT推論の実質的な機能に疑問を投じており、推論プロセスの透明性と効率化の両面で今後の研究方向に影響を与える。arXivのShared Lexical Task Representations（cs.CL）もLLM内部のタスク表現機構を解明する研究で、プロンプト感度の原因をlexical task headsの活性化度で説明した。

エージェント・世界モデル

Agentic World Modeling（151 upvotes）がエージェント向け世界モデルの包括的分類体系を提示し、分断されていた複数のコミュニティを接続した。同日のMemanto（4 upvotes）は型付き意味メモリによるエージェントの長期記憶を、AgentSearchBench（9 upvotes）はエージェント検索のベンチマークを提案しており、エージェント基盤インフラの整備が多方面で進んでいる。arXivのOneManCompany（cs.AI）はマルチエージェントシステムを組織論的に捉え直す新しいフレームワークを提案し、PRDBenchで既存SOTAを15.48ポイント上回った。

アーキテクチャ・効率化

Sessa（4 upvotes）がTransformerとSSMを選択的に統合する新アーキテクチャを、Where Should LoRA Goがハイブリッドモデルにおけるアダプタ配置の最適化を提示した。arXivのLayerBoost（cs.LG）はレイヤー感度に基づいてアテンション機構を選択的に軽量化し、推論スループットを最大68%向上させた。Universal Transformers Need Memory（cs.LG）はメモリトークンがユニバーサルTransformerの組合せ推論に不可欠であることを示し、ACT初期化の落とし穴を特定した。これらはいずれも、モデルアーキテクチャの均一な設計から部品ごとの機能特化へという方向性を共有している。

安全性・アライメント

SIREN（21 upvotes）がLLM内部層の安全性特徴を活用する軽量ガードモデルを提案した。Emergent Strategic Reasoning Risks（HF掲載）はLLMの戦略的推論リスク（欺瞞・評価ゲーミング・報酬ハッキング）の分類体系ESRRSimを導入し、11モデルで14.45%-72.72%の大きなリスクプロファイル差異を発見した。arXivのRemoving Sandbagging in LLMs（cs.LG）はSFT+RLの組み合わせがサンドバッギング行動を解消できることを示し、Estimating Tail Risks（cs.LG）は重要度サンプリングによるLLM出力の稀な有害事象確率の効率的推定法を提案した。安全性研究が表面的な出力フィルタリングからモデル内部の理解・制御へと深化している。

注目論文

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Large Language Models Decide Early and Explain Later

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Sessa: Selective State Space Attention

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

分野別の動向

LLM推論の信頼性・検証

エージェント・世界モデル

アーキテクチャ・効率化

安全性・アライメント

ソース