CollabVRが映像生成モデルとVLMの協調による推論で46 upvotes、TMASがマルチエージェント協調テスト時スケーリングで43 upvotes。Key-Value MeansがO(N)チャンク型RNN注意を提案し、Memory-Efficient Looped Transformerと共にアーキテクチャ効率化の新潮流を形成した。
注目論文
CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models
著者: Joowon Kim, Seungho Shin, Joonhyung Park et al.
最近の「Thinking with Video」アプローチはビデオ生成モデル(VGM)による時間的に整合したChain-of-Framesを推論アーティファクトとして活用するが、長期ドリフトや物理法則違反という2つの典型的失敗モードを抱える。本研究はVLMとVGMを協調させ、これらの失敗を相互補完的に解決する映像推論フレームワークを提案した(46 upvotes)。
新規性: VGMの生成能力とVLMの理解能力を対等な協調パートナーとして統合した点が独自である。従来はVGMを単独で推論に使用していたが、VLMによる検証・修正ループを導入することで、マルチステップタスクでの長期ドリフトと物理整合性の両方を改善している。
手法: VGMがChain-of-Framesとして映像推論を生成し、VLMがその出力を評価・修正する協調ループを構築する。VGMの生成した映像がゴール指向タスクの物理的制約に違反した場合、VLMが検出して修正指示を与え、VGMが再生成する。
TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
著者: George Wu, Nan Jing, Qing Yi et al.
テスト時スケーリングは推論時の追加計算によりLLMの推論能力を向上させる有効なパラダイムだが、複数の軌道・改良ルート・集約方式の構造的な組織化が不十分であった。本研究はマルチエージェント協調により推論を構造化し、テスト時計算のスケーリング効率を大幅に改善した(43 upvotes)。
新規性: テスト時スケーリングをマルチエージェントの協調問題として再定式化した点が画期的である。個別の推論軌道を独立に生成・選択する従来手法と異なり、エージェント間の相乗効果により推論品質のスケーリング曲線を改善している。
手法: 複数の推論軌道を構造化されたマルチエージェントフレームワーク内で組織化し、改良ルートと集約方式を体系的に管理する。エージェント間の情報共有と役割分担により、計算量あたりの推論性能向上を最大化する。
SEIF: Self-Evolving Reinforcement Learning for Instruction Following
著者: Qingyu Ren, Qianyu He, Jiajie Zhu et al.
Instruction Followingは LLMの基本能力だが、継続的な改善は困難である。既存手法は人間や強力な教師モデルからの高コストな外部監督、あるいは静的難易度での自己対戦学習に依存していた。本研究は学習課題の難易度を自律的に進化させる自己進化型強化学習を提案した(25 upvotes)。
新規性: Instruction Followingの学習課題自体を動的に進化させるという自己改善メカニズムが独自である。静的なデータセットや外部監督への依存を排除し、モデルの現在の能力に応じて適応的に挑戦的な課題を生成・活用する。
手法: モデルの現在の能力を評価し、それに基づいて適切な難易度の指示追従課題を自動生成する。生成された課題で強化学習を行い、能力向上に伴い課題難易度も上昇するカリキュラム的な学習ループを形成する。
Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models
著者: Victor Conchello Vendrell, Arnau Padres Masdemont, Niccolò Grillo et al.
Ouroなどのループ型LLMアーキテクチャは中間トークンを生成せずに埋め込み空間で反復的に内部表現を更新することで推論を行うが、反復ごとにメモリ使用量が増大する問題を抱えていた。本研究は計算量とメモリ使用量を分離し、標準的なメモリ量で反復推論を実現する手法を提案した(20 upvotes)。
新規性: ループ型Transformerにおける「計算を増やすとメモリも増える」という暗黙の結合を明示的に分離した点が重要である。推論の深さ(ループ回数)を増やしてもメモリ使用量が一定に保たれるため、計算リソースのみでスケーリングが可能になる。
手法: ループ処理における内部表現の更新を、メモリ効率的な方式で再設計する。反復計算の各ステップで必要な状態のみを保持し、過去の反復状態を効率的に圧縮・再利用することで、標準的なTransformerと同等のメモリフットプリントを維持する。
Key-Value Means
著者: Daniel Goldstein, Eugene Cheah
固定サイズまたは成長可能な状態を持つ新しいブロック再帰型注意機構「Key-Value Means(KVM)」を提案。既存の強力なTransformerベースラインにKVM注意層を追加することで、わずかなパラメータ増加のみでO(N)のチャンク型RNNを構築できることを示した(15 upvotes)。
新規性: 固定サイズ状態と成長可能状態の両方に対応する柔軟なブロック再帰機構を設計した点が特徴的である。既存Transformerへの最小限の変更で線形計算量の推論を実現し、長コンテキスト処理の実用的な効率化手段を提供している。
手法: アテンションのキーとバリューの統計量(平均)をブロック単位で蓄積・更新する再帰構造を導入する。各ブロックの処理時に過去ブロックの集約情報を固定サイズの状態として保持し、標準的なアテンションと組み合わせることでO(N)の計算量を達成する。
Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning
著者: Junhao Shen, Teng Zhang, Xiaoyan Zhao et al.
LLMエージェントは外部スキルに依存して複雑なタスクを解決するが、既存手法はスキルを永続的なガイダンスまたは内在化された知識として蓄積する前提に立っている。本研究はスキルの動的な獲得・活用・忘却を管理するライフサイクルアプローチを提案した(12 upvotes)。
新規性: スキルを静的資源ではなく動的なライフサイクルを持つものとして扱う点が独自である。スキルの陳腐化や干渉の問題を、永続的蓄積ではなく適応的な管理により解決するアプローチを示している。
手法: スキルの有用性を継続的に評価し、タスク要件の変化に応じてスキルの獲得・更新・廃棄を動的に制御する強化学習フレームワークを構築する。スキル間の干渉を検出・回避するメカニズムにより、スキルライブラリの品質を維持する。
LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?
著者: Kechen Fang, Yihua Qin, Chongyi Wang et al.
マルチモーダルLLM(MLLM)における視覚エンコーディングは、特に高解像度画像入力時の主要な計算ボトルネックである。従来のグローバルエンコーディング後のViT後圧縮というアプローチの非効率性を体系的に分析し、局所エンコーディングによる解決策を提案した(11 upvotes)。
新規性: 「何が効率的な視覚エンコーディングを構成するか」という根本的な問いに対して体系的な分析を行った点が貢献である。グローバルエンコーディングが生成する大量のトークン列と、後段の圧縮による情報損失というトレードオフを定量的に評価し、局所エンコーディングの優位性を実証している。
手法: 画像を局所的にエンコードし、各領域から効率的にトークンを生成する方式を採用する。グローバルエンコーディングによる冗長なトークン生成を回避しつつ、高解像度入力の詳細情報を保持する。
Prompt-Activation Duality: Improving Activation Steering via Attention-Level Interventions
著者: Diancheng Kang, Zheyuan Liu, Ningshan Ma et al.
活性化ステアリングは推論時にモデルの振る舞いを制御する手法だが、対話的設定では失敗することがある。本研究はその原因としてKVキャッシュ汚染を特定し、注意レベルでの介入による解決策を提案した(7 upvotes)。
新規性: 活性化ステアリングの失敗モードとしてKVキャッシュ汚染を初めて特定・定式化した点が重要である。ステアリングされたトークン状態がKVキャッシュに保存され、後続トークンで繰り返し再利用されることで意図しない効果が蓄積する現象を明らかにしている。
手法: 残差ストリームへの標準的なステアリングに代えて、アテンション層のキー・バリューに直接介入する。KVキャッシュの汚染を防止しつつステアリング効果を維持することで、マルチターン対話でのステアリングの信頼性を向上させる。
SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training
著者: Shengkun Tang, Zekun Wang, Bo Zheng et al.
構造化枝刈りと知識蒸留はLLM圧縮の標準的手法だが、事前学習段階での適用、特にMixture-of-Experts(MoE)モデルに対する適用は未解明であった。本研究はQwen系列のMoEモデルを対象に、大規模事前学習段階での圧縮手法を体系的に研究した(7 upvotes)。
新規性: MoEモデルの事前学習段階における圧縮を体系的に調査した初めての大規模研究である。ファインチューニング段階ではなく事前学習段階での圧縮がもたらす影響を定量的に評価し、MoE特有の課題(エキスパート選択への影響等)に対するベストプラクティスを確立している。
手法: Qwen系列のMoEモデルに対して、事前学習段階で構造化枝刈りと知識蒸留を組み合わせて適用する。エキスパートの枝刈り戦略と蒸留目標の設計を体系的に比較し、圧縮率と性能のトレードオフを分析する。
A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models
著者: Hamid Kazemi, Atoosa Chegini, Maria Safi
安全性アラインメントは「拒否ニューロン」と「概念ニューロン」という機構的に異なる2つのシステムで構成されていることを示し、各システムの単一ニューロンを操作するだけで、訓練やプロンプト工学なしに安全性を迂回または有害コンテンツを誘発できることを実証した(4 upvotes)。
新規性: 安全性アラインメントがモデル重み全体に頑健に分散しているのではなく、個別のニューロンに依存しているという脆弱性を実証した点が衝撃的である。7モデル・2ファミリー・1.7Bから70Bまでの幅広いスケールで一貫した結果を示している。
手法: 拒否ニューロン(有害知識の表出をゲートする)の抑制による安全性迂回と、概念ニューロン(有害知識をエンコードする)の増幅による有害コンテンツ誘発の両方向を実証する。いずれも単一ニューロンの操作のみで達成される。
分野別の動向
テスト時スケーリングとエージェント推論
本日の最も顕著なトレンドとして、テスト時計算のスケーリングとエージェントの推論効率化が複数の高注目論文で取り上げられた。TMAS(43 upvotes)がマルチエージェント協調によるテスト時計算の構造化を提案し、前日のLLMs Improving LLMsのメタレベル戦略自動化と合わせ、テスト時スケーリングの研究が「いかに計算を増やすか」から「いかに構造的に計算を活用するか」へと進化している。Dynamic Skill Lifecycle Management(12 upvotes)はエージェントのスキル管理を静的蓄積から動的ライフサイクルへと転換しており、前日のSkill1やSkillOSからの流れがさらに成熟している。
効率的アーキテクチャ設計
Key-Value Means(15 upvotes)とMemory-Efficient Looped Transformer(20 upvotes)が、それぞれ異なるアプローチからTransformerの計算・メモリ効率を改善した。KVMはO(N)の線形計算量注意機構、Looped Transformerは計算とメモリの分離という原理的な貢献を行っている。前日のFast Byte Latent Transformerと合わせ、標準Transformerの計算ボトルネックに対する多様な解決策が並行して進展している。LLaVA-UHD v4(11 upvotes)は視覚エンコーディングの効率化を体系的に分析し、マルチモーダルLLM特有のボトルネックに対処している。
LLMの安全性・制御性
A Single Neuron(4 upvotes)とPrompt-Activation Duality(7 upvotes)が、それぞれ安全性アラインメントの脆弱性と活性化ステアリングの失敗モードを明らかにした。特にA Single Neuronの知見は、現行の安全性アラインメント手法が個別ニューロンに過度に依存しているという構造的問題を提起しており、より頑健なアラインメント設計の必要性を示唆している。KVキャッシュ汚染という新しい失敗モードの特定も、対話型AIシステムの信頼性に直結する重要な発見である。
モデル圧縮・適応
SlimQwen(7 upvotes)がMoEモデルの事前学習段階における圧縮を体系的に調査した。前日のMatryoshkaLoRAがファインチューニングの柔軟性を向上させたのに対し、本日は事前学習段階での圧縮という上流工程に焦点が当たっている。MoEアーキテクチャの普及に伴い、そのデプロイコスト削減が実務的に重要な課題となっていることを反映している。