推論SFTの汎化が条件付きであることを大規模実験で示した研究が304件の支持を集め注目を集めた。マルチユーザーLLMエージェント、分散ポストトレーニングへのバックドア攻撃、シーケンスレベルPPOなど、LLMの訓練・推論・安全性にわたる多面的な進展が見られた。
注目論文
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
著者: Qihan Ren, Peng Wang, Ruikun Cai et al.
LLMのポストトレーニングにおいて「SFTは記憶するだけ、RLこそが汎化する」という通説を再検証し、長いChain-of-Thought監督による推論SFTではドメイン間汎化が条件付きで成立することを大規模実験で示した研究。汎化の成否は最適化手法・データ品質・モデルの基礎能力の3要因に依存する。
新規性: SFT vs RLの二項対立的な議論に対し、推論SFTの汎化が「不在」ではなく「条件付き」であるという重要な修正を提示。最適化・データ・モデル能力という3つの軸で汎化条件を体系的に分析した点が画期的。
手法: 長いCoT監督データを用いた推論SFTを多様な条件下で実施し、ドメイン間汎化の成否を決定する要因を特定。データの多様性、最適化スケジュール、ベースモデルの能力がそれぞれ汎化に与える影響を定量的に評価した。
EXAONE 4.5 Technical Report
著者: Eunbi Choi, Kibong Choi, Sehyun Chun et al.
LG AI Researchが公開した初のオープンウェイトVision Language Model。既存のEXAONE 4.0フレームワークに専用のビジュアルエンコーダを統合し、視覚とテキストの両モダリティでのネイティブなマルチモーダル事前学習を実現。256Kトークンまでのコンテキスト長に対応する。
新規性: ドキュメント理解に重点を置いたデータキュレーション戦略により、同規模モデルの中でドキュメント理解と韓国語文脈推論で最先端性能を達成。産業応用を見据えた実用的な設計思想が特徴。
手法: 専用ビジュアルエンコーダをEXAONE 4.0に統合し、大規模データでマルチモーダル事前学習を実施。特にドキュメント中心のコーパスを重視したデータ設計により、文書理解タスクで大幅な性能向上を実現。
Structured Distillation of Web Agent Capabilities Enables Generalization
著者: Xing Han Lu, Siva Reddy
フロンティアLLMは複雑なWebサイトをナビゲートできるが、コストとサードパーティAPI依存がローカルデプロイを困難にしている。Agent-as-Annotatorsフレームワークを導入し、人間のアノテーション役割に類似した構造で合成軌跡生成を体系化することで、Webエージェント能力の蒸留と汎化を実現した。
新規性: 合成データ生成をタスク設計者・実行者・検証者という役割分担で構造化するアプローチにより、単純な模倣学習を超えた汎化可能なWebエージェント能力の転写を達成。
手法: フロンティアモデルをアノテーター役として活用し、構造化された軌跡データを生成。この合成データで小型モデルを蒸留することで、未知のWebサイトへの汎化能力を持つ効率的なエージェントを構築。
Small Vision-Language Models are Smart Compressors for Long Video Understanding
著者: Junjie Fei, Jun Chen, Zechun Liu et al.
マルチモーダルLLMを長時間動画に適用する際のコンテキスト制限問題に対し、小型VLMを賢い圧縮器として活用するアプローチを提案。密な視覚ストリームがトークン予算を飽和させ「lost-in-the-middle」現象を悪化させる問題を解決する。
新規性: スパースサンプリングや均一プーリングなどの既存ヒューリスティクスが盲目的に情報を犠牲にするのに対し、小型VLMが内容に基づいた知的な圧縮判断を行える点を示した。
手法: 小型VLMを長時間動画の各セグメントに適用して重要度に基づく圧縮を行い、大型MLLMのコンテキストウィンドウ内に収まる表現を生成。情報量を保持しつつトークン数を大幅に削減。
Multi-User Large Language Model Agents
著者: Shu Yang, Shenzhe Zhu, Hao Zhu et al.
LLMエージェントの多くは単一ユーザーの指示を唯一の権威として扱う設計だが、チームワークフローへの統合が進む中、複数ユーザーの競合する目的・プライバシー制約を同時に扱う必要がある。マルチユーザーLLMエージェントの初の体系的研究。
新規性: マルチユーザー相互作用をマルチプリンシパル意思決定問題として形式化し、指示追従・プライバシー保護・協調の3つのストレステストシナリオを設計。フロンティアモデルでも体系的な欠陥があることを実証。
手法: 統一的なマルチユーザー相互作用プロトコルを設計し、競合する目標下での優先順位維持、多ターン対話でのプライバシー違反、反復的情報収集での効率性ボトルネックを定量的に評価。
Backdoor Attacks on Decentralised Post-Training
著者: Oguzhan Ersoy, Nikolay Blagoev, Jona te Lintelo et al.
分散型LLMポストトレーニングはデータ並列とパイプライン並列を活用するが、悪意ある参加者によるポイズニングやバックドア攻撃に脆弱である。分散型ポストトレーニング環境における攻撃手法と脆弱性を体系的に実証した研究。
新規性: 分散型学習環境特有の攻撃面に焦点を当て、データ並列・パイプライン並列の両方でバックドア挿入が可能であることを示した。集中型学習では想定されない新たな脅威モデルを提示。
手法: 1人以上の悪意ある参加者がポストトレーニングプロセスに介入するシナリオを設計し、バックドアの挿入成功率と検知困難性を評価。複数の攻撃戦略の有効性を比較分析。
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
著者: Tianyi Wang, Yixia Li, Long Li et al.
標準的なトークンレベルPPOは長いCoT推論での時間的クレジット割り当ての不安定さとバリューモデルのメモリコストに悩まされる。SPPOは推論プロセスをシーケンスレベルの文脈的バンディット問題として再定式化し、PPOのサンプル効率とアウトカムベース更新の安定性を両立する。
新規性: GRPOのようなクリティックフリー手法がベースライン推定のために複数サンプルを必要とする問題を、分離されたスカラー値関数による低分散アドバンテージ信号で解決。マルチサンプリングなしで効率的なシーケンスレベル最適化を実現。
手法: 推論プロセス全体を1つのアクションとみなすシーケンスレベルのバンディット定式化を採用し、軽量な値関数でアドバンテージを推定。数学ベンチマークで標準PPOを大幅に上回り、計算コストの高いグループベース手法と同等の性能を達成。
AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents
著者: Zhaopeng Feng, Liangcai Su, Zhen Zhang et al.
LLMが自律エージェントとして長期的な情報探索タスクを遂行する際、有限のコンテキスト容量の管理が重大なボトルネックとなる。既存手法は軌跡全体を通じて単一の固定戦略を適用するが、AgentSwingはタスクの進行に応じて動的にコンテキスト管理戦略を切り替える。
新規性: 静的なコンテキスト管理を脱却し、タスクフェーズに応じた適応的な並列コンテキスト管理ルーティングを導入。長期的なWebエージェントタスクでの情報保持と効率のトレードオフを動的に最適化。
手法: 複数のコンテキスト管理戦略を並列に維持し、タスクの状態に応じてルーティング機構が最適な戦略を選択。コンテキストウィンドウの制約下でも重要な情報を失わずに長期タスクを遂行。
Process Reward Agents for Steering Knowledge-Intensive Reasoning
著者: Jiwoong Sohn, Tomasz Sternal, Kenneth Styppa et al.
知識集約型ドメインでの推論は、中間ステップがローカルに検証不可能であるため困難が伴う。数学やコードと異なり、ステップの正しさの評価には大規模な外部知識ソースからの手がかりの統合が必要となる。プロセス報酬エージェントによるステップ単位の推論誘導を提案。
新規性: 数学・コード向けに設計された既存のプロセス報酬モデルを知識集約型ドメインに拡張。外部知識の参照を組み込んだプロセス報酬により、微妙なエラーの伝播を推論過程の途中で検出・修正。
手法: 各推論ステップで外部知識ソースからの手がかりを統合してステップの正しさを評価するプロセス報酬エージェントを構築。推論軌跡全体をステアリングすることで、知識集約型タスクでの推論品質を向上。
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
著者: Hadas Orgad, Boyi Wei, Kaden Zheng et al.
LLMのアライメント訓練による安全ガードは脆弱であり、ジェイルブレイクや狭いドメインのファインチューニングで広範に「創発的ミスアライメント」が生じる。この脆弱性が根本的な構造的特性に起因するかを調査し、有害コンテンツ生成に統一的なメカニズムが存在することを示した。
新規性: 異なる種類の有害コンテンツ生成が、共通の内部メカニズムを通じて行われていることを実証。アライメントの脆弱性が個別の脆弱点ではなく、モデルの構造的特性であることを示唆する重要な知見。
手法: ジェイルブレイクや創発的ミスアライメントなど異なる文脈での有害コンテンツ生成を分析し、共通する内部表現パターンとメカニズムを特定。安全性ガードの根本的な限界を明らかにした。
分野別の動向
LLM訓練・最適化
本日最大の注目を集めたのは推論SFTの汎化条件に関する研究(304件)で、「SFTは記憶、RLは汎化」という単純な二分法を修正し、汎化の条件を体系的に明らかにした。SPPOはシーケンスレベルのPPOで長いCoT推論のRL学習を効率化し、GRPOの計算コスト問題を解決するアプローチとして注目される。arXivではStaRPO(推論安定性を報酬に組み込むRL)やDRTO(分布ロバストなトークン最適化)など、推論LLMの強化学習手法の多様化が顕著であった。
エージェント
マルチユーザーLLMエージェントの体系的研究は、エージェントが実際のチーム環境に組み込まれる際の根本的課題を提起した。AgentSwingは長期Webタスクのコンテキスト管理、Agent-as-Annotatorsはエージェント能力の蒸留と汎化に取り組んでおり、エージェントの実用化に向けた多角的な研究が進んでいる。arXivからはHiL-Bench(エージェントがいつ人間に助けを求めるべきかの評価)やSEA-Eval(自己進化エージェントの評価)など、エージェント評価ベンチマークの整備も活発であった。
安全性・アライメント
有害コンテンツ生成の統一メカニズムの発見と分散ポストトレーニングへのバックドア攻撃研究が並行して発表され、LLMの安全性に対する多面的な脅威が浮き彫りになった。arXivでは拡散型言語モデルの安全性の構造的脆弱性を示すRe-Mask and Redirectも発表されており、異なるアーキテクチャに共通する安全性の根本課題が研究テーマとして定着しつつある。
マルチモーダル・VLM
EXAONE 4.5はオープンウェイトVLMとしてドキュメント理解に特化した設計で産業応用を志向。小型VLMを長時間動画の圧縮器として活用する研究は、コンテキスト制限の実用的な解決策を提示した。arXivからはVisionFoundry(合成画像でVLMの視覚知覚を教育)やStructural Graph Probing(VLMの内部構造分析)など、VLMの能力向上と理解の両面で研究が進展している。