敵対的マルチエージェント協調による自律研究ハーネス、ディープサーチエージェントの限界突破、マルチモーダルRLの事前整合手法など、エージェント自律性とRL post-trainingの実践的課題に取り組む研究が集中。RLVRの検証誤差問題やMoE安全性といった基盤的課題の分析も充実。
注目論文
ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
著者: Ruofeng Yang, Yongcan Li, Shuai Li
LLMベースのエージェントシステムの性能はモデル重みだけでなくハーネス設計に大きく依存するが、自律研究のためのオープンソースハーネスは限られていた。本研究はARIS(Auto-Research-in-sleep)として、敵対的マルチエージェント協調による自律研究ハーネスのアーキテクチャ、保証機構、初期運用経験を報告した(68 upvotes)。
新規性: 複数エージェントが敵対的に協調することで研究プロセスの品質保証を内在化させた点が独自である。単一エージェントでは困難な自己検証・批判的評価をマルチエージェント構造で実現している。
手法: 敵対的マルチエージェント協調アーキテクチャを採用し、各エージェントが研究の異なる側面(提案・検証・批判)を担当する。保証機構により自律研究の信頼性を確保しつつ、人間の介入なしに研究サイクルを回す設計となっている。
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
著者: Yuwen Du, Rui Ye, Shuo Tang et al.
ディープサーチ能力はフロンティアLLMエージェントに不可欠な能力だが、その開発は産業界の巨大企業に独占されている。典型的な産業レシピはプレトレーニングからCPT、SFT、RLに至る極めてリソース集約的なパイプラインを要する。本研究はオープンソースでこの限界を押し広げる手法を提案した(38 upvotes)。
新規性: 高品質かつ高難度の探索軌跡を効率的に生成・フィルタリングする手法により、大規模な事前学習なしにディープサーチ能力を獲得できる点が重要である。産業界とオープンソースの能力格差を縮める具体的な方法論を提示している。
手法: 情報量が高く難度の高い軌跡を選択的に活用することで、検索エージェントの学習効率を最大化する。産業的な大規模パイプラインに依存せず、限られた計算リソースでフロンティア級のサーチ能力を実現する。
Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
著者: Sudong Wang, Weiquan Huang, Xiaomin Yu et al.
大規模マルチモーダルモデル(LMM)の標準的なpost-trainingレシピはSFT後にRLVRを適用するが、SFTはモデルの元の能力を保持せず分布ドリフトを引き起こす。本研究はブラックボックスオンポリシー蒸留による事前整合手法を提案した(35 upvotes)。
新規性: SFTが導入する分布ドリフトの問題をブラックボックス蒸留で回避し、モデルの元の能力を保持しつつRLの事前整合を実現する点が画期的である。SFT→RLパイプラインの根本的な限界に対する代替案を提示している。
手法: 教師モデルの内部構造にアクセスせず(ブラックボックス)、オンポリシーで蒸留を行うことで、モデルの分布を崩さずにRL学習の初期条件を整える。元のモデル能力と新たな推論能力の両立を実現する。
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
著者: Chengshuai Shi, Wenzhe Li, Xinran Liang et al.
Vision-Language Model(VLM)のインタラクティブな意思決定タスクへの拡張が有望な方向性だが、既存手法は大規模SFTや人間軌跡への依存、あるいは短いコンテキストでのRL適用に限られていた。本研究はRLにより100ターン超のゲーム意思決定にVLMを拡張した(13 upvotes)。
新規性: VLMをRL単独で100ターン以上の長期的意思決定に適応させた点が重要である。人間のデモンストレーションデータやSFTに依存せず、純粋なRL学習で長期戦略の獲得を実現している。
手法: 強化学習をビデオゲーム環境で適用し、VLMが視覚入力に基づく長期的な戦略的意思決定を学習する。SFTやプロンプトエンジニアリングに基づく既存手法を大幅に上回る性能を達成している。
HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness
著者: Jianing Wang, Linsen Guo, Zhengyu Chen et al.
エージェントハーネスはメモリ・スキル・ツール使用を調整するオーケストレーションフレームワークとして複雑な推論タスクで顕著な成功を収めているが、性能を真に駆動する根本メカニズムは複雑なシステム設計の背後に隠されている。本研究はその核心が「深い思考」であることを示した(11 upvotes)。
新規性: エージェントハーネスの性能向上の主因が外部ツールやメモリではなく「深い思考」自体であることを明らかにし、これを明示的なスキルとして活用する設計を提案した点が洞察に富む。
手法: 深い思考(Heavy Thinking)をエージェントの内部スキルとして定式化し、ハーネスの内部メカニズムとして組み込む。複雑なオーケストレーションを簡素化しつつ、推論性能を維持・向上させる。
Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR
著者: Kazuki Egashira, Mark Vero, Jasper Dekoninck et al.
RLVRは検証可能な正解を持つタスクで設計されるが、現実の検証器はエラーを含む。先行研究はこうしたエラーをランダムで独立と仮定し「学習を遅らせるだけ」と結論付けてきた。本研究は系統的検証エラーの影響を調査し、この仮定が危険であることを示した。
新規性: 系統的な偽陽性が全体エラー率からは予測不能な形でRLVRの崩壊を引き起こすことを実証し、検証器品質の評価がサンプルレベルのエラー率を超えて理解される必要があることを示した。
手法: 算術タスクで制御実験を行い、系統的偽陰性と偽陽性の影響を分離して分析。偽陽性が特定のパターンで導入された場合に準最適プラトーから性能崩壊まで多様な帰結を生むことを確認した。
Understanding Emergent Misalignment via Feature Superposition Geometry
著者: Gouki Minegishi, Hiroki Furuta, Takeshi Kojima et al.
狭い非有害タスクでのファインチューニングが有害な振る舞いを誘発する「創発的ミスアラインメント」はAI安全性の重要課題だが、そのメカニズムは不明であった。本研究は特徴量の重畳幾何学に基づく説明を提案した。
新規性: スパースオートエンコーダを用いてミスアラインメント誘発データの特徴量が有害特徴量と幾何学的に近接していることを実証し、この知見に基づくフィルタリングで34.5%のミスアラインメント低減を達成した。
手法: 特徴量が重なり合う表現空間では、標的特徴量の増幅が類似度に応じて近傍の有害特徴量も意図せず強化するという幾何学的メカニズムを提案。Gemma-2、LLaMA-3.1、GPT-OSS等で検証した。
Iterative Finetuning is Mostly Idempotent
著者: Zephaniah Roe, Jack Sanderson, Dang Nguyen et al.
モデルが何らかの行動傾向を持ち自身の出力で訓練された場合、その傾向は次世代モデルで増幅されるのか。本研究はSFT・SDF・DPOの各設定で反復ファインチューニングの効果を系統的に調査した。
新規性: SFTとSDFでは特性が減衰または一定に留まり反復が無効化される(冪等性)ことを示し、DPOでのみ継続的post-trainingで増幅が発生することを確認した。反復学習による「AIの暴走」に対する冷静な評価を提供している。
手法: 初期モデルにペルソナや信念を与え、各世代が前世代の生成データでファインチューニングされるシリーズを構築。SFT・SDF・DPOの三設定で特性の増幅・減衰・コヒーレンスとのトレードオフを分析した。
How Language Models Process Negation
著者: Zhejian Zhou, Tianyi Zhou, Robin Jia et al.
LLMが否定をどのように内部的に処理するかは未解明であった。本研究はMistral-7BとLlama-3.1-8Bの内部メカニズムを因果的・観察的解釈可能性手法で分析し、二つの否定処理メカニズムの共存を発見した。
新規性: モデルが否定句を「関連概念の抑制」と「否定句全体の構成的表現構築」の二つのメカニズムで処理し、後者が支配的であることを初めて実証した。否定に関する誤答の原因が後段の注意ヘッドのショートカットにあることも特定している。
手法: 因果的抽象化と特徴幾何学を組み合わせた解釈可能性分析を適用。否定処理に関与する内部コンポーネントを特定し、そのアブレーションにより否定関連質問の精度が大幅に向上することを確認した。
When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
著者: Jiaqi Wei, Xuehang Guo, Pengfei Yu et al.
単一ストリーム自己回帰インターフェースでは同じトークンがモデル状態の更新と不可逆的な公開コミットメントの両方を担うため、追加的熟考がタスク関連コンテンツの遅延を招く「沈黙税」が生じる。本研究はSide-by-Side(SxS)Interleaved Reasoningを提案した。
新規性: 推論の開示タイミングを標準的な自己回帰生成内での制御可能な決定として定式化し、精度とコンテンツレイテンシのパレート改善を実現した点が実用的に重要である。
手法: 部分的開示と継続的な内部推論を同一コンテキスト内でインターリーブし、推論によって裏付けられた内容のみを公開する。含意整合軌跡によるSFTとRLの二段階訓練でデュアルアクションセマンティクスを獲得する。
分野別の動向
RL post-training・学習安定性
Beyond SFT-to-RL(35 upvotes)がSFTの分布ドリフト問題に対するブラックボックス蒸留による代替を提示し、Delay, Plateau, or Collapseが系統的検証エラーのRLVRへの深刻な影響を実証した。Iterative Finetuning is Mostly Idempotentは反復学習による特性増幅が限定的であることを示し、RL post-trainingの安定性と信頼性に関する理解が多角的に深まっている。How Fast Should a Model Commit to Supervision?(Tsallis損失連続体)も初期成功確率が低い場合のRLVR停滞問題に取り組んでおり、RLVR学習ダイナミクスの課題が集中的に研究されている。
エージェント・自律システム
ARIS(68 upvotes)とOpenSeeker-v2(38 upvotes)がそれぞれ自律研究とディープサーチの方向でエージェント能力を拡張した。HeavySkillはエージェントハーネスの性能の本質が「深い思考」にあることを明かし、Odysseus(13 upvotes)はVLMの100ターン超の長期意思決定への拡張を実証した。Generate, Filter, Control, Replay(サーベイ)はLLM RLのロールアウト戦略を体系化しており、エージェント研究が個別手法から体系的理解へと成熟しつつある。
LLM内部メカニズム・解釈可能性
How Language Models Process Negationが否定処理の二重メカニズムを解明し、Understanding Emergent Misalignmentが特徴量重畳の幾何学的構造からミスアラインメントを説明した。Arithmetic in the WildはLlamaが周期的概念の推論にbase-10加算を再利用することを発見している。モデル内部の計算メカニズムの理解が、単なる観察から因果的説明へと進化している。
安全性・アライメント
When Safety Geometry Collapseがガードモデルのファインチューニング脆弱性を暴露し、RouteHijackがMoEアーキテクチャのルーティング機構を標的とした新たな攻撃ベクトルを提示した。Position: Safety and Fairness in Agentic AIはマルチエージェントシステムの安全性がインタラクショントポロジーに依存するという重要な視点を提起している。個別モデルの安全性からシステムレベルの安全性へと視野が拡大している。
推論効率化・開示制御
When to Think, When to Speakが推論と開示のタイミング制御を提案し、精度とレイテンシのトレードオフを改善した。Sparse Memory Finetuningはカタストロフィック忘却を回避する軽量適応手法を提示している。eOptShrinkQはKVキャッシュのスペクトル分解による高効率圧縮を実現しており、推論時の効率化が多層的に追求されている。