Skill1がスキルの選択・活用・蒸留を統合的にRL最適化し53 upvotesを獲得。Beyond Semantic Similarityはtop-k検索を超えるコーパス直接対話型検索を提案し、Continuous Latent Diffusion LMは自己回帰に依存しない連続潜在拡散による高品質テキスト生成を実現。エージェントのスキル学習・検索・生成の三方向で新パラダイムが提示された。
注目論文
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
著者: Yaorui Shi, Yuxin Chen, Zhengxi Lu et al.
永続的なスキルライブラリにより言語モデルエージェントがタスク間で成功戦略を再利用できるが、スキルの選択・活用・蒸留という三つの能力を同時に最適化する手法は存在しなかった。本研究はこれらを統合的にRL最適化するSkill1を提案し、53 upvotesを獲得した。
新規性: スキルの選択・実行中の活用・経験からの蒸留という三つの結合能力を、単一のRLフレームワークで統合最適化する点が画期的である。既存手法がこれらを個別に最適化していたのに対し、能力間の相互依存を直接モデル化している。
手法: エージェントがタスク実行時にスキルライブラリから関連スキルを選択し、実行中にそれを活用し、新たな経験から汎用スキルを蒸留するという三段階を統一的なRL目的関数で最適化する。スキルライブラリの進化とエージェントの能力向上が相互に強化される学習ループを構築している。
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
著者: Zhuofeng Li, Haoxiang Zhang, Cong Wei et al.
現代の検索システムは語彙的・意味的を問わず、固定された類似度インターフェースを通じてコーパスにアクセスし、推論前に単一のtop-k検索ステップに圧縮する。エージェント型検索ではこの抽象化がボトルネックとなる。本研究はコーパスとの直接対話による柔軟な情報取得を提案した(45 upvotes)。
新規性: 固定的な類似度ベースのtop-k検索を超え、エージェントがコーパスと直接対話する検索パラダイムを提唱した点が重要である。正確な語彙制約やスパースな手がかりなど、意味的類似度では捉えられない情報ニーズに対応する。
手法: エージェントがコーパスに対して能動的に多様なアクセスパターン(構造的クエリ、条件付きフィルタリング等)を実行し、単一の類似度スコアに依存しない情報取得を行う。従来の検索パイプラインをエージェント型の反復的対話に置き換えることで、複雑な情報ニーズへの対応力を向上させている。
Continuous Latent Diffusion Language Model
著者: Hongcan Guo, Qinyu Zhao, Yian Zhao et al.
大規模言語モデルは自己回帰パラダイムで成功を収めてきたが、高品質なテキスト生成は固定的な左から右への順序に縛られる必要はない。本研究は連続潜在空間での拡散モデルによるテキスト生成を提案し、生成効率・スケーラブルな表現学習・効果的な生成を同時に達成した(41 upvotes)。
新規性: テキスト生成を連続潜在空間での拡散過程として定式化し、自己回帰に依存しない高品質生成を実現した。既存の非自己回帰手法が抱えていた生成効率・表現学習・生成品質のトレードオフを解消している。
手法: テキストを連続潜在空間にエンコードし、拡散モデルのノイズ除去プロセスを通じて潜在表現を生成する。スケーラブルな表現学習機構と組み合わせることで、左から右への生成順序に制約されない柔軟かつ高品質なテキスト生成を可能にしている。
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
著者: Junbo Cui, Bokai Xu, Chongyi Wang et al.
マルチモーダル大規模言語モデルの進歩により静的なオフラインデータ処理からリアルタイムストリーミング対話へと能力が拡大したが、人間レベルのマルチモーダル対話にはまだ遠い。本研究はモダリティカバレッジやレイテンシだけでなく、リアルタイム全二重対話の実現に取り組んだ(42 upvotes)。
新規性: 音声・視覚・テキストの同時入出力を処理するリアルタイム全二重対話を、コンパクトなモデルアーキテクチャで実現した点が重要である。ボトルネックがモダリティカバレッジから対話品質・同時性へと移行する中での具体的解決策を提示している。
手法: 音声・視覚・テキストの三モダリティを統合的に処理するオムニモーダルアーキテクチャを構築し、全二重通信(送受信同時)を可能にする。リアルタイム性を維持しながらマルチモーダル理解と生成の品質を両立させる設計を採用している。
MiA-Signature: Approximating Global Activation for Long-Context Understanding
著者: Yuqing Li, Jiangnan Li, Mo Yu et al.
認知科学では報告可能な意識的アクセスが分散記憶システム上のグローバル点火と関連するとされるが、そのような活性化は個人が直接アクセスできない。この知見に着想を得て、長文脈理解のためのグローバル活性化近似手法を提案した(37 upvotes)。
新規性: 認知科学のグローバル点火理論をLLMの長文脈理解に応用するという学際的アプローチが独自である。分散記憶上の大域的活性化パターンを近似することで、長文脈における情報統合能力を向上させている。
手法: 分散記憶システム上のグローバル活性化を近似するシグネチャを構築し、長文脈の理解に活用する。個々のコンテンツへの直接アクセスではなく、活性化パターンの集約を通じて文脈全体の意味を捉える設計となっている。
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation
著者: Ivan Bondarenko, Roman Derunets, Oleg Sedukhin et al.
SemEval-2026 Task 8のTask B(参照パッセージ付き生成)において、7つのLLMと2つのプロンプティングバリアントからなる異種アンサンブルをGPT-4o-miniジャッジで選択する手法を提案し、26チーム中1位を獲得した(35 upvotes)。
新規性: 異なるLLMの出力をジャッジモデルで動的に選択するアンサンブル戦略が、忠実なマルチターン応答生成タスクで最高性能を達成した。単一モデルの最適化ではなく、多様なモデルの相補性を活用する実践的なアプローチである。
手法: 7つのLLMに対して2種類のプロンプティングバリアントを適用し、各インスタンスに対してGPT-4o-miniがジャッジとして最良の候補を選択する。モデルの多様性とジャッジの品質評価能力を組み合わせることで、忠実性の高い応答生成を実現している。
SkillOS: Learning Skill Curation for Self-Evolving Agents
著者: Siru Ouyang, Jun Yan, Yanfei Chen et al.
LLMベースのエージェントはストリーミングタスクの処理に広く展開されているが、過去の対話から学習できない一回限りの問題解決器にとどまることが多い。経験から蒸留された再利用可能なスキルは自己進化の基盤となるが、高品質なスキルキュレーションが鍵となる(21 upvotes)。
新規性: スキルの蓄積だけでなくキュレーション(品質管理・整理・淘汰)を学習可能にした点が独自である。自己進化型エージェントにおいてスキルライブラリの質を動的に維持する機構を提供している。
手法: ストリーミングタスクからスキルを抽出し、品質評価・重複排除・更新を自動的に行うキュレーション学習フレームワークを構築する。高品質スキルの保持と低品質スキルの淘汰を通じて、エージェントの継続的な能力向上を実現している。
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
著者: Xiangyuan Xue, Yifan Zhou, Zidong Wang et al.
LLMはインタラクティブエージェントとして利用が拡大しているが、長期的意思決定の最適化は依然として困難である。現在の手法は純粋に反応的であり、長期軌跡における探索と貢献度割り当てを弱めている。本研究は戦略的軌跡抽象化STraTAを提案した(10 upvotes)。
新規性: 長期軌跡を戦略的に抽象化することで、反応的な行動選択から計画的な意思決定へとエージェントRLを転換する点が重要である。探索効率と貢献度割り当ての同時改善を実現している。
手法: 長期的な軌跡を戦略的な抽象表現に変換し、この抽象レベルでの探索と報酬割り当てを行う。個々のアクションではなく戦略パターンのレベルで学習信号を提供することで、長期的意思決定の最適化を効率化している。
分野別の動向
エージェントスキル学習
Skill1(53 upvotes)とSkillOS(21 upvotes)が同日に登場し、エージェントのスキル学習が集中的に研究されていることを示した。Skill1はスキルの選択・活用・蒸留を統合RLで最適化し、SkillOSはスキルキュレーション(品質管理・淘汰)の学習に焦点を当てた。前日のSCOUTやOpenSearch-VLに続き、エージェントの能力を「使い捨て」から「蓄積・再利用」へ転換する流れが加速している。StraTA(10 upvotes)も長期軌跡の戦略的抽象化でエージェントRLを改善しており、エージェント学習の階層化が進んでいる。
エージェント型検索・情報取得
Beyond Semantic Similarity(45 upvotes)がtop-k類似度検索からコーパス直接対話への転換を提唱した。前日のOpenSearch-VLやRethinking Reasoning-Intensive Retrievalに続く動きで、検索を「一回のクエリ」から「反復的対話」として再定義するパラダイムシフトが鮮明になっている。arXivからもAdaGATE(マルチホップRAGのトークン制約付きギャップ修復)やAgenticRAG(企業知識ベース向けエージェント型検索)が登場しており、RAGのエージェント化が多方面で進展している。
非自己回帰テキスト生成
Continuous Latent Diffusion Language Model(41 upvotes)が連続潜在空間での拡散によるテキスト生成を提案し、自己回帰パラダイムへの有力な代替を示した。生成効率・表現学習・生成品質の三要素を同時に達成する点で、これまでの非自己回帰手法の限界を超える可能性がある。Chainwash(拡散言語モデルの透かしに対するマルチステップ書き換え攻撃)も拡散言語モデルの実用化に伴うセキュリティ課題を提起しており、拡散ベース言語モデルの研究エコシステムが形成されつつある。
マルチモーダル対話・理解
MiniCPM-o 4.5(42 upvotes)がリアルタイム全二重オムニモーダル対話を実現し、Audio-Visual Intelligence(17 upvotes)が大規模基盤モデル時代の音声・視覚統合を体系的にサーベイした。マルチモーダルモデルの焦点がモダリティの追加から対話品質・同時性へと移行していることが明確である。
LLM内部メカニズム・解釈可能性
MiA-Signature(37 upvotes)が認知科学のグローバル点火理論を長文脈理解に応用した。arXivからはNegative Before Positive(LLMにおける感情価処理の深度依存的局在化)、SLAM(構造的言語活性化マーキングによる透かし)、FLAS(フローベース活性化ステアリング)など、LLM内部表現の操作・解釈に関する研究が多数登場しており、前日のSingle-Position Intervention Failsに続くメカニスティック研究の活発化が続いている。
LLM安全性・評価
XL-SafetyBench(多文化対応の安全性ベンチマーク)、TurnGate(マルチターン対話での隠れた悪意の検出)、Evaluation Awareness(評価認識が行動に与える限定的影響)など、安全性評価の多角化が進んでいる。特にXL-SafetyBenchはジェイルブレイク耐性と文化的感受性が結合していないことを示し、複合的な安全性評価の必要性を提起した。