LLM/NLP最新論文

Sema Codeがコーディングエージェントの推論能力をインフラとして分離・再構成し23 upvotesを獲得。TESSYによる教師-生徒協調SFTデータ合成、LangFlowの連続拡散言語モデル、DR³-EvalのDeep Research評価ベンチマークなど、エージェント基盤・学習手法・評価の3軸で進展が見られた。

注目度

注目論文

Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

著者: Huacan Wang, Jie Zhou, Ningyan Zhu et al.

AIコーディングエージェントはCLI・IDEプラグイン・Webアプリといった特定の配信形態に推論能力がロックされており、企業がこれらの能力を再利用しようとすると構造的な障壁に直面する。Sema Codeはこの問題に対し、エージェントの推論能力を配信形態から分離し、プログラマブルかつ組込可能なインフラとして再構成する(23 upvotes)。

新規性: コーディングエージェントを「製品」ではなく「インフラ」として再定義した点が核心。推論能力を配信形態から完全に分離することで、異なるアプリケーションやワークフローに同一の推論基盤を横断的に組み込める設計哲学を提示した。

手法: エージェントの推論コアを独立したインフラ層として抽出し、APIやSDKを通じて任意の配信形態に組み込める構造を設計。企業が自社のCI/CDパイプラインやIDE、社内ツールにコーディングエージェントの能力を統合できるようにする。

arXiv


Exploration and Exploitation Errors Are Measurable for Language Model Agents

著者: Jaden Park, Jungtaek Kim, Jongwon Jeong et al.

LMエージェントは複雑な意思決定タスクで問題空間の探索と獲得知識の活用の両方が求められるが、観測された行動から探索エラーと活用エラーを体系的に区別・定量化する方法は確立されていなかった。本研究は制御可能な環境とポリシー非依存の評価指標を設計し、この問題に取り組む(23 upvotes)。

新規性: エージェントの内部方策にアクセスせずに、行動からのみ探索と活用のエラーを分離・定量化するメトリクスを初めて設計。推論モデルが両軸で優位であること、最小限のハーネスエンジニアリングで両者が大幅改善可能であることを実証した。

手法: 部分観測可能な2Dグリッドマップと未知のタスクDAGからなる制御可能な環境を構築。マップ生成パラメータで探索・活用の難易度を独立に調整可能とし、フロンティアLMエージェントを評価。モデルごとに異なる失敗モードが現れることを確認した。

arXiv


DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

著者: Qianqian Xie, Qingheng Xiong, He Zhu et al.

Deep Researchエージェント(DRA)は計画・検索・マルチモーダル理解・レポート生成を伴う複雑な長期研究タスクを目指すが、動的なWeb環境と曖昧なタスク定義のために評価が困難だった。DR³-Evalは現実的かつ再現可能な評価フレームワークを提案する(21 upvotes)。

新規性: Deep Researchエージェントという新興カテゴリに対し、初の体系的評価ベンチマークを構築。動的Web環境に依存する従来評価の再現性問題を解決し、計画から最終レポート生成までの全パイプラインを定量的に計測可能とした。

手法: 静的に保存されたWeb環境スナップショットと、明確に定義された研究タスクのセットを組み合わせ、再現可能な評価基盤を構築。マルチモーダル理解やレポート品質を含む多面的な評価軸を設計している。

arXiv


How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

著者: Zixian Huang, Kaichen Yang, Xu Huang et al.

強力なモデルの合成データでSFTする広く使われた戦略が、Qwen3-8Bのような推論モデルでは推論能力を改善するどころか大幅に低下させる問題を発見。TESSY(Teacher-Student Cooperation Data Synthesis)はこの問題を教師-生徒協調方式で解決する(18 upvotes)。

新規性: 教師モデルの合成データが生徒モデルの分布とスタイル的に乖離することがSFT失敗の主因であると特定。教師と生徒を交互にトークン生成させることで、教師の推論能力と生徒のスタイル一貫性を同時に保つ合成データの生成法を考案した。

手法: スタイルトークンと非スタイルトークンを交互に教師・生徒モデルから生成するインターリーブ方式を採用。GPT-OSS-120Bを教師としてQwen3-8Bを微調整した場合、教師データ直接使用ではLiveCodeBench-Proで-3.25%低下するのに対し、TESSYでは+11.25%の改善を達成。

arXiv


ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack

著者: Yein Park, Jungwoo Park, Jaewoo Kang

安全性アライメント済みのLLMが、有害リクエストの時制を変えるだけで安全拒否を回避される脆弱性が報告されていた。ASGuardは活性化スケーリングによるガード機構でこの汎化ギャップを埋める(17 upvotes)。

新規性: 時制変換ジェイルブレイクが示す「拒否行動の脆さ」を、モデルの内部活性化パターンの観点から分析し、推論時に活性化をスケーリングすることで安全性を回復する軽量な防御手法を提案。追加学習不要で既存モデルに適用可能。

手法: LLMの特定レイヤーにおける安全性関連の活性化パターンを同定し、ジェイルブレイク入力に対してこれらの活性化をスケーリングすることで拒否行動を回復させる。言語的バリエーションに対するロバスト性を大幅に向上させた。

arXiv


LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

著者: Yuxin Chen, Chumeng Liang, Hangke Sui et al.

連続拡散は画像等で高忠実度・制御可能・少ステップ生成の基盤となっているが、言語モデリングでは離散手法に後れを取ってきた。LangFlowはスパースなデータ空間と表現力不足という2つのボトルネックを解消し、連続拡散言語モデルが離散モデルに匹敵する性能を達成する(14 upvotes)。

新規性: 連続拡散言語モデル(DLM)が離散カウンターパートに匹敵するという実証的成果を初めて達成。少ステップ生成や制御可能性など、連続拡散固有の利点を言語領域でも活用可能にする道を開いた。

手法: スパースな離散データ空間での連続拡散の課題を、フローマッチング手法の改良と表現学習の強化で解決。生成品質と制御可能性の両立を実現し、離散トークンベースの言語モデルと同等以上の性能を達成。

arXiv


分野別の動向

エージェント基盤・アーキテクチャ

Sema Codeがコーディングエージェントの推論能力をインフラとして分離する設計を提示し、SemaClaw(OpenClaw上のパーソナルAIエージェント、17 upvotes)やSkVM(スキルをコンパイルして効率的に実行、8 upvotes)と合わせて、エージェントの「製品からインフラへ」の流れが加速している。Dive into Claude Code(6 upvotes)はClaude Codeのアーキテクチャを公開TypeScriptコードから分析しOpenClawと比較した研究で、エージェントシステムの設計空間を体系化する動きも見られた。SuperLocalMemory V3.3はゼロLLMエージェントメモリシステムを提案し、クラウドLLM依存からの脱却を志向している。

エージェント評価

DR³-EvalがDeep Researchエージェントの現実的評価を整備したほか、Exploration and Exploitation ErrorsがLMエージェントの探索・活用能力を定量化。arXivからはGeoAgentBench(空間分析エージェント評価)、RiskWebWorld(Eコマースリスク管理GUI評価)、AI-Assisted Peer Review at AAAI-26(22,977論文へのAIレビュー大規模実地展開)が登場し、エージェント評価の対象領域が急速に拡大している。特にAAI-26のAIレビュー実験では、参加者がAIレビューを人間レビューより技術的正確性で上回ると評価した点が注目に値する。

推論モデルの学習・最適化

TESSYの教師-生徒協調SFTデータ合成が推論モデルのファインチューニングにおける根本的な課題を解決した。Self-Distillation Zero(7 upvotes)は二値報酬を密な監督に変換する自己修正蒸留を提案し、TRACER(6 upvotes)はLLM分類エンドポイントの生産ログから無料の学習データを得てコスト効率的ルーティングを実現。LongAct(4 upvotes)はモデルの内在的な活性化パターンを利用して長文脈RLを強化する手法を提案している。Model Capability Dominates(AIMO 3の教訓)は推論戦略の多様化よりモデル能力そのものが支配的であることを示し、推論スケーリングの限界に関する実践的知見を提供した。

LLM安全性・アライメント

ASGuardが活性化スケーリングによるジェイルブレイク防御を提案したほか、C2(1 upvote)はルーブリック拡張報酬モデルのスケーラブルな構築法を提示。Self-Sovereign Agentは経済的に自律維持するAIエージェントの可能性と課題を検討し、エージェントの自律性が安全性議論の新たな軸として浮上している。Calibrate-Then-Delegate(arXiv cs.LG)はLLM安全性モニタリングをモデルカスケードとして定式化し、コストと精度のバランスに確率的保証を与えた。

連続拡散・生成モデル

LangFlowが連続拡散言語モデルの性能を離散モデル水準に引き上げたことは、言語生成の基盤アーキテクチャ選択に影響を与えうる。LeapAlign(4 upvotes)はフローマッチングモデルの任意ステップでのポストトレーニングアライメントを実現し、HDR Video Generation(4 upvotes)は高ダイナミックレンジ映像の生成モデルに対数エンコーディングによるレイテント整合を適用。Re2Pix(6 upvotes)は意味表現を先に予測してからピクセルを生成する階層的動画予測を提案し、生成モデルの構造的分解が進んでいる。

モデル効率化・アーキテクチャ

Compressed-Sensing-Guided LLM推論最適化(arXiv cs.CL)がプロンプト圧縮とモデル削減を統合する動的実行フレームワークを提案。Attention to Mamba(arXiv cs.CL)はTransformerからMambaへの原理的な2段階蒸留レシピを確立し、Pythia-1Bで教師の性能を概ね維持した。Cross-Tokenizer LLM Distillation(4 upvotes)はバイトレベルインタフェースで異なるトークナイザ間の蒸留問題を解決し、KV Packet(4 upvotes)は文脈非依存のKVキャッシュで再計算なしの推論を実現した。Three-Phase Transformerは隠れベクトルをN個の循環チャネルに分割する構造的事前知識を提案している。

ソース