DR^3-Evalが30 upvotesでDeep Researchエージェントの再現可能な評価フレームワークを提案。Memory Transfer Learningがコーディングエージェントのドメイン間メモリ転移を解明し、推論モデルのファインチューニング手法やエージェントインフラの分離設計など、エージェント研究が多角的に進展した。
注目論文
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
著者: Qianqian Xie, Qingheng Xiong, He Zhu et al.
Deep Researchエージェント(DRA)は計画・検索・マルチモーダル理解・レポート生成を含む複雑な長期研究タスクの解決を目指すが、動的Web環境と曖昧なタスク定義のため評価が困難であった。DR^3-Evalは現実的かつ再現可能なDRA評価フレームワークを提案する(30 upvotes)。
新規性: 動的に変化するWeb環境に依存しない再現可能な評価設計と、曖昧なタスク定義を体系的に扱う評価基準の両立を実現。Deep Researchという急成長分野に初めて包括的なベンチマークを提供した点が重要。
手法: タスクの複雑さと曖昧さを制御可能な形で設計し、検索・推論・統合・レポート生成の各段階を独立に評価できるフレームワークを構築。動的Web環境の影響を排除するためのスナップショット手法を導入し、結果の再現性を担保している。
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents
著者: Kangsan Kim, Minki Kang, Taeil Kim et al.
メモリベースの自己進化はコーディングエージェントの有望なパラダイムだが、既存手法はメモリ利用を同種タスクドメインに限定しており、ランタイム環境やプログラミング言語といった共有インフラ基盤を活用できていなかった。本研究はメモリのドメイン間転移メカニズムを解明する(28 upvotes)。
新規性: コーディングエージェントのメモリが異なるタスクドメイン間でどのように転移するかを体系的に分析した初めての研究。共有インフラ基盤(ランタイム環境・言語仕様)がドメイン横断転移の鍵となることを実証した。
手法: 異なるコーディングタスクドメインでエージェントが蓄積したメモリを分析し、転移可能な知識の種類と転移メカニズムを特定。ドメイン固有の知識と汎用的なインフラ知識を分離し、後者の選択的転移が異種ドメインでの性能向上に有効であることを示した。
How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
著者: Zixian Huang, Kaichen Yang, Xu Huang et al.
強いモデルの合成データによるSFTは広く採用されているが、Qwen3-8Bのような推論モデルでは推論能力の改善に失敗し、むしろ大幅な低下を引き起こすことがある。本研究はこの問題を解決する教師-生徒協調フレームワークを提案する(25 upvotes)。
新規性: 強いモデルからの蒸留が推論モデルで失敗するという重要な問題を初めて体系的に分析し、生徒モデルの能力に整合したデータ合成の必要性を明確化。教師-生徒の協調によるデータ生成で、蒸留の失敗モードを構造的に回避する。
手法: 教師モデルが一方的にデータを生成するのではなく、生徒モデルの現在の能力を考慮した「生徒整合」データを協調的に合成する。生徒が消化可能な推論ステップの粒度と複雑さを動的に調整し、推論能力を維持・向上させるSFTを実現した。
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure
著者: Huacan Wang, Jie Zhou, Ningyan Zhu et al.
AIコーディングエージェントは開発者ワークフローの中核となっているが、既存のすべてのソリューションはCLI・IDEプラグイン・Webアプリといった特定の提供形態に推論能力をロックしている。Sema Codeはこの制約を解消し、推論能力をプログラマブルで組み込み可能なインフラとして分離する(24 upvotes)。
新規性: コーディングエージェントの推論能力を特定のUI/提供形態から完全に分離するアーキテクチャを提案。企業がこれらの能力を自社システムに再利用する際のシステム的障壁を解消し、エージェントのインフラ化という新しい設計パラダイムを提示した。
手法: エージェントの推論コア・ツール連携・コンテキスト管理を独立したモジュールとして設計し、APIを通じて任意のアプリケーションに組み込める構造を実現。配信形態に依存しない推論パイプラインにより、同一の能力をCLI・IDE・CI/CDなど多様な環境で一貫して利用可能にした。
Exploration and Exploitation Errors Are Measurable for Language Model Agents
著者: Jaden Park, Jungtaek Kim, Jongwon Jeong et al.
LMエージェントはAIコーディングからフィジカルAIまで、複雑で開放的な意思決定タスクで利用が拡大している。これらの設定では問題空間の探索と獲得知識の活用の両方が必要だが、両者のエラーを体系的に区別・定量化する方法がなかった(24 upvotes)。
新規性: LMエージェントの探索エラー(未知領域の発見不足)と活用エラー(既知情報の最適活用の失敗)を初めて分離して測定可能にしたフレームワーク。エージェントの失敗原因の診断と改善方針の特定を可能にする。
手法: エージェントの行動軌跡を分析し、各ステップが探索的か活用的かを判定する基準を設計。探索・活用それぞれのエラー率を独立に計測することで、エージェントの弱点が情報収集にあるのか意思決定にあるのかを明確に診断できる枠組みを構築した。
ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack
著者: Yein Park, Jungwoo Park, Jaewoo Kang
LLMは安全性アラインメントを施されていても、時制変換などの単純な言語的変更で有害なリクエストに応答してしまう脆弱な拒否挙動を示す。ASGuardは活性化スケーリングによってこの標的型ジェイルブレイク攻撃を防御する手法を提案する(19 upvotes)。
新規性: 時制変換ジェイルブレイクが示す一般化ギャップ(現在形で拒否するが過去形で応答する)を活性化レベルで分析し、モデルの内部表現を操作することで追加学習なしに防御を実現する点が新しい。
手法: 安全整合済みモデルの内部活性化パターンを分析し、拒否挙動に関与するニューロンの活性化をスケーリングすることで、言語的バリエーションに対するロバスト性を獲得。推論時のオーバーヘッドを最小限に抑えつつ、多様なジェイルブレイク手法に対する防御力を向上させた。
Dive into Claude Code: The Design Space of Today’s and Future AI Agent Systems
著者: Jiacheng Liu, Xiaohan Zhao, Xinyi Shang et al.
Claude Codeはシェルコマンド実行・ファイル編集・外部サービス呼び出しを行えるエージェント型コーディングツールである。本研究は公開TypeScriptソースコードの分析からその包括的なアーキテクチャを解明し、独立実装のOpenClawとの比較を通じてAIエージェントシステムの設計空間を考察する(16 upvotes)。
新規性: 実際に広く利用されているAIコーディングエージェントのアーキテクチャをソースコード分析から体系的にリバースエンジニアリングした初の学術的研究。設計判断の背景にある技術的トレードオフを明らかにし、将来のエージェントシステム設計への指針を提供する。
手法: Claude Codeの公開ソースコードを静的分析し、プロンプト設計・ツール管理・コンテキスト制御・権限モデルなどのアーキテクチャコンポーネントを分類。OpenClawとの構造比較により、エージェントシステムの設計空間における選択肢とトレードオフを体系化した。
分野別の動向
AIエージェント・コーディングエージェント
本日はAIエージェント関連の研究が集中的に登場した。Sema Codeがエージェントの推論能力をインフラとして分離する設計を提案し、Dive into Claude Codeが実用エージェントのアーキテクチャを学術的に解剖した。SemaClaw(18 upvotes)はOpenClawの大規模採用を背景にハーネスエンジニアリングによる汎用パーソナルエージェントへの道筋を示し、Memory Transfer Learningはエージェントのメモリ転移を解明している。Exploration and Exploitation Errorsはエージェントの失敗診断フレームワークを提供し、Do AI Coding Agents Log Like Humans(3 upvotes)はエージェントのロギング挙動を人間と比較分析した。エージェント研究が構築・評価・運用の全フェーズで急速に成熟しつつある。
強化学習・ポリシー最適化
How to Fine-Tune a Reasoning Modelが推論モデルへのSFT適用の失敗モードを解決する教師-生徒協調を提案。RAD-2(26 upvotes)は拡散ベースの自動運転プランナーにGenerator-Discriminator RLを適用。Reinforcement Learning via Value Gradient Flow(5 upvotes)は行動正則化RLを値勾配フローとして再定式化した。LongAct(6 upvotes)はモデル内部の活性化パターンを活用した長コンテキストRLを提案し、Self-Distillation Zero(8 upvotes)は二値報酬を自己修正で密な監督に変換する手法を示している。C2(3 upvotes)はルーブリック拡張報酬モデリングのスケーラビリティを改善した。
LLM安全性・アラインメント
ASGuardが活性化スケーリングによるジェイルブレイク防御を提案し、時制変換などの単純な攻撃に対するLLMの脆弱性を内部表現の操作で解消するアプローチを示した。Self-Sovereign Agent(5 upvotes)はAIシステムが人間の関与なしに経済的に自律運用する可能性を調査し、エージェントの自律性がもたらす新たなリスクと機会を考察している。Mobile GUI Agents under Real-world Threats(3 upvotes)はモバイルGUIエージェントの実環境脅威下での脆弱性を評価した。
3D生成・マルチモーダル
HY-World 2.0(90 upvotes)がテキスト・画像・動画からの3Dワールド生成統合フレームワークを発表し、本日最多のupvotesを獲得。GlobalSplat(21 upvotes)はグローバルシーントークンによるフィードフォワード3D Gaussian Splattingで効率的な空間配置を実現。HiVLA(17 upvotes)は視覚接地型の階層的ロボット操作でVLAモデルの推論能力劣化を解決し、Re2Pix(7 upvotes)は意味表現先行の階層的動画予測を提案した。
知識蒸留・モデル効率化
Switch-KD(8 upvotes)がVLMの知識蒸留に視覚スイッチ機構を導入し、リソース制約環境での展開を改善。Cross-Tokenizer LLM Distillation(5 upvotes)はバイトレベルインターフェースで異なるトークナイザ間の蒸留問題を解決した。KV Packet(8 upvotes)は文脈非依存のKVキャッシングで再計算なしのキャッシュ再利用を実現し、TRACER(6 upvotes)は本番ログから軽量サロゲートを学習してLLM分類コストを削減する手法を提案している。
評価・ベンチマーク
DR^3-EvalがDeep Researchエージェントの包括的評価フレームワークを提示し、急成長するDRA分野に再現可能なベンチマークを提供。ROSE(11 upvotes)はNL2SQL評価指標の信頼性問題に対処する意図中心の新指標を提案。Model Capability Dominates(2 upvotes)はAIMO 3コンペの教訓から、多様なプロンプト戦略より基盤モデル能力が支配的であることを報告した。