LLM/NLP最新論文

AgentSPEXが49 upvotesでLLMエージェントの制御フロー明示化を提案し、TEMPOが24 upvotesでテスト時訓練の計算スケーリングを実現。拡散型LLMの効率化、PEFT新手法、ワークフロー生成ベンチマークなど、エージェント制御と推論効率化の両軸で研究が進展した一日。

注目度

注目論文

AgentSPEX: An Agent SPecification and EXecution Language

著者: Pengcheng Wang, Jerry Huang, Jiarui Yao et al.

LLMエージェントシステムは反応的プロンプティングに依存しており、制御フローや中間状態が暗黙的でエージェント挙動の制御が困難であった。AgentSPEXはエージェントの仕様と実行を明示的に記述するドメイン固有言語を提案する（49 upvotes）。

新規性: 単一の指示で推論とツール使用のオープンエンドなシーケンスを導くという既存パラダイムから脱却し、制御フローと中間状態を明示的に記述可能な仕様・実行言語を設計。エージェント挙動の予測可能性と制御性を根本的に改善した。

手法: エージェントの推論ステップ、ツール呼び出し、状態遷移を宣言的に記述する言語仕様を定義。オーケストレーション層がこの仕様に基づきエージェントの実行を管理し、暗黙的だった制御フローを明示化することで、デバッグ・監査・再現性を向上させた。

Hugging Face Daily Papers

TEMPO: Scaling Test-time Training for Large Reasoning Models

著者: Qingyang Zhang, Xinke Kong, Haitao Wu et al.

テスト時訓練（TTT）は推論時にモデルパラメータをラベルなしテストインスタンスに適応させる手法だが、既存のTTT手法はLRMに対して早期に飽和し、追加のテスト時計算量から恩恵を受けられなかった。TEMPOはこの飽和問題を解決する（24 upvotes）。

新規性: 既存TTT手法がLRMで早期飽和する問題を特定し、テスト時計算量に応じた継続的な性能向上を実現するスケーラブルなTTTフレームワークを設計。オフライン訓練の限界を超えた能力拡張を可能にした。

手法: テスト時のパラメータ適応プロセスをスケーラブルに設計し、計算量増加に対して性能が飽和しない学習ダイナミクスを実現。推論時の追加計算を効果的に活用する仕組みにより、オフライン訓練では到達できない性能を達成した。

Hugging Face Daily Papers

PlayCoder: Making LLM-Generated GUI Code Playable

著者: Zhiyuan Peng, Wei Tao, Xin Yin et al.

LLMはコード生成で高い性能を示すが、GUIアプリケーション特にゲームの生成能力は十分に研究されていない。既存ベンチマークはテストケースによる正確性評価が主であり、GUIアプリケーションの品質評価には不適切である（19 upvotes）。

新規性: LLM生成コードの「プレイアビリティ」という新しい評価軸を導入。テストケースでは捉えられないGUIアプリケーションの実行可能性・インタラクション品質を体系的に評価するベンチマークを初めて構築した。

手法: ゲームを中心としたGUIアプリケーション生成タスクを設計し、視覚的・インタラクティブな品質を含む多面的な評価基準を定義。LLMが生成したコードの実行可能性と利用者体験を直接評価する枠組みを提供した。

Hugging Face Daily Papers

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

著者: Xianming Li, Zongxi Li, Tsz-fung Andrew Lee et al.

LoRA等の既存PEFTは凍結バックボーンの上に少数のタスク固有パラメータを訓練するが、低ランク近似の制約によりフルファインチューニングとの性能差が残る。ShadowPEFTはシャドウネットワーク方式でこの差を縮小する（18 upvotes）。

新規性: 凍結バックボーンに並行するシャドウネットワークを導入し、低ランク制約に縛られないパラメータ効率的な微調整を実現。LoRAの構造的限界を回避しつつ、訓練パラメータ数を抑えたままフルファインチューニングに迫る性能を達成した。

手法: プレトレインドバックボーンを凍結したまま、並列に配置したシャドウネットワークがタスク固有の表現を学習。バックボーンの出力とシャドウネットワークの出力を統合することで、低ランク近似では捉えきれない複雑なタスク適応を可能にした。

Hugging Face Daily Papers

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

著者: Yi Zhong, Buqiang Xu, Yijun Wang et al.

実行可能なビジュアルワークフローは産業展開の主流パラダイムだが、現在はほぼ全て手動で構築されている。Chat2Workflowは自然言語からの自動生成を評価するベンチマークを構築する（13 upvotes）。

新規性: 自然言語記述から実行可能なビジュアルワークフローを生成するタスクを定式化し、体系的な評価ベンチマークを初めて構築。産業応用で求められる信頼性・制御性を備えたワークフロー自動生成の研究基盤を提供した。

手法: 実世界の産業ワークフローパターンを収集し、自然言語入力からノード・エッジ構造を持つ実行可能ワークフローを生成するタスクを設計。生成されたワークフローの構造的正確性と実行可能性を評価する多面的な指標を導入した。

Hugging Face Daily Papers

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

著者: Wentao Shi, Yu Wang, Yuyang Zhao et al.

強化学習によるLLMエージェントの訓練がスケールする中、複雑な環境におけるエージェント挙動の検証が困難になっている。既存のルールベース検証器やLLM-as-a-Judgeは汎化に限界がある（11 upvotes）。

新規性: エージェントの挙動を環境の状態変化まで考慮して評価する「Agent-as-a-Judge」パラダイムのベンチマークを初めて構築。ルールベースやLLM-as-a-Judgeの手法では対応困難な環境認識型評価の研究基盤を提供した。

手法: 多様な環境シナリオにおけるエージェント挙動とその環境への影響を体系的に収集し、環境状態の変化を考慮した評価基準を設計。既存手法の限界を定量的に示すとともに、環境認識型評価の方向性を提示した。

Hugging Face Daily Papers

著者: Lin Yao

LLaDA等のマスク拡散言語モデルはToken-to-Token（T2T）編集でエラーを修正するが、信頼度閾値・誤りコンテキスト・訓練分布の不一致という3つの構造的失敗モードを持つ。Token-to-Mask（T2M）リマスキングでこれらを解決する。

新規性: マスク拡散LLMの推論時エラー修正において、誤ったトークンを別のトークンで置換するのではなくマスク状態にリセットするT2M方式を提案。訓練不要・パラメータ追加なしでCMATHにて+5.92ポイントの改善を達成した。

手法: 疑わしいトークンをマスク状態にリセットし、次のデノイジングステップで分布内コンテキストから再予測させる。3種類の検出ヒューリスティクスと組み合わせ、誤ったトークンよりマスクが良い条件付け信号となる理論的根拠も提示した。

arXiv

R²-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction

著者: Zhenbang Du, Kejing Xia, Xinrui Zhong et al.

拡散型LLM（dLLM）は並列トークン予測を可能にする有望なパラダイムだが、デコーディングの冗長性により推論遅延が大きい。空間的冗長性（信頼度クラスタ・位置曖昧性）と時間的冗長性（安定した予測の再マスキング）を特定し削減する。

新規性: dLLMのデコーディング冗長性を空間・時間の2軸から体系的に分析し、推論・訓練両面から冗長性を削減する統一フレームワークを提案。既存デコーディング戦略と比較してデコーディングステップを最大75%削減した。

手法: 推論時には訓練不要のデコーディングルールで局所的な信頼度とトークン予測を集約し、時間的に安定したトークンを確定。さらに冗長性認識型の教師あり微調整パイプラインで効率的なデコーディング軌道にモデルを整合させた。

arXiv

OLLM: Options-based Large Language Models

著者: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri

標準的なLLMの単一次トークン予測を、離散潜在変数でインデックスされた複数の学習済みオプションに置き換えるOLLMを提案。温度やサンプリングヒューリスティクスに頼らず、多様性を明示的にモデル化する。

新規性: 次トークン予測を複数オプション化する軽量プラグインアーキテクチャを設計。1.7Bモデルで訓練可能パラメータわずか1.56%ながら、数学推論の正解率を最適潜在選択下で51%から約70%に向上。潜在空間での方策学習により言語切替や退化推論を構造的に抑制した。

手法: プレトレインドLLMの出力ヘッド前にエンコーダ・デコーダの2層を挿入し、離散潜在空間で複数の次トークンオプションをパラメタライズ。低次元オプション空間でコンパクトな方策を訓練することで、サンプル効率の高い報酬最適化を実現した。

arXiv

分野別の動向

エージェント制御・仕様化

AgentSPEX（49 upvotes）がエージェントの制御フロー明示化という根本的な課題に取り組み、AJ-Bench（11 upvotes）が環境認識型のエージェント評価基盤を構築した。arXivからはAutomationBenchがREST API経由のクロスアプリケーションワークフローオーケストレーションのベンチマークを提案し、フロンティアモデルでも10%未満のスコアにとどまることを示した。ClawNetはマルチユーザエージェント協調のためのアイデンティティ管理フレームワークを提案している。エージェントの「何ができるか」から「どう制御・評価するか」への研究シフトが明確になっている。

拡散型言語モデルの効率化

Remask, Don’t Replace がマスク拡散LLMの推論時エラー修正を改善し、R²-dLLMがデコーディングステップの75%削減を達成するなど、dLLMの実用化に向けた効率化研究が活発化している。Discrete Tilt Matching（arXiv cs.LG）はdLLMの強化学習微調整に尤度フリーな手法を提案し、LLaDA-8B-InstructでSudokuやCountdownタスクに大きな改善を示した。自己回帰モデルの代替としてのdLLMエコシステムが着実に成熟しつつある。

パラメータ効率的微調整

ShadowPEFT（18 upvotes）がLoRAの低ランク制約を回避するシャドウネットワーク方式を提案し、RDP LoRA（4 upvotes）が層固有の役割をRamer-Douglas-Peucker幾何学で分析してアダプタ配置を最適化した。Weight Disentanglement（9 upvotes）はタスク算術の理論的基盤を明らかにし、タスク間干渉を抑制する手法を提示した。PEFTの「どこに」「どう」適応するかの理解が深まっている。

LLM推論・テスト時計算

TEMPO（24 upvotes）がテスト時訓練のスケーリングを実現し、OLLM が潜在オプション空間での方策学習を提案した。arXivからはEasyRL が認知学習理論に着想を得た少量ラベルデータでの自己進化RLフレームワークを、Compile to Compress がコンパイラ出力を活用した形式定理証明の効率化を提案している。推論時の計算資源をいかに効果的に活用するかが引き続き重要なテーマである。

安全性・信頼性

HarmThoughts（arXiv cs.CL）が推論チェーン内での有害行動の段階的伝播を文レベルで分析するベンチマークを提案し、Reasoning Structure Matters がLRMの安全性リスクが推論構造自体に起因することを示した。Harmful Intent as a Geometrically Recoverable Feature（arXiv cs.LG）はLLM残差ストリームから有害意図が線形方向として幾何学的に回復可能であることを12モデルで実証した。安全性研究が最終出力の評価から内部メカニズムの理解へと深化している。

評価・ベンチマーク

PlayCoder（19 upvotes）がGUIコードのプレイアビリティ評価を、Chat2Workflow（13 upvotes）がワークフロー生成の評価基盤を提供した。Personalized Benchmarking（arXiv cs.AI）は集約ベンチマークが個人の嗜好を反映しないことを定量的に示し、MM-JudgeBias（3 upvotes）はMLLM-as-a-Judgeの構成的バイアスを評価するベンチマークを構築した。「何を評価するか」自体の再定義が進んでいる。

注目論文

AgentSPEX: An Agent SPecification and EXecution Language

TEMPO: Scaling Test-time Training for Large Reasoning Models

PlayCoder: Making LLM-Generated GUI Code Playable

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Remask, Don’t Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

R²-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction

OLLM: Options-based Large Language Models

分野別の動向

エージェント制御・仕様化

拡散型言語モデルの効率化

パラメータ効率的微調整

LLM推論・テスト時計算

安全性・信頼性

評価・ベンチマーク

ソース