LLM/NLP最新論文

Mega-ASRが109 upvotesで大規模音響シミュレーションによるASRの頑健性向上を実証し、Video2GUIが86 upvotesで動画からのGUI操作トラジェクトリ自動合成を提案。RLVR関連ではランク1軌跡による最小限学習、KVキャッシュ量子化ではOScaRとMix-Quantが推論効率を大幅改善し、Toto 2.0が時系列基盤モデルのスケーリング則を実証した。

注目度

注目論文

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

著者: Zhifei Xie, Kaiyu Pang, Haobin Zhang et al.

大規模な実環境音響シミュレーションにより、自動音声認識(ASR)と大規模オーディオ言語モデルの実環境での頑健性を大幅に向上させた研究(109 upvotes)。深刻な複合ノイズ環境下でモデルが音響的接地を失い、省略や幻覚を生成する「音響的頑健性ボトルネック」を克服している。

新規性: ASRの進歩にもかかわらず、実環境の複合的なノイズ条件下では認識精度が急激に低下する問題が残っていた。本研究はこれを「音響的頑健性ボトルネック」として定式化し、大規模合成ノイズデータによるシミュレーションスケーリングという新たなアプローチで解決を図っている。

手法: 実環境の多様な音響条件(残響・背景雑音・話者重畳等)を合成的に大規模シミュレーションし、ASRモデルの訓練データを拡充する。合成データのスケールアップにより、モデルが複合的な音響劣化に対しても頑健な認識を維持できるようになる。

Hugging Face Daily Papers


Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

著者: Weimin Xiong, Shuhao Gu, Bowen Ye et al.

動画からGUI操作トラジェクトリを自動合成し、GUIエージェントの汎用的な大規模事前学習データを生成する手法を提案した(86 upvotes)。多様な実世界アプリケーションにわたる大規模訓練データの欠如というGUIエージェント研究の根本的制約に対処している。

新規性: 既存のGUIデータセットは人手による操作記録やスクリプトに依存し、アプリケーションの多様性とスケーラビリティに限界があった。Video2GUIは既存のソフトウェア操作動画からGUI操作を自動抽出・構造化することで、大規模かつ多様なトラジェクトリデータを低コストで生成する初のアプローチを提示している。

手法: ソフトウェア操作動画からフレーム間の差分とUI要素の対応関係を解析し、クリック・入力・スクロール等の操作を自動的に抽出してトラジェクトリとして構造化する。生成されたデータでGUIエージェントを事前学習し、下流タスクへの汎化性能を向上させる。

Hugging Face Daily Papers


IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools

著者: Rongbin Tan, Fangfang Lin, Zhenlong Yuan et al.

マルチモーダルLLMにエージェント型ツールを統合し、オープン語彙の産業異常検出(IAD)を強化した研究(42 upvotes)。MLLMのゼロショット理解能力は産業シナリオで有望だが、ドメイン固有の精度と空間的正確性に限界があった問題を解決している。

新規性: MLLMは多様な産業シナリオでゼロショット理解が可能だが、微細な異常の検出や正確な空間的局在化にはドメイン知識が不足していた。IndusAgentはMLLMに専用のエージェント型ツール(セグメンテーション・特徴抽出・比較等)を装備させ、ゼロショットの汎用性とドメイン固有の精度を両立させた初のフレームワークである。

手法: MLLMをコントローラとして、画像の異常検出に必要な専門ツール群を呼び出すエージェントアーキテクチャを構築する。正常テンプレートとの比較、局所的特徴抽出、セグメンテーション等のツールをMLLMが状況に応じて選択・実行し、最終的な異常判定と説明を生成する。

Hugging Face Daily Papers


You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

著者: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen et al.

RLVRの重み軌跡がランク1であることを発見し、最小限の学習ステップで推論能力を外挿できることを実証した研究(40 upvotes)。RLVRのパラメータ軌跡の幾何学的構造という未開拓の領域に切り込んでいる。

新規性: RLVRは推論能力向上の支配的パラダイムとなったが、学習過程で生じるパラメータ変化の幾何学的構造は未探索だった。本研究はRLVR軌跡が実質的にランク1(1次元部分空間上の運動)であることを示し、少数ステップの学習から完全な軌跡を外挿可能であることを実証した点が画期的である。

手法: RLVR訓練中の重み変化を特異値分解で解析し、軌跡が1次元部分空間に集中していることを確認する。この構造を利用して、少数の初期ステップから軌跡の方向を推定し、大きな学習ステップ数に対応する重みを外挿することで、計算コストを大幅に削減する。

Hugging Face Daily Papers


OScaR: The Occam’s Razor for Extreme KV Cache Quantization in LLMs and Beyond

著者: Zunhai Su, Rui Yang, Chao Zhang et al.

KVキャッシュの極端な量子化(2ビット等)を実現し、長文脈推論のメモリボトルネックを解消する手法を提案した(36 upvotes)。既存のチャネル単位量子化がチャネル方向の外れ値には対応するがキー・バリュー固有の分布構造を活用できていない問題を解決している。

新規性: 長文脈推論・マルチモーダル知能の進展に伴いKVキャッシュのメモリ消費が支配的ボトルネックとなっている。既存手法はチャネル方向の外れ値処理に注力していたが、OScaRはオッカムの剃刀の原則に基づき、KV分布の本質的な構造を最小限の仮定で捉える量子化スキームを設計し、2ビットレベルでも高い精度を維持している。

手法: KVキャッシュの統計的分布構造を解析し、最小限のパラメータで分布を近似する量子化コーデックを設計する。回転前処理と座標単位のスカラー量子化を組み合わせ、解析的に導出可能な最適量子化パラメータにより、追加の学習なしで既存モデルに適用可能である。

Hugging Face Daily Papers


It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs

著者: Sangwoo Park, Woongyeong Yeo, Seanie Lee et al.

相補的自己蒸留フレームワーク(SELFCI)により、LLMのプライバシー保護(文脈的完全性)とタスク性能のトレードオフを解消した研究(27 upvotes)。フロンティアモデルでさえ情報開示の判断が不安定で、既存の緩和策がタスク性能を劣化させる問題に取り組んでいる。

新規性: 文脈的完全性(CI)はプライバシーを情報フローの規範に基づいて定義するが、LLMエージェントでのCI遵守はプライバシーとタスク性能の対立を生む。SELFCIは情報抑制とタスク遂行を2つの独立した逆KLダイバージェンスに分離し、積専門家(PoE)ターゲットとして統合することで、外部監督なしに両立を実現した。

手法: フィードバックから2つの教師分布を導出し、一方はタスク関連情報の保持(有用性)、他方は最小限の適切な開示(プライバシー)を促進する。相補的な自己蒸留により、方策を能力とプライバシー要件の交差領域に整合させる。GRPOなどのオンラインRLアルゴリズムを上回る性能を示している。

Hugging Face Daily Papers


Toto 2.0: Time Series Forecasting Enters the Scaling Era

著者: Emaad Khwaja, Chris Lettieri, Gerald Woo et al.

時系列基盤モデルのスケーリング則を実証し、4Mから2.5Bパラメータまで予測品質が一貫して向上する5モデルファミリーを公開した研究(25 upvotes)。単一の訓練レシピでパラメータスケールに応じた信頼性ある品質改善を達成している。

新規性: LLMではスケーリング則が確立されているが、時系列基盤モデルではパラメータ増加が予測品質に一貫して寄与するかは未実証だった。Toto 2.0は単一の訓練レシピで4Mから2.5Bまでの5段階のモデルを訓練し、スケールに応じた予測品質の単調改善を初めて体系的に示した。

手法: 統一的な訓練レシピで異なるパラメータ規模のモデルを訓練し、複数のベンチマークで評価する。5モデルすべてのオープンウェイトを公開し、時系列予測における新たなSOTAを確立している。

Hugging Face Daily Papers


Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs

著者: Haiquan Lu, Zigeng Chen, Gongfan Fang et al.

エージェント型LLM推論においてプリフィル段階のみFP4量子化を適用し、最大3倍の高速化を達成しつつデコード精度を維持するフレームワークを提案した(22 upvotes)。

新規性: エージェント型ワークフローでは長文脈・多ターンの推論によりプリフィル段階が計算ボトルネックとなるが、推論全体の量子化は性能劣化を招く。Mix-Quantはプリフィル段階が量子化冗長性を持つ一方でデコード段階は精度に敏感であるという非対称性を発見し、フェーズ認識型の量子化で両者を分離した初の手法である。

手法: プリフィル段階にNVFP4量子化を適用してスループットを向上させ、デコード段階ではBF16精度を維持する。ハードウェア効率の高いNVFP4実行とアルゴリズム的な量子化設計を組み合わせ、長文脈・エージェント型ベンチマークでタスク性能を維持しつつ推論効率を大幅に改善している。

Hugging Face Daily Papers


Generative Recursive Reasoning

著者: Junyeob Baek, Mingyu Jo, Minsu Kim et al.

自己回帰的な系列延長に代わる反復的潜在状態精錬により推論を行う、生成的再帰推論モデル(RRM)を提案した(19 upvotes)。既存のRRMが決定論的であった限界を生成的アプローチで克服している。

新規性: 再帰推論モデル(RRM)は共有遷移関数による反復的な潜在状態精錬で拡張計算を行う有望な代替手段だが、既存手法は主に決定論的であり、推論の多様性や不確実性の表現が制限されていた。本研究は生成的な確率的精錬を導入し、RRMの表現力と柔軟性を大幅に拡張している。

手法: 各反復ステップで潜在状態を確率的に更新する生成モデルを構築し、共有遷移関数で反復精錬を行う。決定論的RRMと比較して、推論過程の多様性を保持しつつ、より柔軟な計算拡張を可能にする。

Hugging Face Daily Papers


HRM-Text: Efficient Pretraining Beyond Scaling

著者: Guan Wang, Changling Liu, Chenyu Wang et al.

脳の前頭頂葉ループに着想を得た階層的リカレントモデル(HRM)により、標準Transformerを超えるサンプル効率の良い言語モデル事前学習を実現した研究(12 upvotes)。

新規性: 現行の事前学習パラダイムは大規模計算とインターネット規模のテキストに依存し、基礎研究への参入障壁が高い。生物学的システムは多時間スケール処理により高いサンプル効率を達成しており、HRM-Textはこの機構をモデル化することで、スケーリングに頼らない効率的な事前学習を実現する新たな方向性を示している。

手法: 標準Transformerを階層的リカレントモデルに置き換え、ゆっくり進化する戦略層と高速に進化する実行層に計算を分離する。深い再帰を安定化するMagicNormとウォームアップ深層信用配分を導入し、従来のraw-textではなく構造化されたデータで事前学習を行う。

Hugging Face Daily Papers


分野別の動向

RLVR・推論強化学習

You Only Need Minimal RLVR Training(40 upvotes)がRLVR重み軌跡のランク1構造を発見し、最小限の学習から推論能力を外挿可能であることを示した。前日のAnti-Self-DistillationやCEPOがトークンレベルの報酬配分を改善したのに対し、本研究はRLVR自体の計算コスト削減という新たな軸を開拓している。arXivからはThe Unlearnability Phenomenon in RLVR(困難な例でRLVRが学習不能になる反直感的現象)、Not Every Rubric Teaches Equally(ルーブリック報酬の方策認識型設計)、Mid-Training with Self-Generated Data(自己生成データによるRL前の中間訓練)、FBOS-RL(フィードバック駆動の双目的協調RL)が登場し、RLVRの学習ダイナミクスの理解と改善が多角的に進展している。

エージェント基盤・ツール使用

Video2GUI(86 upvotes)とIndusAgent(42 upvotes)がそれぞれGUIエージェントと産業異常検出でエージェント能力を拡張した。arXivからはMOCHA(エージェントスキルの多目的最適化)、DecisionBench(長期ワークフローの委任ベンチマーク)、POLAR-Bench(プライバシー-有用性診断)、Hallucination as Exploit(幻覚をアクション認可失敗として定式化)、SpecBench(コーディングエージェントの報酬ハッキング測定)など、エージェントの能力構築から安全性評価まで研究が広がっている。前日のOpenComputer・EnvFactoryに続き、エージェント研究は「データ・環境の自動構築」と「安全性・信頼性の保証」の二軸で急速に深化している。

LLM推論効率化・量子化

OScaR(36 upvotes)とMix-Quant(22 upvotes)がKVキャッシュ量子化とフェーズ認識型量子化でそれぞれ推論効率を改善した。arXivからはOCTOPUS(八面体パラメータ化によるKVキャッシュコーデック)も登場し、KVキャッシュの量子化が複数の研究グループから同時に取り組まれている。特にMix-Quantはエージェント型ワークフローの長文脈プリフィルに特化した量子化という新たな応用軸を開拓しており、エージェント推論の実用化に直結する成果である。

基盤モデルアーキテクチャ

HRM-Text(12 upvotes)が脳の階層的処理に着想を得た新アーキテクチャを提案し、スケーリングに依存しない効率的事前学習を実現した。Generative Recursive Reasoning(19 upvotes)も自己回帰に代わる再帰的推論メカニズムを提案しており、Transformer一極集中のアーキテクチャ探索に対する代替路線が模索されている。Toto 2.0(25 upvotes)は時系列領域で基盤モデルのスケーリング則を実証し、言語以外のドメインでも基盤モデルのスケーリングが有効であることを示した。

プライバシー・安全性

SELFCI(27 upvotes)が文脈的完全性に基づくプライバシー保護を相補的自己蒸留で実現した。arXivからはSafety Alignment as Continual Learning(直交勾配射影によるアライメント税の軽減)、Conditional Equivalence of DPO and RLHF(DPOとRLHFの等価性が条件付きであることの証明)、Base Models Look Human To AI Detectors(ベースモデルのテキストがAI検出器を欺く)など、安全性・アライメントの理論的基盤に関する研究が充実している。特にSELFCIはエージェントのプライバシー保護という実用的課題に取り組み、前日のPOLAR-Benchと合わせてエージェント時代のプライバシー研究が本格化している。

AI研究・評価の方法論

arXivからはResearchArena(How Far Are We From True Auto-Research?)がClaude Code・Codex・Kimi Codeの自動生成論文117本を評価し、手稿のみレビューでは質が過大評価されること、トップ会議水準に達する論文はゼロであることを報告している。On the limits and opportunities of AI reviewers(9 upvotes)は45人の専門家科学者によるAIレビューの評価を実施し、Interactive Evaluation Requires a Design Science(12 upvotes)はエージェント時代の評価方法論の再設計を提唱している。前日のAutoResearchClawと合わせ、AI研究自動化の可能性と限界が定量的に検証される段階に入っている。


ソース