Reasoning SFTの汎化に関する条件付き分析が189件の支持を集め、SFTは暗記しRLが汎化するという通説に再考を迫った。バイトレベル蒸留による異トークナイザ間知識転移、能動的メモリ抽出によるエージェント長期記憶改善も注目される。
注目論文
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
著者: Qihan Ren, Peng Wang, Ruikun Cai et al.
LLMのポストトレーニングにおいて「SFTは暗記し、RLが汎化する」という通説が広く信じられているが、本研究は長Chain-of-Thought監督付きのReasoning SFTについてこの主張を再検証し、ドメイン間汎化は不在ではなく条件付きで達成可能であることを示した。
新規性: SFTの汎化能力が最適化手法・データ品質・モデル能力の3つの条件に依存することを体系的に実証。SFT vs RLの単純な二項対立を超え、SFTでも適切な条件下でドメイン間汎化が実現できることを明らかにした点で、ポストトレーニング研究の方向性に大きな影響を与える。
手法: 最適化(学習率、スケジューラ等)、データ(品質、多様性、CoTの長さ)、モデル能力(ベースモデルの規模・事前学習品質)の3軸について条件付き分析を実施。各条件がドメイン間汎化に与える影響を制御実験で分離し、汎化成功の必要十分条件を特定。
Cross-Tokenizer LLM Distillation through a Byte-Level Interface
著者: Avyav Kumar Singh, Yen-Chen Wu, Alexandru Cioba et al.
異なるトークナイザを持つ教師・生徒モデル間の知識蒸留(Cross-Tokenizer Distillation, CTD)は未解決の課題であり、既存手法は語彙の対応付けにヒューリスティックな手法を用いるため複雑性が高い。本研究はバイトレベルという共通インターフェースを介したシンプルかつ効果的な蒸留手法BLDを提案。
新規性: トークナイザ間の共通基盤としてバイトレベルを採用するという直感的なアプローチで、複雑な語彙アライメント手法を不要にした。1B〜8Bパラメータのモデルで、より精巧な既存CTD手法と同等以上の性能を達成。
手法: 教師モデルの出力分布をバイトレベル確率に変換し、生徒モデルに軽量なバイトレベルデコーダヘッドを付加。この共有バイトレベルインターフェースを介して蒸留を実行。トークナイザの違いを吸収しつつ、実装のシンプルさを維持。
MemReader: From Passive to Active Extraction for Long-Term Agent Memory
著者: Jingyi Kang, Chunyu Li, Ding Chen et al.
エージェントの長期メモリ構築において、既存システムはメモリ抽出をコンテキストから構造化エントリへの一回限りの受動的転写として扱うため、ノイズの多い対話や参照不足、ターン間依存関係への対応が困難だった。MemReaderは能動的なメモリ抽出を実現するモデルファミリーを提案。
新規性: メモリ抽出を受動的な転写から、推論駆動の選択的書き込みへと転換。ReActスタイルのパラダイムで情報の価値・参照の曖昧さ・完全性を評価し、書き込み・保留・検索・破棄を能動的に判断する。GRPOによる最適化でこの判断能力を獲得。
手法: MemReader-0.6B(受動的抽出器、蒸留ベース)とMemReader-4B(能動的抽出器、GRPO最適化)の2モデルを構築。MemReader-4Bは書き込み前に情報の価値評価と完全性チェックを行い、不完全な入力は保留して履歴コンテキストの検索を実行。LOCOMO、LongMemEval、HaluMemの3ベンチマークで既存手法を上回る性能を達成。
分野別の動向
LLM学習・最適化
本日最も注目を集めたのはReasoning SFTの汎化に関する条件付き分析で、189件の支持を獲得した。SFTとRLの二項対立的な理解を超え、SFTの汎化が最適化・データ・モデル能力の条件に依存することを示した本研究は、ポストトレーニング戦略の選択に実践的な指針を与える。バイトレベル蒸留もトークナイザの壁を越えた知識転移という実用的課題に対し、シンプルで効果的な解を提示した。
エージェント・メモリ
前日に続きエージェント関連の研究が活発だが、本日はメモリシステムに焦点が当たった。MemReaderは「より多くの情報を抽出する」のではなく「推論に基づいて選択的に記憶する」というアプローチで、エージェントの長期メモリの質的改善を追求。メモリ汚染やノイズの低減という実用的課題に取り組んでおり、実世界デプロイメントへの貢献が期待される。