PersonaVLMが32 upvotesでマルチモーダルLLMの長期個別化を実現し、Qwen3.5-Omniが数千億パラメータ規模のオムニモーダルモデルを発表。並列推論の枝刈り、出力多様性崩壊の分析、SFT起因ハルシネーションの緩和など、LLMの訓練・推論両面での効率化・品質改善研究が充実した一日。
注目論文
PersonaVLM: Long-Term Personalized Multimodal LLMs
著者: Chang Nie, Chaoyou Fu, Yifan Zhang et al.
マルチモーダルLLM(MLLM)は日常アシスタントとして広く利用されているが、個人の好みに沿った応答生成能力は限定的である。既存手法は入力拡張や出力アラインメントによる静的・単ターンの個別化にとどまり、長期的なユーザ適応を実現できていなかった。PersonaVLMは長期的な個別化機能をMLLMに付与する(32 upvotes)。
新規性: 単ターンの静的個別化を超え、複数セッションにわたるユーザとの対話履歴から個人の好みを動的に学習・蓄積する長期個別化フレームワークを初めて提案。マルチモーダル入力に対してもユーザ固有の応答を一貫して生成できる点が重要。
手法: ユーザとの過去の対話履歴からプリファレンスを抽出・構造化し、推論時にこれを条件付けとして利用する設計を採用。入力拡張と出力アラインメントの両方を動的に更新することで、時間経過とともにユーザ理解が深まる仕組みを実現した。
Qwen3.5-Omni Technical Report
著者: Qwen Team
Qwen-Omniモデルファミリーの最新版であるQwen3.5-Omniを発表。前世代から大幅にスケールアップし、数千億パラメータ規模で256kコンテキスト長を実現。音声・視覚・テキストを統合的に処理する異種混合データセットで学習されている(21 upvotes)。
新規性: オムニモーダルモデルを数千億パラメータ規模にスケールさせ、256kという長大なコンテキスト長を実現した点。音声・視覚・テキストの3モダリティを単一モデルで処理する統合アーキテクチャの大規模化に成功。
手法: 音声・視覚・テキストの異種混合データセットを活用し、各モダリティ間の相互理解を促進する学習を実施。前世代Qwen2.5-Omniからのアーキテクチャ改善により、モダリティ間の統合処理能力とコンテキスト長の大幅な拡張を達成した。
Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems
著者: Uday Allu, Sonu Kedia, Tanmay Odapally et al.
RAGシステムの性能は文書チャンキング戦略に大きく依存するが、固定サイズ・ルールベース・完全エージェント型といった既存手法は高トークン消費・高レイテンシ・高コストのいずれかに苦しんでいた。W-RACはWeb検索を意識したチャンキング手法で検索品質・レイテンシ・コストのバランスを改善する(22 upvotes)。
新規性: チャンキングをWeb検索の検索単位として最適化する視点を導入し、検索品質を維持しつつトークン消費とレイテンシを大幅に削減。従来の「文書側の構造」ではなく「検索側の要件」からチャンキングを設計するアプローチが新しい。
手法: Web検索における検索・返却パターンを分析し、検索エンジンが効果的に処理できるチャンクサイズと構造を特定。これに基づく適応的チャンキング戦略により、固定サイズ手法の非効率性とエージェント型手法の高コストの中間点を実現した。
Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning
著者: Jiaxi Bi, Tongxu Luo, Wenyu Du et al.
並列推論は大規模推論モデル(LRM)の能力を拡張するが、早期エラーに起因する無駄なパスが膨大なコストを生む。パスの枝刈りは不可欠だが、既存研究は断片的で標準化されたフレームワークがなかった。本研究はプレフィックスレベルでの早期枝刈りを体系化する(18 upvotes)。
新規性: 並列推論におけるパス枝刈りを初めて統一的なフレームワークとして体系化。プレフィックス段階で将来の成功確率を予測し、無駄なパスを早期に打ち切ることで、推論品質を維持しつつ計算コストを大幅に削減する。
手法: 推論パスのプレフィックス(初期部分)から最終的な正解到達確率を予測するモデルを学習。予測確率が閾値を下回るパスを早期に枝刈りすることで、成功見込みの高いパスに計算資源を集中させる効率的な並列推論を実現した。
Where does output diversity collapse in post-training?
著者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
ポストトレーニングされたLLMはベースモデルに比べて出力の多様性が低下する「出力多様性崩壊」を起こす。この崩壊は推論時スケーリング手法の効果を損ない、創造的・価値判断的タスクでの出力均質化リスクをもたらす(9 upvotes)。
新規性: 出力多様性崩壊がポストトレーニングのどの段階で発生するかを特定した点。従来は崩壊の存在が指摘されるにとどまっていたが、本研究は崩壊のメカニズムと局在を明確にし、推論時スケーリングへの具体的影響を定量化した。
手法: ベースモデルとポストトレーニング各段階のモデルの出力分布を比較分析し、多様性崩壊が発生する具体的な訓練段階を特定。崩壊の原因を帰属分析で切り分け、特定の訓練手法が崩壊に与える影響の大小を明らかにした。
Why Fine-Tuning Encourages Hallucinations and How to Fix It
著者: Guy Kaplan, Zorik Gekhman, Zhen Zhu et al.
SFTで新しい事実情報に曝露されることがプレトレーニング段階の知識に対するハルシネーションを増加させる問題を、継続学習の知見を用いて緩和する手法を提案。自己蒸留ベースのSFT法と、事実可塑性を抑制するパラメータ凍結戦略を示す。
新規性: SFT起因ハルシネーションを継続学習における知識劣化の副産物として位置づけ、容量制限・行動模倣・局所干渉の3仮説を検証。重なり合う意味表現間の干渉が主因であり、自己蒸留がこの干渉を緩和するメカニズムを解明した。
手法: 自己蒸留ベースのSFTにより出力分布のドリフトを正則化し、新しい事実の学習と既存知識の保持を両立。新知識獲得が不要な設定ではパラメータグループの凍結により事実可塑性を抑制し、タスク性能を維持しつつハルシネーションを低減した。
LACE: Lattice Attention for Cross-thread Exploration
著者: Yang Li, Zirui Zhang, Yang Liu et al.
現行のLLMは推論を孤立して行い、複数の推論パスを並列サンプリングしても相互作用がないため、同じ失敗を冗長に繰り返す。LACEは推論を独立した試行の集合から協調的な並列プロセスに変換するフレームワークを提案する。
新規性: モデルアーキテクチャを再利用してクロススレッド注意機構を実現し、並行する推論パスが中間的な洞察を共有・相互修正できるようにした点。協調的推論行動を示す自然な学習データが存在しない問題を合成データパイプラインで解決。
手法: 既存モデルアーキテクチャにクロススレッド注意を組み込み、並行推論パス間の情報共有を可能にする。モデル間通信とエラー修正を明示的に教える合成データで学習し、標準的な並列探索を7ポイント以上上回る推論精度を達成した。
LLMs Corrupt Your Documents When You Delegate
著者: Philippe Laban, Tobias Schnabel, Jennifer Neville
LLMへの作業委任(vibe coding等)が新たなインタラクションパラダイムとして台頭する中、委任ワークフローにおけるLLMの信頼性を評価するDELEGATE-52ベンチマークを導入。52の専門ドメインにわたる長時間委任ワークフローをシミュレーションする。
新規性: 19のLLMを対象とした大規模実験で、フロンティアモデル(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)でさえ長時間ワークフロー終了時に平均25%のドキュメント内容を破損させることを実証。エージェント的ツール利用でも改善しないことを確認。
手法: コーディング・結晶学・音楽記譜法など52ドメインの長時間文書編集ワークフローを設計し、各LLMの文書劣化パターンを体系的に測定。文書サイズ・インタラクション長・ディストラクタファイルの存在が劣化を悪化させることを制御実験で確認した。
LLM Reasoning Is Latent, Not the Chain of Thought
著者: Wenshuo Wang
LLMの推論は表面的なChain-of-Thought(CoT)ではなく潜在状態の軌跡形成として研究すべきだと主張するポジション論文。3つの競合仮説(H1: 潜在状態軌跡、H2: 表面CoT、H3: 汎用的逐次計算)を形式化し、現行のエビデンスがH1を最も支持することを示す。
新規性: 表面トレース・潜在状態・逐次計算の3要素を明示的に分離する分析枠組みを提案し、CoTの忠実性・解釈可能性・推論ベンチマーク・推論時介入に関する主張の前提を再検討。潜在状態ダイナミクスをLLM推論研究のデフォルト対象とすべきと提言。
手法: 近年の実証・メカニスティック・サーベイ研究を本フレームワーク下で再整理し、表面トレース・潜在介入・計算予算拡張を分解した計算監査付きの事例分析を追加。表面CoTと潜在推論の乖離を具体的に示した。
Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips
著者: Ido Galil, Moshe Kimhi, Ran El-Yaniv
DNNはわずか数ビットのパラメータ反転で壊滅的に破壊される。Deep Neural Lesion(DNL)はデータも最適化も不要でクリティカルなパラメータを特定する手法であり、拡張版1P-DNLは単一パスでこの選択を精緻化する(38 upvotes)。
新規性: パラメータのビット反転によるDNN破壊を、データアクセスも反復最適化も必要とせずに実現する手法を提案。符号ビットの反転のみで壊滅的な性能低下を引き起こす脆弱なパラメータを効率的に特定する。
手法: パラメータの重要度を勾配やヘッセ情報を用いずに推定するデータフリー手法でクリティカルパラメータを特定。1P-DNLは単一フォワードパスで選択を精緻化し、ごく少数のビット反転でモデルを無力化できることを実証した。
分野別の動向
LLM訓練・推論効率化
本日は推論効率化に関する多角的な研究が目立った。Cut Your Losses!が並列推論の無駄パスを早期枝刈りするフレームワークを体系化し、LACEは並列推論パス間にクロススレッド注意機構を導入して協調的推論を実現した。DiPO(1 upvote)はRLVRにおける探索と活用のトレードオフを分析し、LongAct(7 upvotes)はモデル内部の活性化パターンを活用した長コンテキスト強化学習を提案。(1D) Ordered Tokens(12 upvotes)はトークンの1次元順序付けによるテスト時探索の効率化を示した。arXivからはAletheia(勾配誘導型LoRAレイヤ選択)やStoSignSGD(FP8プレトレーニングに有効な符号ベース最適化)など、訓練側の効率化手法も複数登場している。
マルチモーダル・個別化
PersonaVLMがMLLMの長期個別化という新領域を切り開き、Qwen3.5-Omniが数千億パラメータ規模のオムニモーダルモデルでスケーリングの新記録を樹立した。TIPSv2(4 upvotes)はパッチ-テキストアラインメントの改善によりVLプレトレーニングを前進させ、Switch-KD(8 upvotes)はVLMの知識蒸留に視覚スイッチ機構を導入した。Boosting Visual Instruction Tuning(10 upvotes)は自己教師あり学習ガイダンスによるビジュアル推論の改善を提案している。
RAG・検索拡張生成
W-RACがRAGシステムのチャンキング戦略を検索側の要件から再設計する新アプローチを提案。UniDoc-RL(10 upvotes)は粗から細への視覚RAGに階層的アクションと密な報酬を導入し、Don’t Retrieve, Navigate(5 upvotes)はRAGの受動的検索を能動的なコーパスナビゲーションに置き換えるスキル蒸留手法を示した。Skill-RAGは隠れ状態プロービングによる失敗状態認識型の検索拡張を提案している。
LLM安全性・信頼性
Why Fine-Tuning Encourages HallucinationsがSFT起因ハルシネーションのメカニズムを解明し、自己蒸留による緩和策を提示した。LLMs Corrupt Your Documents When You Delegateはフロンティアモデルでさえ長時間委任で文書を破損させることを大規模実証し、LLM委任の信頼性に警鐘を鳴らした。Maximal Brain Damageはデータフリーでのビット反転攻撃の脅威を明らかにし、DNNの構造的脆弱性を浮き彫りにしている。Subliminal Transfer of Unsafe Behaviors in AI Agent Distillationはエージェント蒸留における安全でない行動の暗黙的転移を実証した。
推論メカニズム・解釈可能性
LLM Reasoning Is Latent, Not the Chain of ThoughtがCoTの忠実性に疑問を投げかけ、潜在状態ダイナミクスを推論研究のデフォルト対象とすべきと提言した。The Spectral Geometry of ThoughtはTransformerの隠れ活性化空間におけるスペクトル相転移を発見し、推論の正誤をスペクトル特徴量のみで予測可能(AUC=1.000)であることを示した。Hallucination as Trajectory Commitmentはハルシネーションを非対称アトラクターダイナミクスによる早期軌跡コミットメントとして因果的に実証し、FP16 KVキャッシュの数値的非等価性を示す研究も登場している。
エージェント・ベンチマーク
GTA-2(3 upvotes)がツールエージェントの原子的ツール使用からオープンエンドワークフローまでを階層的に評価するベンチマークを提案し、フロンティアモデルでもワークフロー成功率が14.39%にとどまることを報告。The Amazing Agent RaceはDAG構造のパズルでエージェントのナビゲーション能力を評価し、PolicyBankはLLMエージェントのポリシー理解をインタラクションとフィードバックで自律的に洗練するメモリ機構を提案した。KWBenchはナレッジワークにおける未促起問題認識を評価する新ベンチマークで、最良モデルでも27.9%の通過率にとどまっている。