Perception or Prejudiceが160 upvotesでMLLMの性格知覚能力を体系評価し、TransitLMが167 upvotesで1300万件超の交通経路計画データセットを公開。PhysX-Omniが45 upvotesでリジッド・変形・関節物体を統一的に扱うシミュレーション対応3D生成を実現し、生成モデルの応用領域拡大と評価手法の高度化が同時進展した。
注目論文
TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation
著者: Hanyu Guo, Jiedong Yang, Chao Chen et al.
地図インフラに依存せず公共交通経路を生成するための1300万件超の大規模データセットとベンチマークを提案した研究(167 upvotes)。構造化地図データとルーティングエンジンへの依存を排除する方向性を示している。
新規性: 公共交通経路計画は従来、構造化地図インフラと複雑なルーティングエンジンに依存しており、この依存を回避するモデル訓練用のデータセットは存在しなかった。TransitLMは中国4都市から1300万件超の経路計画記録を収集し、地図フリーの経路生成を可能にする初の大規模データセットを提供した。
手法: 実際の公共交通利用データから出発地・目的地・経路・乗換情報を含む大規模レコードを構築する。言語モデルの系列生成能力を活用し、地図データなしで交通経路を直接生成するベンチマークを設計している。
Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?
著者: Caixin Kang, Tianyu Yan, Sitong Gong et al.
マルチモーダルLLMが行動観察から性格を知覚できるか、それとも第一印象に基づく偏見に留まるかを評価する大規模ベンチマークを構築した研究(160 upvotes)。MLLMの人間理解能力を体系的に検証している。
新規性: MLLMは人間対面の役割に配置されることが増えているが、既存ベンチマークはBig Fiveスコアの数値予測のみを評価し、モデルが行動的手がかりから真に性格を知覚しているかは未検証だった。本研究は数値予測を超え、行動観察に基づく性格知覚能力を多面的に評価する初の枠組みを提供した。
手法: 動画中の行動パターンからBig Five性格特性を評価するタスクを設計し、MLLMが表層的な外見の印象(偏見)に依存するか、行動的証拠に基づく深い知覚ができるかを分離して測定する。既存モデルの性格知覚能力の限界と偏見の構造を明らかにしている。
PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects
著者: Ziang Cao, Yinghao Liu, Haitian Li et al.
リジッド・変形・関節物体を統一的に扱うシミュレーション対応3D資産生成フレームワークを提案した研究(45 upvotes)。物理特性を含む3D生成の包括的アプローチを実現している。
新規性: シミュレーション対応の物理3D資産は下流タスクへの幅広い応用可能性から注目されているが、既存手法は物理特性を無視するか、リジッド・変形・関節のいずれか単一カテゴリに限定されていた。PhysX-Omniは全カテゴリを統一的に扱う初のフレームワークである。
手法: 3Dメッシュ生成と物理パラメータ推定を統合したパイプラインを構築し、物体カテゴリに応じた物理シミュレーション特性(質量、弾性、関節構造等)を自動的に付与する。生成された資産は物理シミュレータで直接使用可能である。
WorldKV: Efficient World Memory with World Retrieval and Compression
著者: Jung Yi, Minjae Kim, Paul Hyunbin Cho et al.
自己回帰ビデオ拡散モデルにおける持続的世界記憶を、検索と圧縮で効率的に実現する手法を提案した研究(32 upvotes)。リアルタイム世界生成における一貫性と効率性の両立を目指している。
新規性: 自己回帰ビデオ拡散モデルはリアルタイムのアクション条件付き世界生成を可能にしたが、以前見た視点を再訪した際に一貫した内容を生成する持続的世界の維持は未解決だった。フルKVキャッシュアテンションは一貫性を保つが推論コストが線形増大する。WorldKVは世界検索と圧縮により、この一貫性と効率性のトレードオフを解消した。
手法: KVキャッシュから関連するフレームの情報を選択的に検索し、圧縮された世界記憶として保持する。現在の生成に関連する過去の視覚情報のみを効率的に参照することで、フルキャッシュの一貫性を維持しつつメモリ使用量を大幅に削減する。
SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers
著者: Javad Rajabi, Kimia Shaban, Koorosh Roohi et al.
Diffusion Transformer(DiT)の訓練解像度を超えた生成を、スペクトル・エネルギー誘導アテンションで実現する訓練不要の手法を提案した研究(31 upvotes)。
新規性: DiTはテキスト画像生成の主要アーキテクチャだが、訓練範囲外の解像度での性能が低下する。既存の訓練不要アプローチはRoPEの修正などでアテンション動作を変更するが、SEGA はスペクトル・エネルギーの観点からアテンションを誘導する新たなアプローチを提案し、より原理的な解像度外挿を実現した。
手法: 推論時にアテンションのスペクトル特性とエネルギー分布を分析し、訓練解像度でのアテンションパターンを高解像度に適切に外挿するガイダンスを設計する。追加訓練なしで高解像度生成の品質を改善する。
SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation
著者: Xiaolong Zhou, Yifei Liu, Ziyang Gong et al.
視覚劣化条件下でのMLLMの空間知能を評価するベンチマークを構築した研究(24 upvotes)。実世界デプロイメントで遭遇する劣化条件への頑健性を体系的に測定している。
新規性: MLLMの空間推論ベンチマークは理想的な視覚入力を前提としており、実世界で一般的なモーションブラー、低照度、悪天候、レンズ歪みなどの劣化を無視していた。SpaceDGは視覚劣化下での空間知能を体系的に評価する初のベンチマークであり、実用的なデプロイメント条件でのMLLMの限界を明らかにした。
手法: 多様な視覚劣化条件(モーションブラー、低照度、悪天候、レンズ歪み等)を制御的に適用した画像セットを構築し、各劣化条件下での空間推論タスクの性能変化を測定する。劣化の種類と程度がMLLMの空間知能に与える影響を定量的に分析している。
Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving
著者: Jiahao Wang, Bo Sun, Yijing Bai et al.
異なるセンサ構成間のデータ変換により自動運転データセットの多様性を拡大する手法を提案した研究(23 upvotes)。
新規性: 自動運転システムの訓練と検証には大規模で多様なデータセットが必要だが、プロプライエタリデータはセンサ構成の多様性・地理的カバレッジ・ロングテール行動の網羅性に限界がある。Sensor2Sensorは異なるセンサ構成(エンボディメント)間のデータ変換を実現し、既存データセットの実質的な拡張を可能にした。
手法: 異なる自動運転車のセンサ構成(カメラ配置、LiDAR仕様等)間でセンサデータを変換するフレームワークを構築する。ソースセンサのデータをターゲットセンサの視点・特性に合わせて変換し、センサ構成に依存しないデータ活用を実現する。
Q-ARVD: Quantizing Autoregressive Video Diffusion Models
著者: Siao Tang, Xinyin Ma, Gongfan Fang et al.
自己回帰ビデオ拡散モデル(ARVD)の量子化による推論効率化を実現した研究(19 upvotes)。ストリーミングビデオ生成の実用化に向けた計算コスト削減を目指している。
新規性: ARVDはストリーミングビデオ生成やリアルタイム対話的ビデオ生成の有望なアーキテクチャだが、推論コストが実用化の障壁となっている。Q-ARVDはARVD特有の自己回帰構造を考慮した量子化手法を初めて提案し、品質を維持しつつ推論効率を大幅に改善した。
手法: 自己回帰ビデオ拡散モデルの特性(フレーム間依存性、拡散ステップの構造)を考慮した量子化戦略を設計する。モデル重みと活性化の精度を適応的に削減し、生成品質への影響を最小化しつつ推論速度とメモリ効率を向上させる。
Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles
著者: Jinyang Wu, Guocheng Zhai, Ruihan Jin et al.
強化学習により複数のLLMとスキルモジュールの階層的なアンサンブルを最適に制御するフレームワークを提案した研究(18 upvotes)。
新規性: 複数のLLMとモジュラースキルを持つエージェントフレームワークは増えているが、既存手法はモノリシックなLLMと固定ロジックでスキルを制御しており、異なるLLMが異なるスキルと組み合わさった際の性能差を活用できていなかった。Maestroは強化学習でモデル・スキルの組み合わせを動的に最適化する。
手法: 複数のLLMとスキルモジュールの組み合わせを階層的なアンサンブルとして定式化し、タスクの特性に応じて最適なモデル・スキルの割り当てを強化学習で学習する。固定的なルーティングではなく、タスクごとに適応的なオーケストレーションを実現している。
Forecasting Downstream Performance of LLMs With Proxy Metrics
著者: Arkil Patel, Siva Reddy, Marius Mosbach et al.
プロキシメトリクスを用いてLLMの下流タスク性能を予測する手法を提案した研究(10 upvotes)。モデル開発における比較意思決定の信頼性を向上させている。
新規性: 言語モデル開発はアーキテクチャ・事前学習コーパス・訓練レシピ等の比較的意思決定の連続だが、信頼性の高い性能予測手段が不足していた。一般的な指標であるperplexityとベンチマークスコアにはそれぞれ根本的な限界がある。本研究はプロキシメトリクスによる性能予測の体系的手法を提案した。
手法: 事前学習時に測定可能なプロキシメトリクスと下流タスク性能の関係を分析し、どのメトリクスがどのタスクの性能を最もよく予測するかを体系的に評価する。モデル開発の早期段階で最終性能を予測するための実用的なガイドラインを提示している。
分野別の動向
マルチモーダル・評価手法
Perception or Prejudice(160 upvotes)がMLLMの性格知覚能力を行動観察と第一印象の偏見に分離して評価し、SpaceDG(24 upvotes)が視覚劣化下の空間知能をベンチマークした。前日のPerception or Prejudiceへの言及に続き、MLLMの能力評価が数値的性能から認知的・知覚的側面へと拡張されている。OmniPro(3 upvotes)はストリーミングビデオのプロアクティブ理解を評価し、“I didn’t Make the Micro Decisions”(3 upvotes)は人間-AI協働における目標レベルのAI貢献度測定を提案した。MLLMの評価軸が多角化し、実世界デプロイメントの条件に即した評価が増加している。
生成モデル・ビデオ拡散
WorldKV(32 upvotes)が自己回帰ビデオ拡散モデルの世界記憶を検索・圧縮で効率化し、Q-ARVD(19 upvotes)が量子化による推論コスト削減を実現した。SEGA(31 upvotes)はDiTの解像度外挿問題にスペクトル・エネルギー誘導で対処し、FlowLong(24 upvotes)はマニフォールド制約付きTweedieマッチングで長時間ビデオ生成を改善した。DecQ(2 upvotes)は表現オートエンコーダの空間情報圧縮を改善した。ビデオ生成における効率化(メモリ・量子化・解像度)と品質(一貫性・長時間化)の両面で研究が活発に進展している。
3D生成・物理シミュレーション
PhysX-Omni(45 upvotes)がリジッド・変形・関節物体を統一的に扱うシミュレーション対応3D生成を実現し、SAM 3D Animal(2 upvotes)が野生環境での複数動物の3D再構成にプロンプタブルなアプローチを導入した。SceneAligner(5 upvotes)は3Dに接地したフロアプラン位置特定を提案した。3D生成が視覚的品質から物理的妥当性・シミュレーション対応へと軸足を移しつつある。
エージェント・自律システム
Maestro(18 upvotes)がモデル・スキルアンサンブルのRL制御を提案し、TerminalWorld(4 upvotes)がターミナル操作の大規模ベンチマークを構築した。Efficient Agentic Reasoning(5 upvotes)は計画の時期と方法を自己調整するシミュレーティブプランニングを提案し、ClinSeekAgent(7 upvotes)は臨床推論における能動的証拠探索を自動化した。前日のπ-BenchやSpreadsheet-RLに続き、エージェント研究はドメイン特化の応用(臨床・ターミナル・スプレッドシート)と制御手法(RL・自己調整)の両面で深化が続いている。
LLM基盤技術・スケーリング
Forecasting Downstream Performance(10 upvotes)がプロキシメトリクスによるLLM性能予測を体系化し、Same Architecture, Different Capacity(2 upvotes)がオプティマイザによるスペクトルスケーリング則を発見した。RiT(9 upvotes)は表現空間でのフローマッチングがバニラDiTで十分であることを示した。前日のFull Attention Strikes BackやGated DeltaNet-2がアーキテクチャ改善に注力したのに対し、今日はモデル設計の理論的理解と予測可能性の向上に焦点が移っている。
自動運転・ロボティクス
Sensor2Sensor(23 upvotes)が異なるセンサ構成間のデータ変換で自動運転データセットの拡張を実現し、AnyMo(2 upvotes)がセンサ配置に依存しない人体動作モデリングを提案した。Minimalist Visual Inertial Odometry(0 upvotes)はわずか4画素での平面オドメトリを実証した。センサ構成の多様性への対応と最小限のセンサでの自律行動が共通テーマとなっている。