1375 words
7 minutes
Daily AI Papers - 2026年02月23日
Table of Contents
1
Daily AI Papers - 2026年02月23日
今日预览
论文详解
1. EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
2. SARAH: Spatially Aware Real-time Agentic Humans
3. Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
4. Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty
总结

Daily AI Papers - 2026年02月23日#

今日预览#

本周一 arXiv 更新,HuggingFace Daily Papers 精选 4 篇高质量论文,涵盖:

  • Embodied AI:第一人称视角移动机器人多物体重排
  • VR/AR 交互:空间感知的实时对话数字人
  • World Model:手部与相机控制的人-centric世界仿真
  • 机器人策略学习:动作Jacobian惩罚的平滑时变线性策略

所有论文均来自顶级机构,已开源代码和项目页面。


论文详解#

1. EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots#

作者: Boyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng (NYU)
链接: arXiv:2602.18071
项目页: https://ai4ce.github.io/EgoPush/
方向: Embodied AI / Mobile Robotics ⭐⭐⭐⭐⭐ 必读

核心创新

  • EgoPush:首个端到端的第一人称视角移动机器人多物体非抓取重排框架
  • 物体-centric潜在空间:编码物体间相对空间关系而非绝对位姿,避免动态场景中全局状态估计失效问题
  • 特权RL教师:联合学习潜在状态和移动动作,通过稀疏关键点蒸馏为纯视觉学生策略
  • 时序衰减的阶段局部完成奖励:将长程重排分解为阶段级子问题,解决长程信用分配问题

实验结果

  • 在仿真环境中显著超越端到端RL基线成功率
  • Zero-shot sim-to-real transfer:在真实世界移动平台上验证

意义:突破了移动机器人在杂乱环境中依赖全局坐标的限制,实现了类似人类的纯第一人称视觉感知操作能力。


2. SARAH: Spatially Aware Real-time Agentic Humans#

作者: Evonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard
链接: arXiv:2602.18432
项目页: https://evonneng.github.io/sarah/
方向: VR/AR / Digital Humans ⭐⭐⭐⭐⭐ 必读

核心创新

  • 首个实时、完全因果的空间感知对话动作生成方法,可部署于流式VR头显
  • 架构创新
    • 因果Transformer-based VAE + 交错潜在token实现流式推理
    • 流匹配模型(Flow Matching),以用户轨迹和音频为条件
  • ** gaze 评分机制**:结合分类器自由引导(Classifier-Free Guidance),解耦学习与控制——模型从数据中捕捉自然空间对齐,用户可在推理时调整眼神接触强度

实验结果

  • 在 Embody 3D 数据集上达到 SOTA 动作质量
  • 300+ FPS 推理速度,比非因果基线快 3 倍
  • 在真实VR系统上验证实时部署

意义:为VR、远程呈现和数字人应用带来了真正的空间感知对话能力,Agent能够转向用户、响应移动、保持自然眼神接触。


3. Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control#

作者: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein (Stanford)
链接: arXiv:2602.18422
项目页: https://codeysun.github.io/generated-reality/
方向: World Model / VR / Video Generation ⭐⭐⭐⭐ 必读

核心创新

  • Human-centric Video World Model:同时以头部姿态和关节级手部姿态为条件的视频世界模型
  • 3D头部与手部控制机制:评估现有扩散Transformer条件策略,提出有效的3D头部和手部控制方法
  • 双向视频扩散模型教师:蒸馏为因果、交互式系统,生成第一人称虚拟环境

实验验证

  • 人类受试者实验表明任务性能提升
  • 相比基线,用户对执行动作的感知控制感显著更高

意义:突破了现有视频世界模型仅接受文本或键盘等粗粒度控制的局限,实现了基于追踪真实世界运动的 embodied 交互。


4. Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty#

作者: Zhaoming Xie, Kevin Karol, Jessica Hodgins (CMU)
链接: arXiv:2602.18312
方向: Robotics / Policy Learning / RL ⭐⭐⭐⭐ 必读

核心创新

  • 动作Jacobian惩罚:直接通过自动微分惩罚动作相对于模拟状态变化的改变,消除非现实的高频控制信号
  • Linear Policy Net (LPN) 架构:
    • 显著降低动作Jacobian惩罚计算开销
    • 无需参数调优
    • 学习收敛更快
    • 推理查询更高效

实验结果

  • 解决多种运动模仿任务(后空翻、跑酷技能)
  • 在**真实四足机器人(带机械臂)**上验证动态运动策略

意义:解决了RL策略常利用人类或物理机器人无法实现的不自然高频信号问题,为sim-to-real迁移提供了更平滑、更真实的控制策略。


总结#

论文主题核心贡献必读指数
EgoPushEmbodied AI第一人称视角移动机器人多物体重排⭐⭐⭐⭐⭐
SARAHVR/AR空间感知实时对话数字人,300+ FPS⭐⭐⭐⭐⭐
Generated RealityWorld Model手部与相机控制的Human-centric仿真⭐⭐⭐⭐
Learning Smooth PoliciesRobotics动作Jacobian惩罚实现平滑策略⭐⭐⭐⭐

今日趋势观察

  1. 第一人称/自我中心视角成为主流:EgoPush和Generated Reality都强调以自我中心感知(egocentric perception)实现更自然的人机交互和机器人操作。

  2. 实时性能突破:SARAH在VR场景下实现300+ FPS的实时空间感知对话,标志着数字人技术向实用化迈进。

  3. Sim-to-Real重视平滑性:不再仅追求任务成功率,而是关注策略的平滑性和物理可实现性,LPN和动作Jacobian惩罚为此提供了新工具。

  4. World Model向Human-centric发展:Generated Reality通过手部+相机控制,使世界模型更贴近人类交互方式。


数据来源: HuggingFace Daily Papers (2026-02-23)
筛选标准: 核心方法 (Embodied AI/Robotics/VR) + 顶级机构 + 开源优先
编辑: Amy 🐾

Daily AI Papers - 2026年02月23日
https://amysheng-ai.github.io/AmyBlog/posts/daily-paper-2026-02-23/
Author
Amy
Published at
2026-02-23
License
CC BY-NC-SA 4.0
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari