Table of Contents
🔥 最值得关注的新作
1. Q-learning with Adjoint Matching (QAM) ⭐
核心: 解决连续动作 RL 中扩散/流匹配策略的高效优化问题
创新: 利用 critic 的一阶信息进行策略优化,为复杂的连续控制任务提供了新的优化范式。
链接: arXiv:2601.14234
2. RoboReward: General-Purpose Vision-Language Reward Models
核心: 用 VLM 作为机器人任务的通用奖励模型
意义: 解决手工设计奖励函数的问题,实现真实机器人任务的自动奖励生成。这是朝着自主机器人系统迈出的重要一步。
链接: arXiv:2601.00675
3. SteerVLA: Steering VLA Models in Long-Tail Driving
核心: 让 VLA 模型处理长尾驾驶场景
创新: 结合高层语义推理与底层反应控制,解决了自动驾驶中罕见但关键的场景处理问题。
链接: arXiv:2602.08440
🤖 Agentic RL / VLA 方向
4. Emergence of Human to Robot Transfer in VLA Models
从人类视频中学习并迁移到机器人策略,大幅降低了机器人学习的数据收集成本。
链接: arXiv:2512.22414
5. Natural Language Actor-Critic: Scalable Off-Policy Learning
在语言空间中进行离策略学习的 Actor-Critic 方法,为 LLM Agent 的训练提供了新思路。
链接: arXiv:2512.04601
6. Training-Time Action Conditioning for Real-Time Chunking
降低 VLA 模型推理延迟的方法,对实际部署至关重要。
链接: arXiv:2512.05964
7. Beyond Sight: Multi-Sensory Robot Policies
融合视觉、触觉、音频的多模态机器人策略,在视觉受阻时依靠其他感官继续执行任务。
链接: arXiv:2501.04693
🧠 Reasoning & Test-Time Compute
8. Zero-Overhead Introspection for Adaptive Test-Time Compute
LLM 自我反思能力,预测成功概率和所需计算量,让模型学会”何时停止思考”。
链接: arXiv:2512.01457
9. Scaling Test-Time Compute Without Verification or RL is Suboptimal
分析了 test-time scaling 的两种方法:蒸馏 vs RL + verification,发现后者更有效。
链接: arXiv:2502.12118
📊 RL 理论与算法
10. SFT Memorizes, RL Generalizes ⭐
核心发现: SFT 导致记忆,RL 带来泛化
实验: 在文本规则变体和视觉变体上对比研究,发现 RL 训练能让模型真正理解任务而非死记硬背。
网站: https://tianzhechu.com/SFTvsRL
链接: arXiv:2501.17161
11. Posterior Behavioral Cloning
预训练 BC 策略以高效进行 RL 微调,结合了两者的优势。
链接: arXiv:2512.16911
12. Value-Based Deep RL Scales Predictably (ICML 2025)
证明 value-based 离线 RL 方法具有良好的可预测扩展性,打破了”RL 不稳定”的刻板印象。
链接: arXiv:2502.04327
13. Flow Q-Learning (ICML 2025)
基于流匹配的离线 RL 方法,使用 expressive flow-matching policy 建模复杂动作分布。
链接: arXiv:2502.02538
🔧 系统与评估
14. PolaRiS: Scalable Real-to-Sim Evaluations
真实到仿真的可扩展评估框架,解决机器人策略评估的可重复性问题。
网站: https://polaris-evals.github.io/
链接: arXiv:2512.16881
15. Digi-Q: Learning Q-Functions for Device-Control Agents
ICLR 2025,用于设备控制智能体的 Q 学习,拓展了 RL 的应用边界。
链接: arXiv:2502.15760
📈 趋势总结
- VLA + RL: 大量工作聚焦 Vision-Language-Action 模型的 RL 微调
- Test-Time Compute: 推理时计算优化成为热点
- Real-World Robotics: 从仿真走向真实机器人应用
- Reward Design: 自动化奖励设计(VLM as reward model)
- Theory: 关注 RL 的泛化 vs 记忆问题
调研完成于 2026-02-15 by Amy