Daily AI Papers - 2026年3月2日#

今日预览#

今日亮点包括：CUDA Agent 通过大规模 Agentic RL 实现高性能 CUDA 内核生成，在 KernelBench 上超越 torch.compile 高达 100%；SCOPE 框架通过细粒度 off-policy 修正提升 RLVR 的探索效率；LoRA-Pre 以低秩近似重构优化器状态，显著降低内存开销；以及 Memory Caching 技术让 RNN 拥有随序列增长的记忆容量。

论文详解#

1. CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation#

作者: Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou 等
链接: arXiv:2602.24286
方向: AI Infra / Agentic RL

核心创新: GPU kernel 优化是深度学习的基础，但需要深厚的硬件专业知识。CUDA Agent 是一个大规模 Agentic 强化学习系统，通过三个核心组件发展 CUDA 内核专业能力：(1) 可扩展的数据合成流水线；(2) 技能增强的 CUDA 开发环境，包含自动验证和性能分析以提供可靠的奖励信号；(3) 支持稳定训练的强化学习算法技术。该系统通过 RL 训练使模型获得内在的 CUDA 优化能力，而非仅依赖固定的多轮执行反馈循环。

实验结果: 在 KernelBench 上达到 SOTA 性能，相比 torch.compile 的加速率：Level-1 100%、Level-2 100%、Level-3 92%。在最困难的 Level-3 设置上，比 Claude Opus 4.5 和 Gemini 3 Pro 等最强专有模型高出约 40%。

2. Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation#

作者: Zhengbo Wang 等
链接: arXiv:2602.24283 | 代码
方向: Efficient LLM / 优化器

核心创新: 现代优化器如 Adam 和 Muon 依赖一阶和二阶动量，但引入了显著的内存开销。本文将指数移动平均（EMA）重新构建为通过在线梯度流训练线性回归的过程，基于此提出了 LoRA-Pre——一种用于高效预训练的新型低秩优化器。LoRA-Pre 通过将完整动量矩阵分解为在线线性学习器中的紧凑低秩子空间，在保持优化性能的同时降低内存占用。

实验结果: 在 60M 到 1B 参数的 Llama 架构模型预训练中，LoRA-Pre 在所有模型尺寸上均达到最高性能。仅需 baseline 方法 1/8 的 rank 即可达到相当或更优的结果。在微调场景中，LoRA-Pre 在 Llama-3.1-8B 上比标准 LoRA 提升 3.14 分，在 Llama-2-7B 上提升 6.17 分。

3. Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance#

作者: Yanwei Ren 等
链接: arXiv:2602.24110
方向: RLVR / Reasoning

核心创新: 强化学习 from 可验证奖励（RLVR）在提升大型推理模型能力方面表现出色，但标准的结果监督存在关键局限：对大部分正确但因少数错误步骤而失败的轨迹，与完全错误的轨迹给予同样严厉的惩罚。这种粗粒度反馈导致模型丢弃有价值的大部分正确 rollouts，降低多样性并过早缩小探索空间。本文提出 SCOPE（Step-wise Correction for On-Policy Exploration）框架，利用 Process Reward Models 精确定位次优 rollout 中的第一个错误步骤，并应用细粒度的 off-policy 修正。

实验结果: SCOPE 将多样性分数提升 13.5%，维持广泛的探索空间。在数学推理上达到 46.6% 的平均准确率（SOTA），在分布外推理任务上达到 53.4% 的准确率，展现出强大的泛化能力。

4. DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science#

作者: Fan Shu 等
链接: arXiv:2602.24288
方向: Benchmark / Agentic / Data Science

核心创新: 针对使用 LLM 处理复杂多步数据科学任务的基准测试需求，DARE-bench 填补了现有基准的两个主要空白：(1) 缺乏标准化的、过程感知的评估来捕捉指令遵循和过程保真度；(2) 准确标注的训练数据稀缺。与依赖人工或模型评判的基准不同，DARE-bench 的所有任务都有可验证的 ground truth，确保客观和可复现的评估。包含 6,300 个 Kaggle 衍生任务，同时提供大规模训练数据和评估集。

实验结果: 即使是 gpt-o4-mini 等高性能模型在机器学习建模任务上也难以取得良好表现。使用 DARE-bench 训练任务进行微调可显著提升模型性能：监督微调使 Qwen3-32B 准确率提升 1.83 倍，强化学习使 Qwen3-4B 准确率提升超过 8 倍。

5. Memory Caching: RNNs with Growing Memory#

作者: Ali Behrouz 等
链接: arXiv:2602.24281
方向: Efficient LLM / RNN

核心创新: Transformer 凭借其随上下文长度增长的记忆容量成为序列建模的主流架构，但这也带来了二次复杂度。近期研究探索了次二次复杂度的循环架构替代方案，但这些架构在记忆密集型任务中表现不佳，通常归因于其固定大小的记忆。本文提出 Memory Caching（MC）技术，通过缓存记忆状态（隐藏状态）的 checkpoints 来增强循环模型，使 RNN 的有效记忆容量能够随序列长度增长，在固定记忆（O(L)）和增长记忆（O(L²)）之间提供灵活的权衡。

实验结果: 在语言建模和长上下文理解任务上的实验表明 MC 能够增强循环模型的性能。在上下文回忆任务中，虽然 Transformer 达到最佳准确率，但 MC 变体展现出有竞争力的性能，缩小了与 Transformer 的差距，并优于 SOTA 循环模型。

6. LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics#

作者: Amaury Hayat 等
链接: arXiv:2602.24173
方向: Benchmark / Reasoning / Mathematics

核心创新: 现有数学基准主要依赖静态的竞赛或教科书风格题目作为数学研究的代理。LemmaBench 建立了一个可更新的基准，直接在最新数学研究成果上评估模型。通过自动流水线从 arXiv 提取引理并重写为自包含的陈述，使所有假设和所需定义明确化。该基准可定期用人类数学研究的最新问题更新，而之前的实例可用于训练而不影响未来评估。

实验结果: 当前 SOTA LLM 在定理证明上的准确率（pass@1）约为 10-15%，显示出 LLM 在研究场景中达到人类水平证明能力仍有很大提升空间。

总结#

论文	主题	核心贡献
CUDA Agent	AI Infra / Agentic RL	大规模 Agentic RL 系统生成高性能 CUDA 内核，KernelBench SOTA
Taming Momentum	Efficient LLM	低秩优化器 LoRA-Pre，1/8 rank 达到 SOTA 性能
Recycling Failures	RLVR / Reasoning	SCOPE 框架通过细粒度修正提升 RLVR 探索效率
DARE-bench	Benchmark	数据科学任务基准，6300 个 Kaggle 任务，可验证 ground truth
Memory Caching	Efficient LLM	RNN 记忆缓存技术，实现随序列增长的记忆容量
LemmaBench	Benchmark	研究级数学基准，直接从 arXiv 提取最新引理

今日趋势观察:

Agentic RL 在系统优化领域崛起：CUDA Agent 展示了 Agentic RL 在底层系统优化（CUDA 内核生成）的巨大潜力，相比传统编译器实现显著性能提升。
RLVR 探索效率成为关键问题：SCOPE 和 DARE-bench 都关注到 RLVR 中探索空间收窄的问题，细粒度反馈和高质量训练数据成为提升方向。
低秩方法持续渗透优化领域：从 LoRA 适配到优化器状态压缩（LoRA-Pre），低秩近似成为提升效率的核心技术范式。