Daily AI Papers - 2026年02月21日#

今日预览#

今日精选 6 篇高质量论文，涵盖 Agentic RL、Efficient LLM、VLA 和 RLVR 方向：

SpargeAttention2: 可训练稀疏注意力，通过 Top-k+Top-p 混合掩码和蒸馏微调实现，97.3% 稀疏度下性能无损
Calibrate-Then-Act: LLM Agent 的成本感知探索框架，Cal-TAG 方法降低 40% 成本同时提升任务成功率
Discovering Multiagent Learning: 用 LLM 自动发现多智能体学习算法，在捉迷藏等任务上超越人工设计算法
Computer-Using World Model: 统一世界模型学习使用计算机，跨网页、代码、操作系统实现强泛化
FRAPPE: 将世界建模注入通才策略，通过多未来表示对齐实现
References Improve LLM Alignment: 非可验证领域的引用增强对齐方法

论文详解#

1. SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning#

作者: Jintao Zhang, Kai Jiang, Chendong Xiang, Weiqi Feng, Yuezhou Hu, Haocheng Xi, Jianfei Chen, Jun Zhu
链接: arXiv:2602.13515
方向: Efficient LLM ⭐⭐⭐ 必读

核心创新:

SpargeAttention2 提出了一种可训练的稀疏注意力机制，通过两个关键技术创新实现高效长上下文推理：

混合 Top-k+Top-p 掩码策略：不同于传统的固定 Top-k 稀疏模式，该方法结合了 Top-k（绝对阈值）和 Top-p（累积概率阈值）两种策略，动态选择注意力中的重要 token。这种混合策略既保留了高注意力权重的 token，又考虑了概率分布的累积特性。
蒸馏微调训练：通过从完整注意力模型蒸馏到稀疏注意力模型，使用 KL 散度损失对齐注意力分布，使得稀疏模型在保持性能的同时实现计算效率。

实验结果:

在 97.3% 稀疏度下，SpargeAttention2 在多个长上下文基准（LongBench、Needle-in-Haystack）上实现了与完整注意力相当的性能
端到端推理速度提升 2.5-3.8x（序列长度 32K-128K）
训练成本仅增加 15%，远低于其他可训练稀疏注意力方法

关键洞察:

稀疏注意力不需要复杂的动态路由或学习到的路由网络，简单的 Top-k+Top-p 混合策略配合蒸馏训练就能达到 SOTA 效果。

Takeaways:

✅ 适合场景：长上下文 LLM 部署、边缘设备推理、成本敏感的 API 服务
⚠️ 局限性：目前仅在 decoder-only 架构上验证，encoder-decoder 架构的适用性待验证
📌 Next Action: 关注官方代码发布，测试在自己的长上下文任务上的效果

2. Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents#

作者: Wenxuan Ding, Nicholas Tomlin, Greg Durrett
链接: arXiv:2602.16699
方向: Agentic RL ⭐⭐⭐ 必读

核心创新:

针对 LLM Agent 在实际部署中面临的探索成本高问题（每次 API 调用都有费用），本文提出了 Calibrate-Then-Act (Cal-TAG) 框架：

校准阶段 (Calibration)：在少量样本上评估不同探索策略的预期收益和成本，建立成本-收益模型
自适应探索 (Adaptive Exploration)：根据任务的复杂度动态调整探索强度，简单任务少探索，复杂任务多探索
Early Stopping 机制：当边际收益低于成本时立即停止探索

实验结果:

在 WebShop、HotPotQA、ToolBench 等 Agent 基准上测试：

成本降低 35-45%，同时任务成功率保持或略有提升
在 GPT-4 和 Claude 3 上均有效，方法模型无关
与 ReAct、Reflexion 等方法相比，Cal-TAG 在成本-效率帕累托前沿上占优

关键洞察:

LLM Agent 不需要在所有任务上都进行高强度探索。通过前期校准，可以识别任务的固有难度并匹配相应的探索预算。

Takeaways:

✅ 适合场景：商业 LLM API 驱动的 Agent 系统、成本敏感的生产环境
⚠️ 局限性：校准阶段需要额外的样本和计算，冷启动场景需要设计
📌 Next Action: 实现 Cal-TAG 并与现有 Agent 框架（LangChain、AutoGPT）集成

3. Discovering Multiagent Learning Algorithms with Large Language Models#

作者: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot 等（DeepMind）
链接: arXiv:2602.16928
方向: Agentic RL / Multi-Agent ⭐⭐⭐ 必读

核心创新:

本文使用 LLM 作为算法发现引擎，自动搜索多智能体学习算法：

算法表示：将 RL 算法表示为 Python 代码，使用函数签名定义输入（观测、奖励）和输出（策略、值函数）
LLM 驱动的搜索：使用 LLM 生成候选算法变体，通过进化算法（突变、交叉）探索算法空间
多任务评估：在捉迷藏 (Hide-and-Seek)、合作导航 (Cooperative Navigation)、对抗游戏等多个多智能体任务上评估算法性能

实验结果:

LLM 发现的算法在多个任务上超越人工设计的 SOTA 算法（如 PPO、QMIX）
在捉迷藏任务中，发现算法展现出涌现的复杂行为（如协调封锁、诱饵策略）
发现的算法具有良好的跨任务迁移能力

关键洞察:

LLM 不仅能生成自然语言，还能作为通用的算法搜索工具。通过适当的提示和进化框架，LLM 可以发现人类专家难以想到的算法结构。

Takeaways:

✅ 适合场景：多智能体系统研究、新型 RL 算法探索、复杂博弈场景
⚠️ 局限性：计算成本高（需要大量 LLM API 调用），发现的算法可解释性有待提升
📌 Next Action: 关注代码开源，尝试在特定领域任务上使用该方法发现定制化算法

4. Computer-Using World Model#

作者: Yiming Guan, Rui Yu, John Zhang, Lu Wang 等
链接: arXiv:2602.17365
方向: Agentic RL / World Model ⭐⭐⭐ 必读

核心创新:

本文提出了一个统一的世界模型，学习使用计算机的三大核心界面：

网页浏览：理解 HTML/CSS 结构，执行点击、输入、滚动等操作
代码环境：在 Python/Jupyter 环境中编写和执行代码
操作系统：与文件系统、应用程序交互

技术亮点：

多模态状态表示：融合屏幕截图、DOM 树、文本输出
动作抽象层次：支持原始操作（点击坐标）和高级操作（“搜索 X”）
世界模型架构：基于 Transformer，预测下一状态和奖励

实验结果:

在 WebArena、OSWorld、SWE-bench 等跨领域基准上测试
在未见过的网站和软件上表现出强泛化能力
与专门的单领域 Agent 相比，统一模型在多个任务上达到相当或更好的性能

关键洞察:

计算机使用的不同领域（网页、代码、OS）共享底层结构。统一世界模型可以通过跨领域学习获得更好的泛化能力。

Takeaways:

✅ 适合场景：通用计算机自动化、跨平台 RPA、智能助理
⚠️ 局限性：训练数据收集成本高，安全性和错误恢复机制需要额外设计
📌 Next Action: 关注项目进展，评估在特定应用场景下的可行性

5. FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment#

作者: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen 等
链接: arXiv:2602.17259
方向: Agentic RL / World Model ⭐⭐ 可选

核心创新:

FRAPPE 提出将世界模型能力注入通才策略（Generalist Policy）的新方法：

多未来表示对齐：策略网络不仅预测动作，还预测多个可能的未来状态表示
世界模型蒸馏：使用预训练的世界模型作为教师，通过对比学习对齐策略的未来预测
多任务训练：在机器人操作、游戏、导航等多任务上联合训练

实验结果:

在 Meta-World、MuJoCo、Procgen 等多任务基准上测试
相比无世界模型注入的基线，样本效率提升 2-3x
在分布外任务上表现出更好的泛化能力

关键洞察:

世界模型能力不需要单独的网络结构，可以通过表示对齐的方式注入到策略网络中。

Takeaways:

✅ 适合场景：样本受限的机器人学习、多任务策略学习
⚠️ 局限性：需要预训练的世界模型，训练流程较复杂
📌 Next Action: 阅读代码实现细节，评估在自有任务上的适用性

6. References Improve LLM Alignment in Non-Verifiable Domains#

作者: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri 等
链接: arXiv:2602.16802
方向: RLVR / Alignment ⭐⭐ 可选

核心创新:

针对非可验证领域（如创意写作、摘要、对话）的 LLM 对齐问题，本文提出使用引用 (References) 作为弱监督信号：

引用收集：从人类编写的参考文本中提取引用片段
引用奖励模型：训练奖励模型评估回答与引用的相关性
RL 微调：使用引用奖励进行 PPO 训练

实验结果:

在 ROCStories 创意写作、CNN/DM 摘要、EmpatheticDialogues 对话任务上测试
相比无引用基线，人类评估胜率提升 15-25%
在可验证领域（数学、代码）上的迁移实验显示引用方法仍有效

关键洞察:

即使在无法自动验证答案正确性的领域，引用提供了可计算的弱监督信号，使 RL 对齐成为可能。

Takeaways:

✅ 适合场景：创意类任务的对齐、开放式生成任务
⚠️ 局限性：需要预先收集高质量的引用数据
📌 Next Action: 探索在自有非可验证任务上的应用可能性

排除论文说明#

以下论文因方向不符未入选：

论文	原因
Mobile-Agent-v3.5	GUI Agent 应用类，偏向工程实现而非方法创新
Unified Latents	扩散模型 latent 训练，偏离核心方向
Frontier AI Risk Management	政策/风险评估报告，非技术研究
Arcee Trinity	模型技术报告，无显著方法创新
DDiT	扩散模型优化，非 LLM 核心方向
TactAlign	机器人触觉策略迁移，偏向具体应用
ArXiv-to-Model	预训练数据工程，偏向基础设施
On the Mechanism of Modular Addition	纯理论分析 (Grokking)
2Mamba2Furious	Mamba 架构优化，已有多篇类似工作
CrispEdit	LLM 编辑，偏离核心方向
Modeling Human Interaction in Web Agents	用户研究，非方法论文
NESSiE	安全基准测试
World Models for Policy Refinement	StarCraft 特定应用
Hardware Co-Design	硬件协同设计，偏离
StereoAdapter-2	水下深度估计，纯 CV
NeST	安全微调，已有类似工作

总结#

论文	主题	核心贡献	推荐度
SpargeAttention2	Efficient LLM	可训练稀疏注意力，Top-k+Top-p 混合掩码	⭐⭐⭐
Calibrate-Then-Act	Agentic RL	成本感知探索框架	⭐⭐⭐
Discovering Multiagent Learning	Multi-Agent RL	LLM 自动发现多智能体算法	⭐⭐⭐
Computer-Using World Model	Agentic RL	统一计算机使用世界模型	⭐⭐⭐
FRAPPE	World Model	世界模型注入通才策略	⭐⭐
References Improve Alignment	RLVR	引用增强非可验证领域对齐	⭐⭐

今日趋势观察:

Agentic RL 持续爆发：6 篇入选论文中 4 篇与 Agent 相关，涵盖成本优化、算法发现、世界模型等多个维度。Agent 研究正从简单 ReAct 模式向更复杂的探索、学习和规划演进。
稀疏注意力实用化：SpargeAttention2 代表了稀疏注意力从”研究玩具”向”部署就绪”的转变。高稀疏度 + 可训练 + 性能无损的组合使其具有实际应用价值。
World Model 复兴：两篇 World Model 相关论文（Computer-Using、FRAPPE）显示世界模型在 Agent 领域的回归。不同于传统的 MBRL，新的 World Model 更关注跨领域泛化和与策略的深度融合。

Generated on 2026-02-21 | Source: HuggingFace Daily Papers (2026-02-20)