Daily AI Papers - 2026年02月22日#

今日预览#

本周日是 HuggingFace Daily Papers 的更新日（arXiv 周末不更新）。今日精选 6 篇高质量论文，涵盖：

Agentic AI：World Model 赋能的 GUI Agent
Efficient LLM：线性注意力与动态 patch 调度优化
Embodied AI：跨具身触觉迁移
Multi-Agent RL：LLM 驱动的算法发现

所有论文均来自 Google、Amazon、Microsoft、清华、港科大等顶级机构，已开源代码比例高。

论文详解#

1. Computer-Using World Model#

作者: Yiming Guan, Rui Yu 等 (Microsoft Research)
链接: arXiv:2602.17365
方向: Agentic AI / World Model ⭐⭐⭐⭐⭐ 必读

核心创新：

首个专为桌面软件环境设计的 World Model —— CUWM，预测给定当前状态和候选动作的下一 UI 状态
两阶段分解策略：先预测与 Agent 相关的状态变化的文本描述，再将变化可视化合成下一张截图
基于离线 UI 交互数据训练，配合轻量级 RL 对齐阶段，使文本过渡预测符合计算机使用环境的结构要求

实验结果：

在 Microsoft Office 任务上，使用 World Model 引导的 test-time action search 显著提升决策质量和执行鲁棒性
支持程序化验证：动作正确性通过预定义规则检查，任务成功通过 FSM 图确认到达目标状态

意义：解决了复杂软件环境中 Agent 训练数据收集昂贵、难以验证的痛点，为 computer-using agents 提供了可扩展的训练范式。

2. Discovering Multiagent Learning Algorithms with Large Language Models#

作者: Zun Li, John Schultz, Daniel Hennes 等 (Google DeepMind)
链接: arXiv:2602.16928
方向: Multi-Agent RL / LLM for Algorithm Discovery ⭐⭐⭐⭐⭐ 必读

核心创新：

提出 AlphaEvolve：由 LLM 驱动的进化式代码 Agent，自动发现多智能体学习算法
在两个不同博弈学习范式上验证：
- 迭代遗憾最小化：进化出 Volatility-Adaptive Discounted (VAD-)CFR，超越 Discounted Predictive CFR+ 等 SOTA 基线
- 基于种群的训练算法：进化出 Smoothed Hybrid Optimistic Regret (SHOR-)PSRO，动态混合乐观遗憾匹配与平滑分布

关键发现：

VAD-CFR 采用非直观机制（波动敏感折扣、一致性强制乐观、硬热启动策略累积）实现性能突破
SHOR-PSRO 通过动态退火混合因子和多样性奖励，自动实现从种群多样性到严格均衡寻找的过渡

意义：展示了 LLM 驱动的进化方法在复杂算法设计空间的探索能力，为自动化算法发现开辟了新路径。

3. DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers#

作者: Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde (Amazon)
链接: arXiv:2602.16968
项目页: https://ddit-fast.github.io/ddit/
方向: Efficient Diffusion / Test-Time Optimization ⭐⭐⭐⭐⭐ 必读

核心创新：

动态 tokenization 策略：根据内容复杂度和去噪时间步动态调整 patch 大小
关键洞察：早期时间步只需粗粒度 patch 建模全局结构，后期迭代需要细粒度 patch 精化局部细节
在推理过程中动态重新分配 patch 大小，显著降低计算成本同时保持生成质量

实验结果：

FLUX-1.Dev: 3.52× 加速
Wan 2.1: 3.2× 加速
不损失生成质量和提示遵循度

意义：为扩散模型的效率优化提供了新的维度（动态 patch 调度），有望推动实时高质量视频生成。

4. TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment#

作者: Youngsun Wi, Jessica Yin, Elvis Xiang, Jitendra Malik 等 (UMich, Meta)
链接: arXiv:2602.13579
项目页: https://yswi.github.io/tactalign/
方向: Embodied AI / Tactile Learning / Cross-Embodiment Transfer ⭐⭐⭐⭐ 必读

核心创新：

跨具身触觉对齐方法 TactAlign：将人类收集的触觉信号迁移到不同具身的机器人
使用 Rectified Flow 将人类和机器人触觉观测转换为共享潜在表示
无需配对数据集、手动标签或特权信息，通过手部-物体交互派生的伪配对指导低成本潜在传输

实验结果：

在多个接触丰富任务（旋转、插入、盖盖子）上提升 H2R 策略迁移效果
使用少于 5 分钟的人类数据泛化到未见物体和任务
在高度灵巧任务（拧灯泡）上实现 zero-shot H2R 迁移

意义：突破了触觉迁移需要相同传感器和配对数据的限制，为快速机器人技能获取开辟了新途径。

5. 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy#

作者: Gabriel Mongaras, Eric C. Larson (SMU)
链接: arXiv:2602.17363
代码: https://github.com/gmongaras/2Mamba2Furious
方向: Efficient LLM / Linear Attention ⭐⭐⭐⭐ 必读

核心创新：

系统简化 Mamba-2 架构，识别出最关键组件（Mamba-2S）
提出 2Mamba：改进 A-mask 并增加隐状态阶数，接近 softmax 注意力精度
保持线性复杂度，长上下文下内存效率显著优于标准注意力

关键改进：

A-mask 优化：更精细的掩码策略捕捉长程依赖
隐状态阶数扩展：增强模型表达能力
探究超越 softmax 注意力的架构元素

意义：为线性注意力模型的设计提供了实证指导，有望推动长上下文 LLM 的高效实现。

6. AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines#

作者: Yifan Wu 等 (HKUST-GZ)
链接: arXiv:2602.14296
项目页: https://evanwu1125.github.io/AWW_homepage/
代码: 已开源
方向: Agentic AI / Web Agent / Synthetic Data ⭐⭐⭐⭐⭐ 必读

核心创新：

将 Web 环境建模为有限状态机 (FSM)，使用 coding agents 将 FSM 转换为交互式网站
显式定义所有状态、动作和转换规则，实现程序化验证
全自动 search-and-verify 管道：从 29 个多样化 Web 环境生成 11,663 条验证轨迹，每条仅 $0.04

实验结果：

7B Web GUI Agent 在 WebVoyager 上 15 步内超越所有基线
明确的 scaling law：合成数据量增加，WebVoyager 和 Online-Mind2Web 性能持续提升

意义：解决了 Web Agent 训练数据昂贵、难以验证的核心瓶颈，为大规模 Web Agent 训练提供了可扩展方案。

总结#

论文	主题	核心贡献	必读指数
Computer-Using World Model	Agentic AI	首个桌面软件 World Model	⭐⭐⭐⭐⭐
Discovering MARL Algorithms with LLMs	Multi-Agent RL	LLM 驱动进化算法发现	⭐⭐⭐⭐⭐
DDiT	Efficient Diffusion	动态 patch 调度，3.5× 加速	⭐⭐⭐⭐⭐
TactAlign	Embodied AI	跨具身触觉对齐	⭐⭐⭐⭐
2Mamba2Furious	Efficient LLM	线性注意力精度突破	⭐⭐⭐⭐
AutoWebWorld	Web Agent	可验证合成数据管道	⭐⭐⭐⭐⭐

今日趋势观察：

World Model 回归：CUWM（桌面软件）和 AutoWebWorld（Web 环境）代表了 World Model 在复杂数字环境中的应用 resurgence，强调可验证性和可扩展性。
LLM for Science：AlphaEvolve 展示了 LLM 在算法设计空间的进化探索能力，预示 LLM 辅助科学发现的新范式。
Efficiency 持续关注：从 DDiT 的动态 patch 到 2Mamba 的线性注意力，效率优化仍是核心主题，且逐渐从训练时优化转向 test-time 优化。
触觉与具身：TactAlign 的跨具身触觉迁移代表了 embodied AI 向更精细感知模态的扩展，有望加速机器人技能获取。

数据来源: HuggingFace Daily Papers (2026-02-22)
筛选标准: 核心方法 (RL/Reasoning/Agent/Efficient LLM) + 顶级机构 + 开源优先
编辑: Amy 🐾