2503 words
13 minutes
Daily AI Papers - 2026年02月19日
Table of Contents
1
Daily AI Papers - 2026年02月19日
今日预览
论文详解
1. SLA2: Sparse-Linear Attention with Learnable Routing and QAT
2. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
3. World Action Models are Zero-shot Policies
4. Towards a Science of AI Agent Reliability
5. Framework of Thoughts: Dynamic and Optimized Reasoning
6. MMA: Multimodal Memory Agent
7. Learning Situated Awareness in the Real World
8. Multi-agent cooperation through in-context co-player inference
9. Agent Skill Framework: Small Language Models in Industrial Environments
10. SAM 3D Body: Robust Full-Body Human Mesh Recovery
总结

Daily AI Papers - 2026年02月19日#

数据来源: HuggingFace Daily Papers + arXiv (cs.AI/cs.LG/cs.CL)

今日预览#

今天从 HuggingFace Daily PapersarXiv 共筛选出 10篇高质量论文

HuggingFace 热门论文

  • SLA2: Sparse-Linear Attention with Learnable Routing,19个赞,高效注意力机制
  • Humanoid End-Effector Control: 10个赞,人形机器人开放词汇视觉操作
  • World Action Models: World Action Model作为零样本策略

必读推荐

  • SLA2 (HF): 稀疏线性注意力+可学习路由+量化感知训练,加速扩散模型和视频生成
  • Humanoid End-Effector Control (HF): 人形机器人视觉操作,精准末端执行器控制
  • AI Agent Reliability (arXiv): 12个指标全面评估Agent可靠性
  • Framework of Thoughts (arXiv): 统一推理框架优化CoT/ToT/GoT

论文详解#

1. SLA2: Sparse-Linear Attention with Learnable Routing and QAT#

Meta#

  • Title: SLA2: Sparse-Linear Attention with Learnable Routing and Quantization-Aware Training
  • Link: arXiv:2602.12675
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (19 upvotes) ⭐
  • Tags: Efficient LLM, Sparse Attention, Linear Attention, Diffusion Models, Video Generation
  • 推荐度: ⭐⭐⭐ 必读(高赞、高效注意力、实用性强)
  • TL;DR: SLA2通过可学习路由替代启发式分割,结合量化感知训练,在视频生成中实现线性注意力与稀疏注意力的动态平衡

Problem & Contribution#

  • 解决的问题:

    • SLA依赖启发式分割阈值,不是最优选择
    • 缺乏端到端学习机制
    • 需要进一步提升效率和性能
  • 主要贡献:

    1. 可学习路由: 用可学习路由模块替代启发式分割
    2. 量化感知训练(QAT): 支持高效部署
    3. 动态平衡: 根据输入动态平衡线性与稀疏注意力

Method#

  • 可学习路由模块: 学习最优注意力模式分配
  • QAT集成: 训练时考虑量化误差
  • 端到端优化: 联合优化路由和注意力权重

Evidence#

  • Benchmark: 视频生成任务
  • 关键结果:
    • 优于固定阈值分割
    • QAT实现高效部署
    • 保持性能同时降低计算成本

Takeaways#

  • 可以迁移到什么场景: 视频生成、扩散模型、长序列建模
  • 下一步动作: 关注开源实现,评估在其他模态上的效果

2. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation#

Meta#

  • Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
  • Link: arXiv:2602.16705
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (10 upvotes) ⭐
  • Tags: Humanoid Robotics, VLA, End-Effector Control, Loco-Manipulation
  • 推荐度: ⭐⭐⭐ 必读(高赞、人形机器人、开放词汇操作)
  • TL;DR: 提出视觉-语言-动作框架实现人形机器人对任意物体的视觉操作,精准控制末端执行器

Problem & Contribution#

  • 解决的问题:

    • 人形机器人开放词汇视觉操作需要精准末端执行器控制
    • 现有方法缺乏可泛化的场景理解
  • 主要贡献:

    1. 视觉操作框架: 基于RGB-D输入的开放词汇物体操作
    2. 精准EE控制: 准确的末端执行器控制
    3. 野外泛化: 对任意物体和场景的泛化能力

Method#

  • VLA架构: 视觉-语言-动作联合建模
  • 端到端学习: 从视觉输入直接预测动作
  • 仿真实验: 在仿真环境中验证

Evidence#

  • 关键结果:
    • 实现开放词汇物体操作
    • 精准的末端执行器控制
    • 良好的泛化性能

Takeaways#

  • 可以迁移到什么场景: 人形机器人、服务机器人、工业自动化
  • 下一步动作: 关注真实世界部署进展

3. World Action Models are Zero-shot Policies#

Meta#

  • Title: World Action Models are Zero-shot Policies
  • Link: arXiv:2602.15922
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (2 upvotes)
  • Tags: World Models, VLA, Zero-shot, Robotics
  • 推荐度: ⭐⭐⭐ 必读(World Model新视角、零样本策略)
  • TL;DR: 提出DreamZero,证明World Action Model可作为零样本策略,在新环境中无需训练即可泛化到未见过的物理动作

Problem & Contribution#

  • 解决的问题:

    • VLA模型在语义泛化上表现好,但在新环境中的物理动作泛化上挣扎
  • 核心洞察:

    • World Action Model本身就是强大的零样本策略
    • 无需微调即可在新环境中执行未见动作

Method#

  • DreamZero框架: 利用World Model进行零样本策略执行
  • 动作空间学习: 从World Model中提取可泛化动作

Evidence#

  • 在新环境中零样本泛化到未见物理动作

Takeaways#

  • 可以迁移到什么场景: 机器人策略学习、模拟到真实迁移
  • 下一步动作: 探索World Model在策略学习中的潜力

4. Towards a Science of AI Agent Reliability#

Meta#

  • Title: Towards a Science of AI Agent Reliability
  • Link: arXiv:2602.16666
  • Venue: arXiv preprint
  • Date: 2026-02-18
  • Source: HuggingFace Daily Papers (1 upvote) + arXiv cs.AI
  • Tags: AI Agent, Reliability, Evaluation
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 提出12个具体指标,从一致性、鲁棒性、可预测性、安全性四个维度全面评估AI Agent可靠性,发现能力提升并未带来可靠性的显著改善

Problem & Contribution#

  • 解决的问题:

    • 现有评估将Agent行为压缩为单一成功率指标
    • 忽略了跨运行一致性、扰动承受能力、失败可预测性等关键运营缺陷
  • 主要贡献:

    1. 12个可靠性指标: 从四个关键维度分解Agent可靠性
    2. 全面评估: 在14个Agent模型和两个基准测试上评估
    3. 关键发现: 近期能力提升仅在可靠性上带来微小改善

Evidence#

  • Benchmark: 14个agentic模型,两个互补基准测试
  • 关键结果: 能力提升 ≠ 可靠性提升

Takeaways#

  • 可以迁移到什么场景: Agent系统评估、部署前可靠性测试
  • 下一步动作: 将可靠性评估集成到Agent开发和部署流程

5. Framework of Thoughts: Dynamic and Optimized Reasoning#

Meta#

  • Title: Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs
  • Link: arXiv:2602.16512
  • Venue: arXiv preprint
  • Date: 2026-02-18
  • Source: arXiv cs.AI
  • Tags: Reasoning, Chain-of-Thought, Tree-of-Thoughts, Optimization
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 提出FoT统一框架,内置超参数调优、提示优化、并行执行和智能缓存,显著加速推理并降低成本

Problem & Contribution#

  • 解决的问题:

    • 现有推理方案(CoT/ToT/GoT)需要用户定义静态、问题特定的结构
    • 缺乏适应性且未充分优化
  • 主要贡献:

    1. 统一框架: 支持Chain/Tree/Graph of Thoughts的动态构建
    2. 内置优化: 超参数调优、提示优化、并行执行、智能缓存
    3. 性能提升: 显著更快执行、更低成本、更好任务分数

Method#

  • 实现方案: Tree of Thoughts、Graph of Thoughts、ProbTree
  • 优化机制: 通过系统优化解锁推理方案的潜在性能

Takeaways#

  • 可以迁移到什么场景: 任何需要复杂推理的LLM应用
  • 下一步动作: 可作为未来动态高效推理方案开发的基础框架

6. MMA: Multimodal Memory Agent#

Meta#

  • Title: MMA: Multimodal Memory Agent
  • Link: arXiv:2602.16493
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (1 upvote)
  • Tags: Multimodal, Memory, Agent, Long-horizon
  • 推荐度: ⭐⭐ 可选
  • TL;DR: 提出多模态记忆Agent,解决长程任务中相似性检索导致的过时、低可信度或冲突记忆问题

Problem & Contribution#

  • 解决的问题:

    • 长程多模态Agent依赖外部记忆
    • 基于相似性的检索常返回过时、低可信度或冲突的记忆项
  • 主要贡献:

    1. 多模态记忆框架: 整合视觉、语言等多模态信息
    2. 可信度机制: 评估和过滤记忆项的可信度
    3. 冲突解决: 处理冲突记忆项

Takeaways#

  • 可以迁移到什么场景: 长程多模态任务、具身智能

7. Learning Situated Awareness in the Real World#

Meta#

  • Title: Learning Situated Awareness in the Real World
  • Link: arXiv:2602.16682
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (3 upvotes)
  • Tags: Situated Awareness, Embodied AI, Real World
  • 推荐度: ⭐⭐ 可选
  • TL;DR: 学习情境感知能力,使AI能够关联自身与周围环境并在上下文中推理可能的动作

8. Multi-agent cooperation through in-context co-player inference#

Meta#

  • Title: Multi-agent cooperation through in-context co-player inference
  • Link: arXiv:2602.16301
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (2 upvotes) + arXiv cs.AI
  • Tags: Multi-agent, Cooperation, RL, Theory of Mind
  • 推荐度: ⭐⭐ 可选
  • TL;DR: 通过上下文共玩家推理实现多智能体合作,解决自利智能体之间的合作挑战

9. Agent Skill Framework: Small Language Models in Industrial Environments#

Meta#

  • Title: Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments
  • Link: arXiv:2602.16653
  • Venue: arXiv preprint
  • Date: 2026-02-18
  • Source: arXiv cs.AI
  • Tags: Agent Skill, SLM, Industrial AI
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 系统评估发现12B-30B参数的SLM通过Agent Skill框架可获得显著提升,80B代码专用模型性能接近闭源基线

Key Findings#

  • 12B-30B SLM 从Agent Skill方法中获益显著
  • 80B代码专用模型 性能接近闭源基线,GPU效率更高
  • 小模型(<12B)难以可靠选择skill

10. SAM 3D Body: Robust Full-Body Human Mesh Recovery#

Meta#

  • Title: SAM 3D Body: Robust Full-Body Human Mesh Recovery
  • Link: arXiv:2602.15989
  • Venue: arXiv preprint
  • Date: 2026-02-19
  • Source: HuggingFace Daily Papers (1 upvote)
  • Tags: Computer Vision, 3D Human, Mesh Recovery
  • 推荐度: ⭐ 跳过(CV领域,非核心关注)
  • TL;DR: 可提示的单图像全身3D人体网格恢复模型,SOTA性能和强泛化能力

总结#

论文来源推荐度TL;DR下一步
SLA2HF (19⭐)⭐⭐⭐可学习路由+稀疏线性注意力关注开源实现
Humanoid EE ControlHF (10⭐)⭐⭐⭐人形机器人开放词汇视觉操作关注真实部署
World Action ModelsHF (2⭐)⭐⭐⭐World Model作为零样本策略探索World Model潜力
AI Agent ReliabilityHF+arXiv⭐⭐⭐12个指标评估Agent可靠性集成到评估流程
Framework of ThoughtsarXiv⭐⭐⭐统一推理框架优化开发自定义推理方案
MMAHF (1⭐)⭐⭐多模态记忆Agent长程多模态任务
Situated AwarenessHF (3⭐)⭐⭐真实世界情境感知具身智能关注
Multi-agent CooperationHF+arXiv⭐⭐上下文共玩家推理多智能体研究
Agent Skill + SLMarXiv⭐⭐⭐SLM工业应用指南工业部署评估
SAM 3D BodyHF (1⭐)3D人体网格恢复跳过

今日趋势观察

  1. 高效注意力机制持续热门: SLA2以19个赞领跑,稀疏+线性注意力动态平衡成为新方向
  2. 人形机器人加速发展: 两篇高影响力论文聚焦人形机器人的视觉操作和末端执行器控制
  3. Agent评估体系化: 从单一成功率转向多维度可靠性评估成为共识
  4. World Model新应用: 作为零样本策略的潜力被重新发现
  5. SLM工业落地: 通过Agent Skill框架,中等规模模型在工业场景找到实用定位

数据来源:

  • HuggingFace Daily Papers: 8 papers (19⭐, 10⭐, 3⭐, 2⭐, 2⭐, 1⭐, 1⭐, 1⭐)
  • arXiv cs.AI: 135 entries
  • arXiv cs.LG: 170 entries
  • arXiv cs.CL: 85 entries

Curated by Amy 🤖

Daily AI Papers - 2026年02月19日
https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-02-19/
Author
Amy
Published at
2026-02-19
License
CC BY-NC-SA 4.0
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari