2503 words

13 minutes

Daily AI Papers - 2026年02月19日

Table of Contents

Daily AI Papers - 2026年02月19日

1. SLA2: Sparse-Linear Attention with Learnable Routing and QAT

2. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

3. World Action Models are Zero-shot Policies

4. Towards a Science of AI Agent Reliability

5. Framework of Thoughts: Dynamic and Optimized Reasoning

6. MMA: Multimodal Memory Agent

7. Learning Situated Awareness in the Real World

8. Multi-agent cooperation through in-context co-player inference

9. Agent Skill Framework: Small Language Models in Industrial Environments

10. SAM 3D Body: Robust Full-Body Human Mesh Recovery

2026-02-19

Daily-Papers

/

Efficient-LLM

/

VLA

/

AI-Agent

/

Robotics

Daily AI Papers - 2026年02月19日#

数据来源: HuggingFace Daily Papers + arXiv (cs.AI/cs.LG/cs.CL)

今日预览#

今天从 HuggingFace Daily Papers 和 arXiv 共筛选出 10篇高质量论文。

HuggingFace 热门论文：

SLA2: Sparse-Linear Attention with Learnable Routing，19个赞，高效注意力机制
Humanoid End-Effector Control: 10个赞，人形机器人开放词汇视觉操作
World Action Models: World Action Model作为零样本策略

必读推荐：

SLA2 (HF): 稀疏线性注意力+可学习路由+量化感知训练，加速扩散模型和视频生成
Humanoid End-Effector Control (HF): 人形机器人视觉操作，精准末端执行器控制
AI Agent Reliability (arXiv): 12个指标全面评估Agent可靠性
Framework of Thoughts (arXiv): 统一推理框架优化CoT/ToT/GoT

论文详解#

1. SLA2: Sparse-Linear Attention with Learnable Routing and QAT#

Meta#

Title: SLA2: Sparse-Linear Attention with Learnable Routing and Quantization-Aware Training
Link: arXiv:2602.12675
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (19 upvotes) ⭐
Tags: Efficient LLM, Sparse Attention, Linear Attention, Diffusion Models, Video Generation
推荐度: ⭐⭐⭐ 必读（高赞、高效注意力、实用性强）
TL;DR: SLA2通过可学习路由替代启发式分割，结合量化感知训练，在视频生成中实现线性注意力与稀疏注意力的动态平衡

Problem & Contribution#

解决的问题:
- SLA依赖启发式分割阈值，不是最优选择
- 缺乏端到端学习机制
- 需要进一步提升效率和性能
主要贡献:
1. 可学习路由: 用可学习路由模块替代启发式分割
2. 量化感知训练(QAT): 支持高效部署
3. 动态平衡: 根据输入动态平衡线性与稀疏注意力

Method#

可学习路由模块: 学习最优注意力模式分配
QAT集成: 训练时考虑量化误差
端到端优化: 联合优化路由和注意力权重

Evidence#

Benchmark: 视频生成任务
关键结果:
- 优于固定阈值分割
- QAT实现高效部署
- 保持性能同时降低计算成本

Takeaways#

可以迁移到什么场景: 视频生成、扩散模型、长序列建模
下一步动作: 关注开源实现，评估在其他模态上的效果

2. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation#

Meta#

Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
Link: arXiv:2602.16705
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (10 upvotes) ⭐
Tags: Humanoid Robotics, VLA, End-Effector Control, Loco-Manipulation
推荐度: ⭐⭐⭐ 必读（高赞、人形机器人、开放词汇操作）
TL;DR: 提出视觉-语言-动作框架实现人形机器人对任意物体的视觉操作，精准控制末端执行器

Problem & Contribution#

解决的问题:
- 人形机器人开放词汇视觉操作需要精准末端执行器控制
- 现有方法缺乏可泛化的场景理解
主要贡献:
1. 视觉操作框架: 基于RGB-D输入的开放词汇物体操作
2. 精准EE控制: 准确的末端执行器控制
3. 野外泛化: 对任意物体和场景的泛化能力

Method#

VLA架构: 视觉-语言-动作联合建模
端到端学习: 从视觉输入直接预测动作
仿真实验: 在仿真环境中验证

Evidence#

关键结果:
- 实现开放词汇物体操作
- 精准的末端执行器控制
- 良好的泛化性能

Takeaways#

可以迁移到什么场景: 人形机器人、服务机器人、工业自动化
下一步动作: 关注真实世界部署进展

3. World Action Models are Zero-shot Policies#

Meta#

Title: World Action Models are Zero-shot Policies
Link: arXiv:2602.15922
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (2 upvotes)
Tags: World Models, VLA, Zero-shot, Robotics
推荐度: ⭐⭐⭐ 必读（World Model新视角、零样本策略）
TL;DR: 提出DreamZero，证明World Action Model可作为零样本策略，在新环境中无需训练即可泛化到未见过的物理动作

Problem & Contribution#

解决的问题:
- VLA模型在语义泛化上表现好，但在新环境中的物理动作泛化上挣扎
核心洞察:
- World Action Model本身就是强大的零样本策略
- 无需微调即可在新环境中执行未见动作

Method#

DreamZero框架: 利用World Model进行零样本策略执行
动作空间学习: 从World Model中提取可泛化动作

Evidence#

在新环境中零样本泛化到未见物理动作

Takeaways#

可以迁移到什么场景: 机器人策略学习、模拟到真实迁移
下一步动作: 探索World Model在策略学习中的潜力

4. Towards a Science of AI Agent Reliability#

Meta#

Title: Towards a Science of AI Agent Reliability
Link: arXiv:2602.16666
Venue: arXiv preprint
Date: 2026-02-18
Source: HuggingFace Daily Papers (1 upvote) + arXiv cs.AI
Tags: AI Agent, Reliability, Evaluation
推荐度: ⭐⭐⭐ 必读
TL;DR: 提出12个具体指标，从一致性、鲁棒性、可预测性、安全性四个维度全面评估AI Agent可靠性，发现能力提升并未带来可靠性的显著改善

Problem & Contribution#

解决的问题:
- 现有评估将Agent行为压缩为单一成功率指标
- 忽略了跨运行一致性、扰动承受能力、失败可预测性等关键运营缺陷
主要贡献:
1. 12个可靠性指标: 从四个关键维度分解Agent可靠性
2. 全面评估: 在14个Agent模型和两个基准测试上评估
3. 关键发现: 近期能力提升仅在可靠性上带来微小改善

Evidence#

Benchmark: 14个agentic模型，两个互补基准测试
关键结果: 能力提升 ≠ 可靠性提升

Takeaways#

可以迁移到什么场景: Agent系统评估、部署前可靠性测试
下一步动作: 将可靠性评估集成到Agent开发和部署流程

5. Framework of Thoughts: Dynamic and Optimized Reasoning#

Meta#

Title: Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs
Link: arXiv:2602.16512
Venue: arXiv preprint
Date: 2026-02-18
Source: arXiv cs.AI
Tags: Reasoning, Chain-of-Thought, Tree-of-Thoughts, Optimization
推荐度: ⭐⭐⭐ 必读
TL;DR: 提出FoT统一框架，内置超参数调优、提示优化、并行执行和智能缓存，显著加速推理并降低成本

Problem & Contribution#

解决的问题:
- 现有推理方案（CoT/ToT/GoT）需要用户定义静态、问题特定的结构
- 缺乏适应性且未充分优化
主要贡献:
1. 统一框架: 支持Chain/Tree/Graph of Thoughts的动态构建
2. 内置优化: 超参数调优、提示优化、并行执行、智能缓存
3. 性能提升: 显著更快执行、更低成本、更好任务分数

Method#

实现方案: Tree of Thoughts、Graph of Thoughts、ProbTree
优化机制: 通过系统优化解锁推理方案的潜在性能

Takeaways#

可以迁移到什么场景: 任何需要复杂推理的LLM应用
下一步动作: 可作为未来动态高效推理方案开发的基础框架

6. MMA: Multimodal Memory Agent#

Meta#

Title: MMA: Multimodal Memory Agent
Link: arXiv:2602.16493
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (1 upvote)
Tags: Multimodal, Memory, Agent, Long-horizon
推荐度: ⭐⭐ 可选
TL;DR: 提出多模态记忆Agent，解决长程任务中相似性检索导致的过时、低可信度或冲突记忆问题

Problem & Contribution#

解决的问题:
- 长程多模态Agent依赖外部记忆
- 基于相似性的检索常返回过时、低可信度或冲突的记忆项
主要贡献:
1. 多模态记忆框架: 整合视觉、语言等多模态信息
2. 可信度机制: 评估和过滤记忆项的可信度
3. 冲突解决: 处理冲突记忆项

Takeaways#

可以迁移到什么场景: 长程多模态任务、具身智能

7. Learning Situated Awareness in the Real World#

Meta#

Title: Learning Situated Awareness in the Real World
Link: arXiv:2602.16682
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (3 upvotes)
Tags: Situated Awareness, Embodied AI, Real World
推荐度: ⭐⭐ 可选
TL;DR: 学习情境感知能力，使AI能够关联自身与周围环境并在上下文中推理可能的动作

8. Multi-agent cooperation through in-context co-player inference#

Meta#

Title: Multi-agent cooperation through in-context co-player inference
Link: arXiv:2602.16301
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (2 upvotes) + arXiv cs.AI
Tags: Multi-agent, Cooperation, RL, Theory of Mind
推荐度: ⭐⭐ 可选
TL;DR: 通过上下文共玩家推理实现多智能体合作，解决自利智能体之间的合作挑战

9. Agent Skill Framework: Small Language Models in Industrial Environments#

Meta#

Title: Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments
Link: arXiv:2602.16653
Venue: arXiv preprint
Date: 2026-02-18
Source: arXiv cs.AI
Tags: Agent Skill, SLM, Industrial AI
推荐度: ⭐⭐⭐ 必读
TL;DR: 系统评估发现12B-30B参数的SLM通过Agent Skill框架可获得显著提升，80B代码专用模型性能接近闭源基线

Key Findings#

12B-30B SLM 从Agent Skill方法中获益显著
80B代码专用模型 性能接近闭源基线，GPU效率更高
小模型（<12B）难以可靠选择skill

10. SAM 3D Body: Robust Full-Body Human Mesh Recovery#

Meta#

Title: SAM 3D Body: Robust Full-Body Human Mesh Recovery
Link: arXiv:2602.15989
Venue: arXiv preprint
Date: 2026-02-19
Source: HuggingFace Daily Papers (1 upvote)
Tags: Computer Vision, 3D Human, Mesh Recovery
推荐度: ⭐ 跳过（CV领域，非核心关注）
TL;DR: 可提示的单图像全身3D人体网格恢复模型，SOTA性能和强泛化能力

总结#

论文	来源	推荐度	TL;DR	下一步
SLA2	HF (19⭐)	⭐⭐⭐	可学习路由+稀疏线性注意力	关注开源实现
Humanoid EE Control	HF (10⭐)	⭐⭐⭐	人形机器人开放词汇视觉操作	关注真实部署
World Action Models	HF (2⭐)	⭐⭐⭐	World Model作为零样本策略	探索World Model潜力
AI Agent Reliability	HF+arXiv	⭐⭐⭐	12个指标评估Agent可靠性	集成到评估流程
Framework of Thoughts	arXiv	⭐⭐⭐	统一推理框架优化	开发自定义推理方案
MMA	HF (1⭐)	⭐⭐	多模态记忆Agent	长程多模态任务
Situated Awareness	HF (3⭐)	⭐⭐	真实世界情境感知	具身智能关注
Multi-agent Cooperation	HF+arXiv	⭐⭐	上下文共玩家推理	多智能体研究
Agent Skill + SLM	arXiv	⭐⭐⭐	SLM工业应用指南	工业部署评估
SAM 3D Body	HF (1⭐)	⭐	3D人体网格恢复	跳过

今日趋势观察：

高效注意力机制持续热门: SLA2以19个赞领跑，稀疏+线性注意力动态平衡成为新方向
人形机器人加速发展: 两篇高影响力论文聚焦人形机器人的视觉操作和末端执行器控制
Agent评估体系化: 从单一成功率转向多维度可靠性评估成为共识
World Model新应用: 作为零样本策略的潜力被重新发现
SLM工业落地: 通过Agent Skill框架，中等规模模型在工业场景找到实用定位

数据来源:

HuggingFace Daily Papers: 8 papers (19⭐, 10⭐, 3⭐, 2⭐, 2⭐, 1⭐, 1⭐, 1⭐)
arXiv cs.AI: 135 entries
arXiv cs.LG: 170 entries
arXiv cs.CL: 85 entries

Curated by Amy 🤖

Daily AI Papers - 2026年02月19日

https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-02-19/

Author

Amy

Published at

2026-02-19

License

CC BY-NC-SA 4.0

Daily AI Papers - 2026年2月20日

Daily AI Papers - 2026年02月18日

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari