2119 words
11 minutes
Daily AI Papers - 2026年02月26日
Table of Contents
1
Daily AI Papers - 2026年02月26日
今日预览
论文详解
1. Test-Time Training with KV Binding Is Secretly Linear Attention
2. PyVision-RL: Forging Open Agentic Vision Models via RL
3. On Data Engineering for Scaling LLM Terminal Capabilities
4. QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
5. Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
6. LongCLI-Bench: A Preliminary Benchmark for Long-horizon Agentic Programming in CLI
7. TAPE: Tool-Guided Adaptive Planning and Constrained Execution in LM Agents
8. PETS: Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
9. Benchmark Test-Time Scaling of General LLM Agents
总结
2026-02-26
No Tags

Daily AI Papers - 2026年02月26日#

今日预览#

今日亮点包括:NVIDIA 重新解读 Test-Time Training 为线性注意力形式,揭示其本质并提升效率;PyVision-RL 通过累积工具奖励机制解决多模态Agent的交互崩溃问题;QuantVLA 首次实现VLA模型的训练后量化,内存节省70%;斯坦福 提出反思式测试时规划,让具身Agent从错误中学习。此外还有长程CLI基准、通用Agent评测、以及最优轨迹分配等前沿研究。


论文详解#

1. Test-Time Training with KV Binding Is Secretly Linear Attention#

作者: Junchen Liu 等 (NVIDIA)
链接: arXiv:2602.21204 | 项目页
方向: Test-Time Training / Linear Attention
评级: ⭐⭐⭐ 必读

核心创新:
传统观点认为带KV绑定的Test-Time Training (TTT)是一种在线元学习记忆机制。本文颠覆这一认知,证明TTT实际上是一种可学习的线性注意力算子。研究团队通过数学推导揭示:多种TTT架构都可被统一表达为线性注意力形式。这一视角不仅解释了此前困惑的模型行为,还带来实际好处——实现完全并行化的高效推理。

实验结果:

  • 保持性能的同时实现架构简化与推理加速
  • 为TTT各变体提供了统一理论框架
  • 项目页提供详细技术报告

2. PyVision-RL: Forging Open Agentic Vision Models via RL#

作者: Shitian Zhao, Wenshuo Peng, Ming Li 等
链接: arXiv:2602.20739 | GitHub ⭐ 43
方向: Agentic RL / Multimodal
评级: ⭐⭐⭐ 必读

核心创新:
针对多模态Agent训练中常见的**“交互崩溃”问题**(模型倾向于减少工具使用和多轮推理),提出PyVision-RL框架。核心设计包括:(1) 过采样-过滤-排序的rollout策略;(2) 累积工具奖励,防止训练崩溃并鼓励多轮工具使用;(3) 针对视频任务的按需上下文构建,选择性采样任务相关帧以降低视觉token消耗。

实验结果:

  • PyVision-Video在视频推理任务上显著提升效率
  • 证明持续交互和按需视觉处理是可扩展多模态Agent的关键
  • 代码已开源

3. On Data Engineering for Scaling LLM Terminal Capabilities#

作者: Renjie Pi 等 (NVIDIA)
链接: arXiv:2602.21193 | HuggingFace
方向: Agentic Programming / Data Engineering
评级: ⭐⭐⭐ 必读

核心创新:
系统研究终端Agent的数据工程策略,提出Terminal-Task-Gen合成任务生成管道,支持基于种子和技能的任务构建。基于此构建大规模开源数据集Terminal-Corpus,并训练出Nemotron-Terminal模型家族(8B/14B/32B)。

实验结果:

  • Nemotron-Terminal-8B在Terminal-Bench 2.0上从2.5%提升至13.0%
  • Nemotron-Terminal-32B从3.4%跃升至27.4%,媲美更大规模模型
  • 模型权重和大部分数据集已开源

4. QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models#

作者: Yunta Hsieh, Xin Wang, Haokun Lin 等
链接: arXiv:2602.20309
方向: VLA / Quantization / Efficient LLM
评级: ⭐⭐⭐ 必读

核心创新:
首个针对VLA系统的训练后量化(PTQ)框架,也是首个成功量化DiT(Diffusion Transformer)动作头的方法。包含三项关键技术:(1) 选择性量化布局:语言骨干和DiT整数化,注意力投影保持浮点;(2) 注意力温度匹配:轻量级per-head缩放机制稳定注意力logits;(3) 输出头平衡:per-layer残差接口校准缓解投影后能量漂移。

实验结果:

  • 在LIBERO基准上,QuantVLA超越全精度基线
  • 量化组件实现约70%内存节省
  • 端到端推理延迟提升1.22倍
  • 无需额外训练,仅使用小量无标签校准缓冲

5. Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs#

作者: Yining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu (Stanford)
链接: arXiv:2602.21198
方向: Embodied AI / Test-Time Planning
评级: ⭐⭐⭐ 必读

核心创新:
受人类反思实践启发,提出Reflective Test-Time Planning,整合两种反思模式:(1) 行动中反思(reflection-in-action):测试时扩展生成并评分多个候选动作;(2) 行动后反思(reflection-on-action):测试时训练更新内部反思模型和动作策略;(3) 回顾性反思:重新评估早期决策并进行事后模型更新。

实验结果:

  • 在Long-Horizon Household和MuJoCo Cupboard Fitting基准上显著超越基线
  • 消融研究验证了两种反思模式的互补作用
  • 真实机器人试验展示通过反思实现行为修正

6. LongCLI-Bench: A Preliminary Benchmark for Long-horizon Agentic Programming in CLI#

作者: Yukang Feng, Jianwen Sun 等 (上海AI Lab, 清华等)
链接: arXiv:2602.14337 | GitHub ⭐ 22
方向: Agentic Programming / Benchmark
评级: ⭐⭐ 可选

核心创新:
针对现有CLI基准任务短、数据污染、缺乏细粒度评估的问题,提出LongCLI-Bench。包含20个高质量长程任务(来自1000+计算机科学作业),涵盖从头开发、功能添加、Bug修复、代码重构四类。提出双集测试协议:需求满足(fail-to-pass)和回归避免(pass-to-pass),并引入步骤级评分。

实验结果:

  • SOTA Agent在LongCLI-Bench上通过率低于20%
  • 步骤分析显示多数任务停滞在30%完成度以下
  • 人机协作(计划注入和交互指导)带来显著提升

7. TAPE: Tool-Guided Adaptive Planning and Constrained Execution in LM Agents#

作者: Jongwon Jeong 等 (University of Wisconsin-Madison)
链接: arXiv:2602.19633
方向: Agentic RL / Tool Use
评级: ⭐⭐ 可选

核心创新:
针对LM Agent在严格约束环境下单个错误即导致不可恢复失败的问题,提出TAPE框架。核心设计:(1) 聚合多计划为图结构,使用外部求解器识别可行路径;(2) 约束解码减少采样噪声;(3) 环境反馈偏离时自适应重新规划

实验结果:

  • 在Sokoban、ALFWorld、MuSiQue、GSM8K-Hard上持续超越现有框架
  • 困难设置上成功率平均提升21.0个百分点
  • 弱基座模型平均提升20.0个百分点

8. PETS: Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency#

作者: Huaizhi Qu 等 (UNC Chapel Hill)
链接: arXiv:2602.16745 | GitHub
方向: Test-Time Scaling / Reasoning
评级: ⭐⭐ 可选

核心创新:
针对测试时自一致性采样预算有限的问题,提出PETS框架。核心贡献是自一致性率(与无限预算多数投票的一致性)作为优化目标。将轨迹分配建模为众包问题(推理迹类比为工人),分别针对离线(全量问题已知)和在线(流式问题)场景设计算法。

实验结果:

  • 在GPQA上实现完美自一致性,相比均匀分配:离线节省75%采样预算,在线节省55%
  • 理论保证与计算效率兼备

9. Benchmark Test-Time Scaling of General LLM Agents#

作者: Xiaochuan Li 等 (CMU-LTI)
链接: arXiv:2602.18998 | GitHub ⭐ 6
方向: Agent Benchmark / Test-Time Scaling
评级: ⭐⭐ 可选

核心创新:
提出General AgentBench,统一评估跨搜索、编码、推理、工具使用领域的通用Agent。系统研究两种测试时扩展:顺序扩展(迭代交互)和并行扩展(多轨迹采样)。发现两个根本限制:顺序扩展的上下文天花板并行扩展的验证鸿沟

实验结果:

  • 从领域特定评估迁移到通用Agent设置时,性能显著下降
  • 现有扩展方法在通用场景下效果有限
  • 代码已开源

总结#

论文主题核心贡献评级
Test-Time Training with KV Binding Is Secretly Linear AttentionTTT理论重构将TTT重新诠释为可学习线性注意力⭐⭐⭐
PyVision-RL视觉Agent RL累积工具奖励解决交互崩溃⭐⭐⭐
On Data Engineering for Scaling LLM Terminal Capabilities终端Agent数据工程Terminal-Corpus数据集与Nemotron-Terminal⭐⭐⭐
QuantVLAVLA量化首个VLA训练后量化框架,70%内存节省⭐⭐⭐
Learning from Trials and Errors具身反思规划双模式反思机制提升长程任务表现⭐⭐⭐
LongCLI-BenchCLI Agent基准长程编程任务评测基准⭐⭐
TAPE工具引导规划约束解码与自适应重规划⭐⭐
PETS测试时轨迹分配最优采样预算分配策略⭐⭐
Benchmark Test-Time Scaling of General LLM Agents通用Agent基准揭示测试时扩展的根本限制⭐⭐

今日趋势观察:

  1. Test-Time方法成为焦点:TTT理论重构、反思式规划、轨迹分配优化等多篇论文聚焦测试时计算的高效利用
  2. VLA与具身Agent持续活跃:量化压缩(QuantVLA)、交互崩溃解决(PyVision-RL)、反思学习(斯坦福)等方向并行推进
  3. 数据工程重要性凸显:NVIDIA系统披露终端Agent数据策略,开源大规模合成数据集推动领域发展
Daily AI Papers - 2026年02月26日
https://amysheng-ai.github.io/AmyBlog/posts/daily-paper-2026-02-26/
Author
Amy
Published at
2026-02-26
License
CC BY-NC-SA 4.0
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari