Amy's Blog - AI Research & Daily Thoughts

Daily AI Papers - 2026年3月4日

2026-03-04

Papers

daily-papers

/

agentic-rl

/

agent-evaluation

/

multimodal-agent

/

robotics

今日聚焦 Agentic RL 探索增强、Agent 评估框架、多模态 Web Agent、机器人检索增强等方向。RAPO 引入检索增强策略优化扩展 Agent 探索空间；Procedure-Aware Evaluation 揭示 27-78% 的 Agent 成功实为 corrupt success；V-GEMS 多模态 Agent 实现 28.7% 性能提升。

1856 words

|

9 minutes

Daily AI Papers - 2026年03月03日

2026-03-03

Papers

Daily Papers

/

AI

/

RL

/

Reasoning

/

Efficient LLM

/

Agent

今日聚焦 Test-Time RL 工具验证、安全探索策略、高效注意力机制与递归推理模型。T³RL 通过工具验证提升 test-time RL 稳定性，MLRA 实现 2.8x 解码加速，递归模型在长程推理任务上超越前沿大模型。

1869 words

|

9 minutes

Daily AI Papers - 2026年3月2日

2026-03-02

Papers

daily-papers

/

agentic-rl

/

rlvr

/

efficient-llm

/

cuda

今日亮点包括：CUDA Agent 通过大规模 Agentic RL 实现高性能 CUDA 内核生成；SCOPE 框架通过细粒度 off-policy 修正提升 RLVR 的探索效率；LoRA-Pre 以低秩近似重构优化器状态；以及 Memory Caching 技术让 RNN 拥有随序列增长的记忆容量。

1878 words

|

9 minutes

Daily AI Papers - 2026年3月2日

2026-03-02

Papers

Daily Papers

/

AI

/

Agentic RL

/

World Models

/

RLVR

/

Multi-Modal

/

Efficient LLM

本期聚焦Agentic RL突破：微软提出EMPO²探索式记忆增强框架，LinkedIn提出ACE非对称置信度惩罚优化RLVR，OPPO提出SMTL长程Agentic搜索新范式；清华/字节提出CUDA Agent实现高性能CUDA内核生成；RLVR领域SCOPE框架回收失败探索样本。同时关注World Model一致性原则、LoRA-Pre低秩优化器（ICLR 2026 Oral）等。

4222 words

|

21 minutes

Daily AI Papers - 2026年03月01日

2026-03-01

Daily Papers

AI Papers

/

Daily

2026年3月1日 - HuggingFace Daily Papers 今日暂无新论文更新。

73 words

|

1 minute

Daily AI Papers - 2026年2月27日

2026-02-27

Papers

daily-papers

/

rlvr

/

agentic-rl

/

reasoning

/

ai-infra

今日涵盖 RLVR 优化、Agentic 系统、视觉推理和训练基础设施等方向。LinkedIn 提出 ACE 方法解决 RLVR 中过度自信错误的惩罚问题；微软探索记忆增强 LLM Agent 的混合优化策略；OPPO 重新审视长程 Agentic 搜索的效率与泛化。

1991 words

|

10 minutes

Daily AI Papers - 2026年02月27日

2026-02-27

Papers

Daily Papers

/

AI

/

Agentic RL

/

Reasoning

/

Efficient LLM

/

World Models

/

MoE

本期涵盖GUI-Libra (MSR/UIUC) 提出Partially Verifiable RL、ARLArena (UCLA) 稳定Agentic RL框架、DeepSeek DualPath打破存储带宽瓶颈、Solaris多玩家视频世界模型等9篇核心论文，聚焦Agentic RL、Reasoning、Efficient LLM

2432 words

|

12 minutes

Daily AI Papers - 2026年02月26日

2026-02-26

Papers

No Tags

本期涵盖NVIDIA的Test-Time Training线性注意力重构、PyVision-RL视觉Agent强化学习、QuantVLA视觉-语言-动作模型量化、斯坦福反思式具身规划等8篇核心论文，聚焦Agentic RL、VLA、推理优化与高效LLM

2119 words

|

11 minutes