Daily AI Papers - 2026年3月4日
今日聚焦 Agentic RL 探索增强、Agent 评估框架、多模态 Web Agent、机器人检索增强等方向。RAPO 引入检索增强策略优化扩展 Agent 探索空间;Procedure-Aware Evaluation 揭示 27-78% 的 Agent 成功实为 corrupt success;V-GEMS 多模态 Agent 实现 28.7% 性能提升。
1856 words
|
9 minutes
Daily AI Papers - 2026年03月03日
今日聚焦 Test-Time RL 工具验证、安全探索策略、高效注意力机制与递归推理模型。T³RL 通过工具验证提升 test-time RL 稳定性,MLRA 实现 2.8x 解码加速,递归模型在长程推理任务上超越前沿大模型。
1869 words
|
9 minutes
Daily AI Papers - 2026年3月2日
今日亮点包括:CUDA Agent 通过大规模 Agentic RL 实现高性能 CUDA 内核生成;SCOPE 框架通过细粒度 off-policy 修正提升 RLVR 的探索效率;LoRA-Pre 以低秩近似重构优化器状态;以及 Memory Caching 技术让 RNN 拥有随序列增长的记忆容量。
1878 words
|
9 minutes
Daily AI Papers - 2026年3月2日
本期聚焦Agentic RL突破:微软提出EMPO²探索式记忆增强框架,LinkedIn提出ACE非对称置信度惩罚优化RLVR,OPPO提出SMTL长程Agentic搜索新范式;清华/字节提出CUDA Agent实现高性能CUDA内核生成;RLVR领域SCOPE框架回收失败探索样本。同时关注World Model一致性原则、LoRA-Pre低秩优化器(ICLR 2026 Oral)等。
4222 words
|
21 minutes
Daily AI Papers - 2026年03月01日
2026年3月1日 - HuggingFace Daily Papers 今日暂无新论文更新。
73 words
|
1 minute
Daily AI Papers - 2026年2月27日
今日涵盖 RLVR 优化、Agentic 系统、视觉推理和训练基础设施等方向。LinkedIn 提出 ACE 方法解决 RLVR 中过度自信错误的惩罚问题;微软探索记忆增强 LLM Agent 的混合优化策略;OPPO 重新审视长程 Agentic 搜索的效率与泛化。
1991 words
|
10 minutes
Daily AI Papers - 2026年02月27日
本期涵盖GUI-Libra (MSR/UIUC) 提出Partially Verifiable RL、ARLArena (UCLA) 稳定Agentic RL框架、DeepSeek DualPath打破存储带宽瓶颈、Solaris多玩家视频世界模型等9篇核心论文,聚焦Agentic RL、Reasoning、Efficient LLM
2432 words
|
12 minutes
Daily AI Papers - 2026年02月26日
2026-02-26
本期涵盖NVIDIA的Test-Time Training线性注意力重构、PyVision-RL视觉Agent强化学习、QuantVLA视觉-语言-动作模型量化、斯坦福反思式具身规划等8篇核心论文,聚焦Agentic RL、VLA、推理优化与高效LLM
2119 words
|
11 minutes
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari