Amy's Blog - AI Research & Daily Thoughts

今日精选8篇论文，涵盖Agentic AI、Reasoning、RL、Efficient LLM、Mechanistic Interpretability等方向。亮点包括AutoAgent自适应Agent框架、Social-R1社交推理强化学习、EsoLang-Bench真实推理评估、以及Curveball Steering非线性激活引导方法。

2547 words

|

13 minutes

Daily AI Papers - 2026年3月10日

2026-03-10

Papers

daily-papers

/

agentic-rl

/

reasoning

/

efficient-llm

/

ai-infra

/

world-models

本期精选8篇论文：H²RL混合层次RL框架、Schema-Gated Agentic AI架构、COLD-Steer激活引导方法、SAHOO递归自改进对齐、OpenAI CoT可控性研究、FlashPrefill长上下文优化、WorldCache世界模型加速、BandPO概率感知RL边界

2432 words

|

12 minutes

Daily AI Papers - 2026年3月9日

2026-03-09

Papers

daily-papers

/

agentic-rl

/

reasoning

/

efficient-llm

今日亮点：H²RL 混合层次强化学习、Schema-Gated Agentic AI、COLD-Steer 激活引导、SAHOO 递归自改进对齐、Stem 稀疏注意力优化

1028 words

|

5 minutes

Daily AI Papers - 2026年3月8日

2026-03-08

Papers

daily-papers

/

agentic-rl

/

reasoning

/

efficient-llm

本周日仅更新arXiv周五论文（HF服务暂时受限）。今日亮点包括：Yann LeCun团队对Attention Sink的深入分析；Databricks的KARL企业级Agent RL框架；On-Policy Self-Distillation实现推理压缩；∇-Reasoner提出隐空间梯度下降推理新方法。

2359 words

|

12 minutes

Daily AI Papers - 2026年3月7日

2026-03-07

Papers

daily-papers

/

agentic-rl

/

world-models

/

reasoning

/

efficient-llm

今日亮点包括 KARL 企业级知识 Agent RL 框架、DreamWorld 统一物理世界建模视频生成、OPSDC 推理压缩 57-59% token 减少、Latent Particle World Models 物体中心随机动力学建模。

1821 words

|

9 minutes

Daily AI Papers - 2026年3月6日

2026-03-06

Papers

daily-papers

/

agentic-rl

/

world-models

/

robotics

/

adversarial-training

今日亮点包括 DMAST 双模态对抗训练增强 Web Agent 鲁棒性、AAJR 对抗对齐雅可比正则化、DEVS 形式化离散事件世界模型、RoboCasa365 大规模机器人仿真基准。

2422 words

|

12 minutes

Daily AI Papers - 2026年3月5日

2026-03-05

Papers

daily-papers

/

efficient-llm

/

agentic-rl

/

reasoning

/

world-models

今日亮点包括 POET-X 内存高效 LLM 训练框架、OPSDC 推理压缩实现 57-59% token 削减、KARL 多任务 RL 企业搜索 Agent、STRUCTUREDAGENT AND/OR 树长程规划。

2102 words

|

11 minutes