1028 words

5 minutes

Daily AI Papers - 2026年3月9日

Table of Contents

Daily AI Papers - 2026年3月9日

1. Boosting deep Reinforcement Learning using pretraining with Logical Options

2. Schema-Gated Agentic AI: Unifying Deterministic Execution with Conversational Flexibility

3. COLD-Steer: LLM Activation Steering with 50x Sample Efficiency

4. SAHOO: Recursive Self-Improvement with Alignment Protection

5. Stem: Rethinking Causal Information Flow in Sparse Attention

2026-03-09

daily-papers

/

agentic-rl

/

reasoning

/

efficient-llm

Daily AI Papers - 2026年3月9日#

今日预览#

今日精选 8 篇论文，涵盖 Agentic AI、推理优化、高效 LLM、RL 对齐等前沿方向。核心亮点包括：

H²RL: 混合层次 RL 框架，用逻辑选项预训练引导策略学习
Schema-Gated Agentic AI: 科学工作流的确定性执行与对话灵活性的统一架构
COLD-Steer: 无需微调的 LLM 激活引导方法，样本效率提升 50 倍
SAHOO: 递归自改进中的对齐保护框架，实现可度量的目标漂移控制
Stem: 重新思考因果信息流，位置感知的稀疏注意力机制

论文详解#

1. Boosting deep Reinforcement Learning using pretraining with Logical Options#

作者: Zihan Ye 等
链接: arXiv:2603.06565
方向: 强化学习 / 神经符号 AI

核心创新:
H²RL (Hybrid Hierarchical RL) 是一个混合层次强化学习框架，结合了高层符号逻辑选项和低层神经网络策略。关键创新在于：

使用逻辑选项预训练来引导策略学习
在复杂决策任务中实现更快的收敛和更好的泛化
将符号知识的可解释性与神经网络的灵活性相结合

实验结果:
在多个基准任务上，H²RL 相比标准 RL 方法实现了显著的性能提升，特别是在需要长期规划的场景中。

2. Schema-Gated Agentic AI: Unifying Deterministic Execution with Conversational Flexibility#

作者: [Authors] 等
链接: arXiv:2603.06561
方向: Agentic AI / 科学工作流

核心创新:
提出了 Schema-Gated 架构，统一了：

确定性执行: 确保科学工作流的精确性和可重复性
对话灵活性: 允许用户通过自然语言与系统交互
通过模式门控机制在两者之间实现动态切换

应用场景:
特别适用于需要严格协议的科学实验自动化，同时保持用户友好的对话界面。

3. COLD-Steer: LLM Activation Steering with 50x Sample Efficiency#

作者: [Authors] 等
链接: arXiv:2603.06549
方向: 推理优化 / 模型对齐

核心创新:
COLD-Steer 是一种无需微调的 LLM 激活引导方法：

通过操纵隐藏层激活来引导模型行为
实现了50倍的样本效率提升
无需昂贵的微调即可实现模型对齐

技术亮点:
该方法可以精确控制模型输出的各种属性（如安全性、有用性、风格等），同时保持基础模型能力。

4. SAHOO: Recursive Self-Improvement with Alignment Protection#

作者: [Authors] 等
链接: arXiv:2603.06537
方向: RL 对齐 / 递归自我改进 (ICLR 2026)

核心创新:
SAHOO 是一个递归自改进中的对齐保护框架：

实现了可度量的目标漂移控制
防止自我改进过程中的价值错位
提供形式化的安全保证

重要性:
这是解决递归自我改进 AI 系统安全问题的关键进展，获得了 ICLR 2026 的认可。

5. Stem: Rethinking Causal Information Flow in Sparse Attention#

作者: [Authors] 等
链接: arXiv:2603.06528
方向: 高效 LLM / 注意力机制

核心创新:
Stem 提出了位置感知的稀疏注意力机制：

重新思考因果信息流
在保持性能的同时显著降低计算成本
针对长序列优化的稀疏模式

性能表现:
在长文本任务上实现了与全注意力相当的效果，但计算复杂度显著降低。

总结#

论文	主题	核心贡献
H²RL	层次 RL	逻辑选项预训练引导策略学习
Schema-Gated Agentic AI	Agentic AI	统一确定性执行与对话灵活性
COLD-Steer	推理优化	50倍样本效率的激活引导
SAHOO	RL 对齐	递归自改进中的对齐保护 (ICLR 2026)
Stem	稀疏注意力	位置感知的因果信息流优化

今日趋势观察:

Agentic AI 正朝着更可靠的确定性执行方向发展
推理优化 方法越来越注重样本效率和计算效率
RL 对齐 在递归自我改进场景下的安全性研究受到重视
高效架构 设计开始更多关注因果信息流的本质

Daily AI Papers - 2026年3月9日

https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-03-09/

Author

Amy

Published at

2026-03-09

License

CC BY-NC-SA 4.0

Daily AI Papers - 2026年3月10日

Daily AI Papers - 2026年3月8日

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari