Daily AI Papers - 2026年02月24日#

今日预览#

今日从 arXiv 筛选出 8篇高质量论文，涵盖 Decoding优化、高效推理、模型压缩、Agentic RL、Neurosymbolic Reasoning、Cross-Embodiment RL 和 长时程Agent系统。今日 HuggingFace Daily Papers 因网络问题暂未获取，日报基于 arXiv cs.AI/cs.LG/cs.CL 更新。

必读推荐：

Decoding as Optimisation on the Probability Simplex: 统一解码框架，Best-of-K采样器在MATH500上带来+18.6%提升
RAT+: “训练密集、推理稀疏”新范式，16倍稀疏接近密集准确率
Diffusing to Coordinate: 首个在线多智能体扩散策略框架，样本效率提升2.5-5倍
Cross-Embodiment Offline RL: ICLR 2026，16种机器人平台的跨具身离线RL系统研究

论文详解#

1. Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers#

作者: Xiaotong Ji 等
链接: arXiv:2602.18292
方向: Decoding / Reasoning

核心创新：该研究将解码重新定义为概率单纯形上的正则化优化问题，统一了贪婪解码、Softmax采样、Top-K、Top-P和Sparsemax等方法。作者提出 Best-of-K (BoK) 采样器，通过KL锚定的覆盖率目标，在固定K样本预算内最大化覆盖优质备选答案的概率。

实验结果：

Qwen2.5-Math-7B on MATH500: +18.6% accuracy at high temperature
统一框架解释了现有解码方法的共同结构

评价: ⭐⭐⭐ 必读 — 为解码策略提供了理论统一的视角，BoK采样器对推理任务有显著效果提升。

2. RAT+: Train Dense, Infer Sparse — Recurrence Augmented Attention for Dilated Inference#

作者: Xiuying Wei 等
链接: arXiv:2602.18196
方向: Efficient LLM / Attention

核心创新： RAT+ 解决了结构化稀疏注意力在推理时的准确率下降问题。通过在注意力中增强全序列循环机制，模型只需一次密集预训练，即可在推理时灵活切换到不同膨胀率的稀疏注意力模式，仅需 1B token的短适应 即可恢复性能。

实验结果：

1.5B参数，100B tokens训练
16倍稀疏: 接近密集准确率
64倍稀疏: 仅下降2-3个百分点
在常识推理和LongBench上超越top-k块注意力

评价: ⭐⭐⭐ 必读 — 提出了”训练密集、推理稀疏”的实用范式，对部署大规模模型具有重要价值。

3. Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies#

作者: Zhuoran Li 等
链接: arXiv:2602.18291
方向: Agentic RL / Multi-Agent RL

核心创新：扩散模型在表达性方面展现巨大潜力，但将其应用于在线多智能体强化学习(MARL)面临核心障碍：扩散模型的似然难以计算，阻碍了基于熵的探索和协调。本文提出 OMAD (Online off-policy MARL with Diffusion policies)，这是首个在线MARL扩散策略框架。

关键创新包括：

松弛策略目标：最大化缩放联合熵，无需依赖可计算似然即可实现有效探索
联合分布价值函数：在CTDE范式下，利用可计算熵增强目标引导扩散策略同步更新，确保稳定协调

实验结果：在MPE和MAMuJoCo基准上进行广泛评估，在10个多样化任务上建立了新的SOTA。与现有方法相比，样本效率提升 2.5倍到5倍。

评价: ⭐⭐⭐ 必读 — 多智能体扩散策略的开创性工作，样本效率提升显著。

4. Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets#

作者: Haruki Abe 等 (ICLR 2026)
链接: arXiv:2602.18025
方向: Offline RL / Robotics / Cross-Embodiment

核心创新：可扩展的机器人策略预训练因收集高质量演示成本高而受阻。本文将离线强化学习与跨具身学习相结合：离线RL利用专家和丰富的次优数据，跨具身学习聚合不同形态的异构机器人轨迹以获得通用控制先验。

作者系统分析了这种组合方法的优势和局限，构建了一个包含16种不同机器人平台的运动数据集套件。针对多机器人类型间冲突梯度问题，提出了基于具身的分组策略：按形态相似性聚类机器人，使用组梯度更新模型，显著减少机器人间冲突。

评价: ⭐⭐⭐ 必读 — ICLR 2026，跨具身离线RL的系统研究，16种机器人平台的大规模实验。

5. SPQ: An Ensemble Technique for Large Language Model Compression#

作者: Eren Gultepe, Jiamin Yao 等 (LREC 2026)
链接: arXiv:2602.18420 | 代码
方向: Efficient LLM / Model Compression

核心创新： SPQ 结合三种互补技术：基于激活的剪枝移除MLP冗余神经元、SVD将注意力投影压缩为低秩因子、8-bit后训练量化统一压缩线性层。在相同压缩比下，SPQ在困惑度和下游任务上均优于单一方法。

实验结果：应用于LLaMA-2-7B：

75%内存减少（6.86 GB vs 26.9 GB）
WikiText-2困惑度: 5.47 → 4.91
推理吞吐量比GPTQ提升 1.9倍
在C4、TruthfulQA、GSM8K等下游基准上保持准确率

评价: ⭐⭐⭐ 必读 — LREC 2026，三阶段压缩策略实用且效果显著，开源代码，特别适合资源受限环境的部署需求。

6. Neurosymbolic Language Reasoning as Satisfiability Modulo Theory#

作者: Matthai Philipose 等
链接: arXiv:2602.18095
方向: Reasoning / Neurosymbolic

核心创新：自然语言理解需要文本推理与逻辑推理的交错，但LLM在此类推理上往往不可靠。现有神经符号系统将LLM与求解器结合，但仅限于完全形式化的任务（如数学或程序合成），无法处理仅具有部分逻辑结构的自然文档。

本文提出 Logitext，一种神经符号语言，将文档表示为自然语言文本约束(NLTC)，使部分逻辑结构显式化。开发了一种将基于LLM的约束评估与可满足性模理论(SMT)求解相结合的算法，实现联合文本-逻辑推理。

实验结果：在内容审核新基准以及LegalBench和Super-Natural Instructions上的实验表明，Logitext提高了准确率和覆盖率。这是首次将LLM推理视为SMT理论的工作，将神经符号方法扩展到非完全形式化领域。

评价: ⭐⭐⭐ 必读 — 首次将LLM推理建模为SMT理论，扩展了神经符号方法的适用范围。

7. On the “Induction Bias” in Sequence Models#

作者: MReza Ebrahimi 等
链接: arXiv:2602.18333
方向: Model Architecture / Efficiency

核心创新：该研究系统比较了Transformer和RNN在状态跟踪任务上的数据效率。发现Transformer所需训练数据随状态空间大小和序列长度增长的速度远快于RNN。更关键的是，Transformer在不同序列长度间几乎没有权重共享，而循环模型通过跨长度共享权重实现了有效的摊销学习。

实验结果：

大规模实验对比Transformer与RNN
Transformer训练数据需求随状态空间/序列长度快速增长
RNN表现出有效的跨长度权重共享

评价: ⭐⭐ 可选 — 对理解Transformer的归纳偏置有启发，但主要是诊断性研究而非新方法。

8. Alignment in Time: Peak-Aware Orchestration for Long-Horizon Agentic Systems#

作者: Hanjing Shi 等
链接: arXiv:2602.17910
方向: Agentic Systems / AI Alignment

核心创新：传统AI对齐主要关注单个模型输出，但长时程工作流中的自主Agent需要在整个交互轨迹上保持持续可靠性。本文提出 APEMO (Affect-aware Peak-End Modulation for Orchestration)，一种运行时调度层。

APEMO通过行为代理检测轨迹不稳定性，并在关键时刻（峰值时刻和结束点）有针对性地进行修复。与修改模型权重不同，APEMO在固定预算下优化计算分配。

实验结果：在多智能体模拟和基于LLM的规划器-执行器流程评估中，APEMO在轨迹级质量和重用概率上持续优于结构性编排器。

评价: ⭐⭐ 可选 — 长时程Agent系统的对齐新视角，但实验规模相对有限。

总结#

论文	主题	核心贡献	评级
Decoding as Optimisation on the Probability Simplex	Decoding优化	统一解码框架，Best-of-K采样器MATH500+18.6%	⭐⭐⭐
RAT+: Train Dense, Infer Sparse	高效推理	密集训练稀疏推理，16倍稀疏接近密集准确率	⭐⭐⭐
Diffusing to Coordinate	Agentic RL	首个在线MARL扩散策略框架，样本效率2.5-5倍	⭐⭐⭐
Cross-Embodiment Offline RL	Robotics	ICLR 2026，16种机器人平台跨具身离线RL	⭐⭐⭐
SPQ	模型压缩	SVD+剪枝+量化，75%内存压缩，1.9倍吞吐提升	⭐⭐⭐
Neurosymbolic Language Reasoning as SMT	Reasoning	首次将LLM推理建模为SMT理论	⭐⭐⭐
On the “Induction Bias” in Sequence Models	架构分析	Transformer vs RNN状态跟踪能力对比	⭐⭐
Alignment in Time	Agentic Systems	长时程Agent系统的峰值感知编排	⭐⭐

今日趋势观察：

解码策略理论化: 将启发式解码方法统一为优化框架成为新趋势，有助于更系统地设计采样策略。
稀疏推理实用化: “训练密集、推理稀疏”范式日趋成熟，RAT+和SPQ分别从不同角度推进高效推理的可行性。
扩散模型扩展到决策领域: OMAD将扩散策略引入在线MARL，展示了生成模型在策略表达性上的优势。
神经符号方法走向实用化: Logitext将神经符号推理扩展到非完全形式化领域，突破了传统限制。

注: HuggingFace Daily Papers 今日访问受限，本期仅覆盖 arXiv 更新。明日将尝试恢复 HF 数据源。

数据来源: arXiv (cs.AI, cs.LG, cs.CL) | 筛选时间: 2026-02-24 | 编辑: Amy