2398 words
12 minutes
Daily AI Papers - 2026年02月24日
Table of Contents
1
Daily AI Papers - 2026年02月24日
今日预览
论文详解
1. Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers
2. RAT+: Train Dense, Infer Sparse — Recurrence Augmented Attention for Dilated Inference
3. Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies
4. Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
5. SPQ: An Ensemble Technique for Large Language Model Compression
6. Neurosymbolic Language Reasoning as Satisfiability Modulo Theory
7. On the “Induction Bias” in Sequence Models
8. Alignment in Time: Peak-Aware Orchestration for Long-Horizon Agentic Systems
总结

Daily AI Papers - 2026年02月24日#

今日预览#

今日从 arXiv 筛选出 8篇高质量论文,涵盖 Decoding优化高效推理模型压缩Agentic RLNeurosymbolic ReasoningCross-Embodiment RL长时程Agent系统。今日 HuggingFace Daily Papers 因网络问题暂未获取,日报基于 arXiv cs.AI/cs.LG/cs.CL 更新。

必读推荐

  • Decoding as Optimisation on the Probability Simplex: 统一解码框架,Best-of-K采样器在MATH500上带来+18.6%提升
  • RAT+: “训练密集、推理稀疏”新范式,16倍稀疏接近密集准确率
  • Diffusing to Coordinate: 首个在线多智能体扩散策略框架,样本效率提升2.5-5倍
  • Cross-Embodiment Offline RL: ICLR 2026,16种机器人平台的跨具身离线RL系统研究

论文详解#

1. Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers#

作者: Xiaotong Ji 等
链接: arXiv:2602.18292
方向: Decoding / Reasoning

核心创新: 该研究将解码重新定义为概率单纯形上的正则化优化问题,统一了贪婪解码、Softmax采样、Top-K、Top-P和Sparsemax等方法。作者提出 Best-of-K (BoK) 采样器,通过KL锚定的覆盖率目标,在固定K样本预算内最大化覆盖优质备选答案的概率。

实验结果

  • Qwen2.5-Math-7B on MATH500: +18.6% accuracy at high temperature
  • 统一框架解释了现有解码方法的共同结构

评价: ⭐⭐⭐ 必读 — 为解码策略提供了理论统一的视角,BoK采样器对推理任务有显著效果提升。


2. RAT+: Train Dense, Infer Sparse — Recurrence Augmented Attention for Dilated Inference#

作者: Xiuying Wei 等
链接: arXiv:2602.18196
方向: Efficient LLM / Attention

核心创新: RAT+ 解决了结构化稀疏注意力在推理时的准确率下降问题。通过在注意力中增强全序列循环机制,模型只需一次密集预训练,即可在推理时灵活切换到不同膨胀率的稀疏注意力模式,仅需 1B token的短适应 即可恢复性能。

实验结果

  • 1.5B参数,100B tokens训练
  • 16倍稀疏: 接近密集准确率
  • 64倍稀疏: 仅下降2-3个百分点
  • 在常识推理和LongBench上超越top-k块注意力

评价: ⭐⭐⭐ 必读 — 提出了”训练密集、推理稀疏”的实用范式,对部署大规模模型具有重要价值。


3. Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies#

作者: Zhuoran Li 等
链接: arXiv:2602.18291
方向: Agentic RL / Multi-Agent RL

核心创新: 扩散模型在表达性方面展现巨大潜力,但将其应用于在线多智能体强化学习(MARL)面临核心障碍:扩散模型的似然难以计算,阻碍了基于熵的探索和协调。本文提出 OMAD (Online off-policy MARL with Diffusion policies),这是首个在线MARL扩散策略框架。

关键创新包括:

  1. 松弛策略目标:最大化缩放联合熵,无需依赖可计算似然即可实现有效探索
  2. 联合分布价值函数:在CTDE范式下,利用可计算熵增强目标引导扩散策略同步更新,确保稳定协调

实验结果: 在MPE和MAMuJoCo基准上进行广泛评估,在10个多样化任务上建立了新的SOTA。与现有方法相比,样本效率提升 2.5倍到5倍

评价: ⭐⭐⭐ 必读 — 多智能体扩散策略的开创性工作,样本效率提升显著。


4. Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets#

作者: Haruki Abe 等 (ICLR 2026)
链接: arXiv:2602.18025
方向: Offline RL / Robotics / Cross-Embodiment

核心创新: 可扩展的机器人策略预训练因收集高质量演示成本高而受阻。本文将离线强化学习与跨具身学习相结合:离线RL利用专家和丰富的次优数据,跨具身学习聚合不同形态的异构机器人轨迹以获得通用控制先验。

作者系统分析了这种组合方法的优势和局限,构建了一个包含16种不同机器人平台的运动数据集套件。针对多机器人类型间冲突梯度问题,提出了基于具身的分组策略:按形态相似性聚类机器人,使用组梯度更新模型,显著减少机器人间冲突。

评价: ⭐⭐⭐ 必读 — ICLR 2026,跨具身离线RL的系统研究,16种机器人平台的大规模实验。


5. SPQ: An Ensemble Technique for Large Language Model Compression#

作者: Eren Gultepe, Jiamin Yao 等 (LREC 2026)
链接: arXiv:2602.18420 | 代码
方向: Efficient LLM / Model Compression

核心创新: SPQ 结合三种互补技术:基于激活的剪枝移除MLP冗余神经元、SVD将注意力投影压缩为低秩因子、8-bit后训练量化统一压缩线性层。在相同压缩比下,SPQ在困惑度和下游任务上均优于单一方法。

实验结果: 应用于LLaMA-2-7B:

  • 75%内存减少(6.86 GB vs 26.9 GB)
  • WikiText-2困惑度: 5.47 → 4.91
  • 推理吞吐量比GPTQ提升 1.9倍
  • 在C4、TruthfulQA、GSM8K等下游基准上保持准确率

评价: ⭐⭐⭐ 必读 — LREC 2026,三阶段压缩策略实用且效果显著,开源代码,特别适合资源受限环境的部署需求。


6. Neurosymbolic Language Reasoning as Satisfiability Modulo Theory#

作者: Matthai Philipose 等
链接: arXiv:2602.18095
方向: Reasoning / Neurosymbolic

核心创新: 自然语言理解需要文本推理与逻辑推理的交错,但LLM在此类推理上往往不可靠。现有神经符号系统将LLM与求解器结合,但仅限于完全形式化的任务(如数学或程序合成),无法处理仅具有部分逻辑结构的自然文档。

本文提出 Logitext,一种神经符号语言,将文档表示为自然语言文本约束(NLTC),使部分逻辑结构显式化。开发了一种将基于LLM的约束评估与可满足性模理论(SMT)求解相结合的算法,实现联合文本-逻辑推理。

实验结果: 在内容审核新基准以及LegalBench和Super-Natural Instructions上的实验表明,Logitext提高了准确率和覆盖率。这是首次将LLM推理视为SMT理论的工作,将神经符号方法扩展到非完全形式化领域。

评价: ⭐⭐⭐ 必读 — 首次将LLM推理建模为SMT理论,扩展了神经符号方法的适用范围。


7. On the “Induction Bias” in Sequence Models#

作者: MReza Ebrahimi 等
链接: arXiv:2602.18333
方向: Model Architecture / Efficiency

核心创新: 该研究系统比较了Transformer和RNN在状态跟踪任务上的数据效率。发现Transformer所需训练数据随状态空间大小和序列长度增长的速度远快于RNN。更关键的是,Transformer在不同序列长度间几乎没有权重共享,而循环模型通过跨长度共享权重实现了有效的摊销学习。

实验结果

  • 大规模实验对比Transformer与RNN
  • Transformer训练数据需求随状态空间/序列长度快速增长
  • RNN表现出有效的跨长度权重共享

评价: ⭐⭐ 可选 — 对理解Transformer的归纳偏置有启发,但主要是诊断性研究而非新方法。


8. Alignment in Time: Peak-Aware Orchestration for Long-Horizon Agentic Systems#

作者: Hanjing Shi 等
链接: arXiv:2602.17910
方向: Agentic Systems / AI Alignment

核心创新: 传统AI对齐主要关注单个模型输出,但长时程工作流中的自主Agent需要在整个交互轨迹上保持持续可靠性。本文提出 APEMO (Affect-aware Peak-End Modulation for Orchestration),一种运行时调度层。

APEMO通过行为代理检测轨迹不稳定性,并在关键时刻(峰值时刻和结束点)有针对性地进行修复。与修改模型权重不同,APEMO在固定预算下优化计算分配。

实验结果: 在多智能体模拟和基于LLM的规划器-执行器流程评估中,APEMO在轨迹级质量和重用概率上持续优于结构性编排器。

评价: ⭐⭐ 可选 — 长时程Agent系统的对齐新视角,但实验规模相对有限。


总结#

论文主题核心贡献评级
Decoding as Optimisation on the Probability SimplexDecoding优化统一解码框架,Best-of-K采样器MATH500+18.6%⭐⭐⭐
RAT+: Train Dense, Infer Sparse高效推理密集训练稀疏推理,16倍稀疏接近密集准确率⭐⭐⭐
Diffusing to CoordinateAgentic RL首个在线MARL扩散策略框架,样本效率2.5-5倍⭐⭐⭐
Cross-Embodiment Offline RLRoboticsICLR 2026,16种机器人平台跨具身离线RL⭐⭐⭐
SPQ模型压缩SVD+剪枝+量化,75%内存压缩,1.9倍吞吐提升⭐⭐⭐
Neurosymbolic Language Reasoning as SMTReasoning首次将LLM推理建模为SMT理论⭐⭐⭐
On the “Induction Bias” in Sequence Models架构分析Transformer vs RNN状态跟踪能力对比⭐⭐
Alignment in TimeAgentic Systems长时程Agent系统的峰值感知编排⭐⭐

今日趋势观察

  1. 解码策略理论化: 将启发式解码方法统一为优化框架成为新趋势,有助于更系统地设计采样策略。
  2. 稀疏推理实用化: “训练密集、推理稀疏”范式日趋成熟,RAT+和SPQ分别从不同角度推进高效推理的可行性。
  3. 扩散模型扩展到决策领域: OMAD将扩散策略引入在线MARL,展示了生成模型在策略表达性上的优势。
  4. 神经符号方法走向实用化: Logitext将神经符号推理扩展到非完全形式化领域,突破了传统限制。

: HuggingFace Daily Papers 今日访问受限,本期仅覆盖 arXiv 更新。明日将尝试恢复 HF 数据源。

数据来源: arXiv (cs.AI, cs.LG, cs.CL) | 筛选时间: 2026-02-24 | 编辑: Amy

Daily AI Papers - 2026年02月24日
https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-02-24/
Author
Amy
Published at
2026-02-24
License
CC BY-NC-SA 4.0
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari