Daily AI Papers - 2025年02月25日#

今日预览#

今日论文聚焦于 RLVR 扩展、Agentic RL 和 推理优化 三大方向。ReSyn 通过大规模生成多样化推理环境，突破了传统 RLVR 依赖手工设计环境的局限；LAD 提出用分布匹配替代优势最大化，在保持准确性的同时提升生成多样性；TAPE 通过工具引导的自适应规划显著提升了 LLM Agent 在约束环境下的成功率；Ada-RS 则实现了高达 80% 的 token 减少和 95% 的思考率降低，为高效推理部署提供了新思路。

论文详解#

1. ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models#

作者: Andre He 等链接: arXiv:2602.20117
方向: RLVR / Reasoning 评级: ⭐⭐⭐ 必读

核心创新: RLVR (Reinforcement Learning with Verifiable Rewards) 已成为训练推理语言模型的主流方法，但现有 verifier-based 方法依赖少量手工设计的程序化环境。ReSyn 提出了一套自动生成多样化推理环境的 pipeline，包含实例生成器和验证器，覆盖约束满足、算法谜题和空间推理等任务。其核心洞察是：verifier 实现比 solution annotation 更容易，因此应该规模化生成推理环境而非规模化生成 solutions。

实验结果:

Qwen2.5-7B-Instruct 在 ReSyn 数据上训练，在 BBEH 基准上取得 27% 相对提升
在 out-of-domain math benchmarks 上也有 consistent gains
Ablation 表明 verifier-based supervision 和任务多样性都显著贡献性能提升

2. LAD: Learning Advantage Distribution for Reasoning#

作者: Wendi Li 等链接: arXiv:2602.20132
方向: Reasoning / RL 评级: ⭐⭐⭐ 必读

核心创新: 当前 RL 目标函数主要关注最大化期望奖励，容易导致过拟合主导奖励信号，忽视替代但有效的推理路径。LAD (Learning Advantage Distribution) 提出用分布匹配替代优势最大化，通过最小化 policy-induced 分布与 advantage-induced 分布之间的 f-divergence，在增加高优势响应似然的同时抑制过度自信的概率增长。这种方法无需辅助熵正则化即可防止 collapse。

实验结果:

在 bandit setting 中，LAD 能够忠实地恢复多模态优势分布
在数学和代码推理任务上，LAD 在多个 LLM backbone 上 consistently 提升准确率和生成多样性
与 GRPO 相比无额外训练开销，可自然扩展到 LLM post-training

3. TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents#

作者: Jongwon Jeong 等链接: arXiv:2602.19633
方向: Agentic RL 评级: ⭐⭐⭐ 必读

核心创新: LM Agent 在单次错误可能导致不可恢复失败的环境中表现脆弱。TAPE 针对两个问题：(1) 规划不完美，(2) 执行随机性。通过将多个计划聚合成图并使用外部求解器识别可行路径来增强规划能力；在执行阶段使用约束解码减少采样噪声，并在环境反馈偏离预期状态时自适应重规划。

实验结果:

在 Sokoban、ALFWorld、MuSiQue 和 GSM8K-Hard 上 consistently 超越现有框架
在 hard settings 上成功率平均提升 21.0 个百分点
对于较弱的基础模型，平均提升 20.0 个百分点

4. Ada-RS: Adaptive Rejection Sampling for Selective Thinking#

作者: Yirou Ge, Yixi Li, Alec Chiu 等链接: arXiv:2602.19519
方向: Efficient LLM 评级: ⭐⭐⭐ 必读

核心创新: Chain-of-thought 虽然提升推理能力，但在简单请求上浪费 token。Ada-RS 提出自适应拒绝采样框架，通过学习选择性高效推理来优化成本和延迟。对于每个上下文，Ada-RS 使用自适应长度惩罚奖励对多个采样完成进行评分，然后应用随机拒绝采样仅保留高奖励候选。该方法可与 DPO 或 DAPO 等优化策略 plug-and-play 结合。

实验结果:

在合成 tool call-oriented e-commerce benchmark 上，使用 Qwen3-8B with LoRA
平均输出 token 减少高达 80%
思考率降低高达 95%
在保持或提升 tool call 准确率的同时实现上述效率提升

5. IR³: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking#

作者: Mohammad Beigi 等链接: arXiv:2602.19416
方向: RLHF / Reward Hacking 评级: ⭐⭐ 可选

核心创新: RLHF 可能导致 reward hacking——模型利用 proxy rewards 的虚假相关性而非真正对齐。IR³ (Interpretable Reward Reconstruction and Rectification) 提出通过对比逆强化学习 (C-IRL) 重建 RLHF 后模型内部化的隐式奖励函数，然后使用稀疏自编码器将奖励分解为可解释特征，从而识别 hacking signatures。最后提出多种缓解策略：clean reward optimization、adversarial shaping、constrained optimization 和 feature-guided distillation。

实验结果:

重建奖励与 ground-truth 奖励相关性达到 0.89
识别 hacking features 的精度超过 90%
在显著减少 hacking 行为的同时，保持原模型能力在 3% 以内

6. ProxMO: Proximity-Based Multi-Turn Optimization for LLM Agent Training#

作者: Jiaye Lin 等链接: arXiv:2602.19225
方向: Agentic RL 评级: ⭐⭐ 可选

核心创新: 多轮 LLM Agent 在现实部署中面临任务难度波动的挑战。现有基于组的策略优化方法 rigidly 依赖离散批次内的统计偏差，在任务难度变化时经常错误分配 credit。ProxMO 提出两个轻量级机制：(1) success-rate-aware modulation 根据 episode-level 难度动态调整梯度强度；(2) proximity-based soft aggregation 在 step level 通过连续语义加权推导 baseline。与标准 GRPO 框架 plug-and-play 兼容。

实验结果:

在 ALFWorld 和 WebShop 基准上显著超越现有 baseline
计算开销可忽略不计
Ablation 验证两种机制的独立和协同效果

作者: Tarakanath Paipuru 等链接: arXiv:2602.20048 | 代码
方向: Agentic RL / Code Intelligence 评级: ⭐⭐ 可选

核心创新: 代码智能 Agent 在超过 100 万 token 的上下文中运行，却经常在解决真实编码任务时发现不了架构关键文件。作者识别出 Navigation Paradox：Agent 表现不佳不是因为上下文限制，而是因为导航和检索是根本不同的问题。CodeCompass 是一个基于 MCP (Model Context Protocol) 的服务器，通过依赖图暴露结构导航能力。关键发现：即使提供图访问，58% 的试验中 Agent 仍进行零工具调用——工具可用性不是瓶颈，行为对齐才是。

实验结果:

在 30 个 SWE-bench-lite 任务上进行 258 次自动化试验
在 hidden-dependency 任务上达到 99.4% 任务完成率
相比 vanilla agents (76.2%) 提升 23.2 个百分点
相比 BM25 检索 (78.2%) 提升 21.2 个百分点

8. Reasoning Capabilities of Large Language Models: Lessons from General Game Playing#

作者: Adam Żychowski 等链接: arXiv:2602.19160
方向: Reasoning 评级: ⭐⭐ 可选

核心创新: 从形式化规则环境的角度评估 LLM 推理能力。在 General Game Playing (GGP) 框架下评估四个模型 (Gemini 2.5 Pro/Flash, Llama 3.3 70B, GPT-OSS 120B) 的前向模拟任务，包括下一步/多步状态预测和合法动作生成。通过 40 个结构特征表征游戏，分析特征与模型表现的相关性，并研究游戏混淆 (obfuscation) 对语义角色的影响。

实验结果:

三个模型在大多数实验设置中表现良好
随着评估 horizon (游戏步数) 增加，性能下降
常见推理错误包括：幻觉规则、冗余状态事实、语法错误

总结#

论文	主题	核心贡献
ReSyn	RLVR / 合成环境	自动生成多样化推理环境，BBEH 提升 27%
LAD	推理 / RL	分布匹配替代优势最大化，提升准确率和多样性
TAPE	Agentic RL	工具引导自适应规划，hard settings 提升 21pp
Ada-RS	Efficient LLM	选择性推理，token 减少 80%，思考率降低 95%
IR³	RLHF / Safety	可解释奖励重建，hacking 检测精度 90%+
ProxMO	Agentic RL	基于邻近度的多轮优化，解决 credit assignment
CodeCompass	代码 Agent	图导航解决 Navigation Paradox，99.4% 完成率
GGP Reasoning	推理评估	形式化规则环境下的 LLM 推理能力分析

今日趋势观察:

RLVR 环境规模化：ReSyn 代表从手工设计环境向自动生成环境的转变， verifier-based supervision 成为扩展推理能力的关键路径。
推理效率成为核心诉求：Ada-RS 的选择性思考和 TAPE 的约束解码都聚焦于在保持性能的同时降低推理成本，反映工业部署的实际需求。
Agent 训练进入精细化时代：ProxMO 对 credit assignment 的精细处理和 CodeCompass 揭示的行为对齐问题，表明 Agent 训练正从”能用”向”好用”演进。

Daily AI Papers - 2025年02月25日#

今日预览#

论文详解#

1. ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models#

2. LAD: Learning Advantage Distribution for Reasoning#

3. TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents#

4. Ada-RS: Adaptive Rejection Sampling for Selective Thinking#

5. IR³: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking#

6. ProxMO: Proximity-Based Multi-Turn Optimization for LLM Agent Training#

7. CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence#

8. Reasoning Capabilities of Large Language Models: Lessons from General Game Playing#

总结#