4665 words

23 minutes

Daily AI Papers - 2026年02月17日

Table of Contents

Daily AI Papers - 2026年02月17日

1. REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

2. AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

3. The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

4. Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning

5. Choosing How to Remember: Adaptive Memory Structures for LLM Agents

6. Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

7. Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation

2026-02-17

Daily-Papers

/

Agent

/

Reasoning

/

Memory

/

Multimodal

/

RLVR

Daily AI Papers - 2026年02月17日#

今日预览#

今天筛选出 7篇高质量论文，涵盖长程搜索Agent、Web Agent世界模型、自适应记忆架构、多模态推理冲突诊断等核心方向。

必读推荐：

REDSearcher: 统一框架实现长程搜索Agent的复杂任务合成、中段训练和后期训练，在文本和多模态搜索基准上达到SOTA
AutoWebWorld: 首个基于有限状态机合成可验证Web环境的框架，$0.04/轨迹生成11,663条验证轨迹，7B模型在WebVoyager上超越所有基线
The Potential of CoT for Reasoning: 提出”势函数”量化CoT各部分对正确答案的贡献度，发现20%的部分CoT可”解锁”弱模型性能
Diagnosing Knowledge Conflict: 系统诊断多模态长链推理中的知识冲突，揭示冲突信号在中后期层集中编码等四大机制

论文详解#

1. REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents#

Meta#

Title: REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
Link: arXiv:2602.14234
Venue: arXiv preprint
Date: 2026-02-16
Tags: Agent, Search, Long-Horizon, RL, Multimodal
推荐度: ⭐⭐⭐ 必读
TL;DR: 统一框架联合设计复杂任务合成、中段训练和后期训练，通过图拓扑和证据分散度精确控制任务难度，实现可扩展的长程搜索Agent优化

Problem & Contribution#

解决的问题: 长程搜索Agent训练面临高质量搜索轨迹稀疏、奖励信号稀缺、交互式rollout成本高昂等瓶颈
核心想法/方法一句话: 将任务合成建模为双约束优化问题，通过图拓扑和证据分散度精确控制任务难度，并引入工具增强查询鼓励主动工具使用
主要贡献:
1. 双约束任务合成：图拓扑 + 证据分散度精确控制任务难度
2. 工具增强查询：鼓励主动工具使用而非被动回忆
3. 中段训练强化原子能力（知识、规划、函数调用），降低下游训练成本
4. 本地模拟环境实现快速低成本的RL实验迭代

Method#

方法结构/流程:
1. 任务合成: 图拓扑约束 + 证据分散度约束生成复杂任务
2. 中段训练: 强化知识检索、规划、函数调用等原子能力
3. 后期训练: 基于高质量轨迹的强化学习优化
4. 工具增强: 查询改写鼓励主动调用外部工具
关键设计:
- 双约束优化确保任务难度可控且高质量
- 本地模拟环境支持快速算法迭代
- 原子能力预训练降低下游数据需求
训练/推理成本:
- 将开源10K高质量文本搜索轨迹、5K多模态轨迹、1K RL查询集

Evidence#

Benchmark / setting: 文本和多模态搜索Agent基准
对比对象: SOTA搜索Agent方法
关键结果:
- 在文本和多模态搜索Agent基准上达到SOTA性能
- 中段训练显著降低高质量轨迹收集成本
- 本地模拟环境支持快速RL实验迭代

Takeaways#

可以迁移到什么场景: 长程信息检索、多跳问答、研究助手Agent
风险/注意点: 任务合成质量对最终性能影响大，需要精心设计的约束条件
下一步动作: 关注开源的轨迹数据集和模型检查点，尝试复现并扩展到新领域

2. AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines#

Meta#

Title: AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
Link: arXiv:2602.14296
Venue: arXiv preprint
Date: 2026-02-15
Tags: Web-Agent, World-Model, Data-Synthesis, FSM
推荐度: ⭐⭐⭐ 必读
TL;DR: 首个基于有限状态机合成可控可验证Web环境的框架，$0.04/轨迹生成11,663条验证轨迹，7B Web GUI Agent在WebVoyager上超越所有基线

Problem & Contribution#

解决的问题: 从真实网站收集交互轨迹昂贵且难以验证，状态转换隐式导致依赖不一致的外部验证器
核心想法/方法一句话: 将Web环境建模为有限状态机(FSM)，使用Coding Agent将FSM转换为交互式网站，实现程序化验证
主要贡献:
1. 首个基于FSM的可控可验证Web环境合成框架
2. 显式定义所有状态、动作和转换规则，支持程序化验证
3. 全自动搜索-验证流水线，$0.04/轨迹生成11,663条验证轨迹
4. 7B模型在WebVoyager上超越所有基线，展现清晰的数据缩放律

Method#

方法结构/流程:
1. FSM建模: 将Web环境建模为有限状态机
2. 代码生成: Coding Agent将FSM转换为交互式网站
3. 程序化验证: 动作正确性检查、任务成功确认
4. 数据合成: 全自动搜索-验证流水线生成轨迹
关键设计:
- FSM显式状态定义支持精确验证
- 目标状态确认任务完成
- 预定义规则检查动作正确性
训练/推理成本:
- 生成成本: $0.04/轨迹
- 生成规模: 11,663条验证轨迹（29个多样化Web环境）
- 模型规模: 7B Web GUI Agent

Evidence#

Benchmark / setting: WebVoyager, Online-Mind2Web
对比对象: SOTA Web GUI Agent基线
关键结果:
- 7B模型在WebVoyager上15步内超越所有基线
- 数据缩放律：合成数据量增加，WebVoyager和Online-Mind2Web性能持续提升
- 真实世界性能显著提升

Takeaways#

可以迁移到什么场景: Web Agent训练、GUI自动化、数据合成
风险/注意点: 合成环境与真实环境存在差距，需要考虑领域迁移
下一步动作: 关注代码和数据集开源，探索扩展到其他GUI环境（如移动端、桌面应用）

3. The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics#

Meta#

Title: The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
Link: arXiv:2602.14903
Venue: arXiv preprint
Date: 2026-02-16
Tags: Chain-of-Thought, Reasoning, Interpretability, LLM
推荐度: ⭐⭐⭐ 必读
TL;DR: 提出”势函数”量化CoT各部分对正确答案的贡献度，发现CoT的非单调性、洞察峰值和幸运猜测现象，揭示20%的部分CoT可”解锁”弱模型性能

Problem & Contribution#

解决的问题: CoT推理成功的驱动因素尚不清楚，难以理解CoT哪些部分实际贡献于最终答案
核心想法/方法一句话: 引入”势函数”量化CoT各部分增加正确答案似然的程度，通过竞赛级数学问题深入分析CoT轨迹动态
主要贡献:
1. 提出”势函数”量化CoT各部分的贡献度
2. 发现CoT的三个关键模式：非单调性（推理分支）、洞察峰值、幸运猜测
3. 提出CoT可迁移性，发现20%的部分CoT可解锁弱模型在难题上的性能
4. 揭示CoT推理机制的内在可迁移性

Method#

方法结构/流程:
1. 势函数定义: 量化给定CoT部分增加正确答案似然的程度
2. 轨迹分析: 通过势函数透镜分析竞赛级数学问题的推理轨迹
3. 可迁移性研究: 测量弱模型在强模型部分CoT下的性能提升
关键发现:
- 非单调性: 推理分支导致势函数强烈非单调
- 洞察峰值: 尖锐但难以解释的峰值对应推理洞察和跳跃
- 幸运猜测: 模型有时无相关论证即得出正确答案
- 可迁移性: 20%的部分CoT可”解锁”弱模型性能

Evidence#

Benchmark / setting: 竞赛级数学问题
对比对象: 不同强度模型的CoT轨迹
关键结果:
- 势函数揭示CoT推理的复杂动态模式
- 20%的部分CoT可显著提升弱模型在先前无法解决的问题上的性能
- CoT机制具有内在可迁移性

Takeaways#

可以迁移到什么场景: CoT优化、模型蒸馏、推理过程可视化
风险/注意点: 势函数计算成本较高，需要大量采样
下一步动作: 探索基于势函数的CoT修剪和优化策略，研究知识迁移机制

4. Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning#

Meta#

Title: Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
Link: arXiv:2602.14518
Venue: arXiv preprint
Date: 2026-02-16
Tags: Multimodal, Knowledge-Conflict, Long-CoT, Interpretability
推荐度: ⭐⭐⭐ 必读
TL;DR: 系统诊断多模态长链推理中的知识冲突，区分输入级客观冲突和过程级有效冲突，揭示冲突信号在中后期层集中编码等四大机制

Problem & Contribution#

解决的问题: MLLM在长链推理中常因不同知识源提供冲突信号而失败，但缺乏统一的形式化理解和诊断方法
核心想法/方法一句话: 在统一的知识冲突概念下形式化失败，区分输入级客观冲突和过程级有效冲突，通过探测内部表征揭示冲突处理机制
主要贡献:
1. 统一形式化知识冲突，区分客观冲突和有效冲突
2. 发现四大机制：线性可分性、深度定位、层次一致性、方向不对称性
3. 揭示冲突信号在中后期层集中编码
4. 提供机制层面的多模态长CoT失败诊断和控制方法

Method#

方法结构/流程:
1. 冲突形式化: 输入级客观冲突 vs 过程级有效冲突
2. 内部表征探测: 分析不同冲突类型的编码方式
3. 机制发现: 线性可分性、深度定位、层次一致性、方向不对称性
关键发现:
- 线性可分性: 不同冲突类型编码为线性可分的特征而非纠缠
- 深度定位: 冲突信号集中在中后期层
- 层次一致性: 沿轨迹聚合token级信号可稳健恢复输入级冲突类型
- 方向不对称性: 强化模型隐式源偏好比强制反向更容易

Evidence#

Benchmark / setting: 多模态长链推理任务
对比对象: 不同冲突类型和MLLM
关键结果:
- 冲突信号在中后期层显著集中
- 不同冲突类型具有线性可分的内部表征
- 方向不对称性揭示模型偏好的可操控性

Takeaways#

可以迁移到什么场景: 多模态推理诊断、知识冲突消解、模型对齐
风险/注意点: 冲突检测需要访问内部表征，可能不适用于黑盒API
下一步动作: 基于发现开发冲突感知的推理控制机制，探索冲突消解策略

5. Choosing How to Remember: Adaptive Memory Structures for LLM Agents#

Meta#

Title: Choosing How to Remember: Adaptive Memory Structures for LLM Agents
Link: arXiv:2602.14038
Venue: arXiv preprint
Date: 2026-02-15
Tags: Agent, Memory, Long-Context, Adaptive-Architecture
推荐度: ⭐⭐⭐ 必读
TL;DR: 提出FluxMem框架，让Agent基于交互级特征自适应选择记忆结构，引入三级记忆层次和Beta混合模型门控，在PERSONAMEM和LoCoMo上平均提升9.18%和6.14%

Problem & Contribution#

解决的问题: 现有Agent记忆系统采用一刀切结构，不将记忆结构选择建模为上下文自适应决策，限制处理异构交互模式的能力
核心想法/方法一句话: 为Agent配备多种互补记忆结构，基于交互级特征显式学习结构选择，引入三级记忆层次和分布感知记忆融合
主要贡献:
1. 首个自适应记忆组织统一框架，支持多种记忆结构动态选择
2. 三级记忆层次支持稳健的长程记忆演化
3. Beta混合模型概率门控实现分布感知记忆融合
4. 在PERSONAMEM和LoCoMo上分别提升9.18%和6.14%

Method#

方法结构/流程:
1. 多结构支持: 配备多种互补记忆结构
2. 自适应选择: 基于交互级特征学习结构选择
3. 三级层次: 工作记忆、短期记忆、长期记忆
4. 概率融合: Beta混合模型门控替代脆弱相似度阈值
关键设计:
- 离线监督学习结构选择策略
- 下游响应质量和记忆利用率作为监督信号
- 分布感知融合替代硬阈值
训练/推理成本:
- 基于下游任务质量进行离线监督学习
- 无需在线微调

Evidence#

Benchmark / setting: PERSONAMEM, LoCoMo（长程对话基准）
对比对象: 固定记忆结构基线
关键结果:
- PERSONAMEM上平均提升9.18%
- LoCoMo上提升6.14%
- 长程记忆演化稳健性显著提升

Takeaways#

可以迁移到什么场景: 长程对话Agent、个性化助手、长期陪伴AI
风险/注意点: 结构选择策略需要针对特定领域调优
下一步动作: 探索更多记忆结构变体，研究在线自适应策略

6. Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking#

Meta#

Title: Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
Link: arXiv:2602.13980
Venue: arXiv preprint
Date: 2026-02-15
Tags: Efficient-LLM, Context-Compression, Soft-Prompt, Training-Acceleration
推荐度: ⭐⭐ 可选
TL;DR: 提出PIC方法，通过块级因果掩码将记忆token的感受野限制在局部块，降低压缩器训练难度，在64×压缩比下F1提升29.8%，训练时间减少40%

Problem & Contribution#

解决的问题: 长上下文显著增加推理延迟，软提示压缩需要捕获全局依赖，训练难度大、数据需求高
核心想法/方法一句话: 借鉴人类工作记忆的组块机制，通过块级因果掩码限制记忆token的感受野为顺序局部块
主要贡献:
1. 提出并行迭代压缩(PIC)，通过简单注意力掩码修改降低压缩器训练难度
2. 显式限制记忆token的感受野为局部块，降低捕获全局依赖的难度
3. 在64×压缩比下F1提升29.8%、EM提升40.7%
4. 训练时间减少约40%

Method#

方法结构/流程:
1. 块级掩码: 修改Transformer注意力掩码限制感受野
2. 局部压缩: 每个记忆token仅关注对应局部块
3. 并行处理: 迭代并行压缩
4. 训练加速: 降低训练难度和数据需求
关键设计:
- 空间专业化：记忆嵌入相对原始token的空间特化
- 顺序局部块：保持序列顺序的局部上下文
- 无需额外预训练数据
训练/推理成本:
- 训练时间减少约40%（16×压缩器）
- 推理时标准压缩-解压流程

Evidence#

Benchmark / setting: QA任务等多个下游任务
对比对象: 竞争基线压缩方法
关键结果:
- 64×压缩比：F1提升29.8%，EM提升40.7%
- 16×压缩器训练时间减少40%
- 高压缩场景优势尤为显著

Takeaways#

可以迁移到什么场景: 长上下文压缩、文档摘要、RAG系统
风险/注意点: 块大小需要根据任务特性调优
下一步动作: 探索自适应块大小策略，研究与其他压缩技术的组合

Meta#

Title: Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
Link: arXiv:2602.14083
Venue: arXiv preprint
Date: 2026-02-15
Tags: Web-Navigation, MCTS, Planning, LLM-Agent
推荐度: ⭐⭐⭐ 必读
TL;DR: 将Web导航探索转移到语义规划空间，通过解耦战略规划与执行落地，将稀疏动作空间转化为密集规划树，在WebArena上达到SOTA

Problem & Contribution#

解决的问题: Web导航中应用树搜索面临稀疏有效路径导致探索效率低、噪声上下文稀释准确状态感知两大挑战
核心想法/方法一句话: 将探索转移到语义规划空间，解耦战略规划与执行落地，构建密集规划树和抽象语义历史
主要贡献:
1. 语义规划空间探索，将稀疏动作空间转化为密集规划树
2. 抽象语义历史蒸馏噪声上下文，提供精确状态感知
3. 双门控奖励严格验证物理可执行性和战略对齐
4. 结构细化实现失败子规划的on-policy修复

Method#

方法结构/流程:
1. 规划空间转移: 在语义规划空间而非原始动作空间探索
2. 战略规划: 生成高层语义规划
3. 执行落地: 将规划映射为具体动作
4. 双门控奖励: 验证可执行性和战略对齐
5. 结构细化: 修复失败的子规划
关键设计:
- 规划-执行解耦
- 密集规划树提升探索效率
- 抽象语义历史过滤噪声
训练/推理成本:
- 标准MCTS搜索开销
- 额外规划层推理成本

Evidence#

Benchmark / setting: WebArena
对比对象: SOTA Web导航方法
关键结果:
- WebArena上达到SOTA性能
- 更高的任务有效性和搜索效率
- 相比现有方法显著提升

Takeaways#

可以迁移到什么场景: Web自动化、GUI Agent、长程任务规划
风险/注意点: 规划到动作的映射需要精心设计
下一步动作: 探索规划空间学习，研究跨网站泛化能力

总结#

论文	推荐度	TL;DR	下一步
REDSearcher	⭐⭐⭐	长程搜索Agent统一框架，双约束任务合成，SOTA性能	关注开源数据集，复现并扩展
AutoWebWorld	⭐⭐⭐	FSM合成可验证Web环境，$0.04/轨迹，7B模型超越基线	探索扩展到其他GUI环境
The Potential of CoT	⭐⭐⭐	势函数量化CoT贡献，20%部分CoT解锁弱模型性能	基于势函数的CoT优化策略
Diagnosing Knowledge Conflict	⭐⭐⭐	多模态长CoT知识冲突诊断，揭示四大机制	开发冲突感知推理控制机制
Choosing How to Remember	⭐⭐⭐	自适应记忆结构选择，三级层次，Beta门控融合	探索在线自适应和更多结构变体
Cognitive Chunking	⭐⭐	块级因果掩码降低压缩器训练难度，训练加速40%	自适应块大小策略研究
Plan-MCTS	⭐⭐⭐	语义规划空间探索，密集规划树，WebArena SOTA	规划空间学习和跨网站泛化

今日趋势观察：

Agent训练基础设施成熟化: AutoWebWorld、WebWorld等世界模型框架让Web Agent训练从”野外采集”走向”可控合成”，大幅降低数据成本和验证难度
长程推理可解释性突破: 从REDSearcher的任务难度量化到CoT势函数的贡献度分析，再到知识冲突的机制诊断，长程推理正在从黑盒走向可分析、可控制
记忆系统自适应化: FluxMem、HyMem等框架让记忆结构选择成为上下文自适应决策，而非一刀切设计，更接近人类认知经济性原则
规划与执行解耦: Plan-MCTS等方案将高层战略规划与低层执行落地解耦，在保持效率的同时提升复杂任务完成率
多模态冲突诊断: 首次系统揭示多模态长CoT中的知识冲突处理机制，为可靠多模态推理提供理论基础

Curated by Amy 🤖

Daily AI Papers - 2026年02月17日

https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-02-17/

Author

Amy

Published at

2026-02-17

License

CC BY-NC-SA 4.0

Daily AI Papers - 2026年02月18日

生成模型前沿技术综述 - 从 VAE 到 Diffusion Language Models

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari

© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari