4665 words
23 minutes
Daily AI Papers - 2026年02月17日
Table of Contents
1
Daily AI Papers - 2026年02月17日
今日预览
论文详解
1. REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
2. AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
3. The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
4. Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
5. Choosing How to Remember: Adaptive Memory Structures for LLM Agents
6. Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
7. Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
总结

Daily AI Papers - 2026年02月17日#

今日预览#

今天筛选出 7篇高质量论文,涵盖长程搜索Agent、Web Agent世界模型、自适应记忆架构、多模态推理冲突诊断等核心方向。

必读推荐

  • REDSearcher: 统一框架实现长程搜索Agent的复杂任务合成、中段训练和后期训练,在文本和多模态搜索基准上达到SOTA
  • AutoWebWorld: 首个基于有限状态机合成可验证Web环境的框架,$0.04/轨迹生成11,663条验证轨迹,7B模型在WebVoyager上超越所有基线
  • The Potential of CoT for Reasoning: 提出”势函数”量化CoT各部分对正确答案的贡献度,发现20%的部分CoT可”解锁”弱模型性能
  • Diagnosing Knowledge Conflict: 系统诊断多模态长链推理中的知识冲突,揭示冲突信号在中后期层集中编码等四大机制

论文详解#

1. REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents#

Meta#

  • Title: REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
  • Link: arXiv:2602.14234
  • Venue: arXiv preprint
  • Date: 2026-02-16
  • Tags: Agent, Search, Long-Horizon, RL, Multimodal
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 统一框架联合设计复杂任务合成、中段训练和后期训练,通过图拓扑和证据分散度精确控制任务难度,实现可扩展的长程搜索Agent优化

Problem & Contribution#

  • 解决的问题: 长程搜索Agent训练面临高质量搜索轨迹稀疏、奖励信号稀缺、交互式rollout成本高昂等瓶颈
  • 核心想法/方法一句话: 将任务合成建模为双约束优化问题,通过图拓扑和证据分散度精确控制任务难度,并引入工具增强查询鼓励主动工具使用
  • 主要贡献:
    1. 双约束任务合成:图拓扑 + 证据分散度精确控制任务难度
    2. 工具增强查询:鼓励主动工具使用而非被动回忆
    3. 中段训练强化原子能力(知识、规划、函数调用),降低下游训练成本
    4. 本地模拟环境实现快速低成本的RL实验迭代

Method#

  • 方法结构/流程:

    1. 任务合成: 图拓扑约束 + 证据分散度约束生成复杂任务
    2. 中段训练: 强化知识检索、规划、函数调用等原子能力
    3. 后期训练: 基于高质量轨迹的强化学习优化
    4. 工具增强: 查询改写鼓励主动调用外部工具
  • 关键设计:

    • 双约束优化确保任务难度可控且高质量
    • 本地模拟环境支持快速算法迭代
    • 原子能力预训练降低下游数据需求
  • 训练/推理成本:

    • 将开源10K高质量文本搜索轨迹、5K多模态轨迹、1K RL查询集

Evidence#

  • Benchmark / setting: 文本和多模态搜索Agent基准
  • 对比对象: SOTA搜索Agent方法
  • 关键结果:
    • 在文本和多模态搜索Agent基准上达到SOTA性能
    • 中段训练显著降低高质量轨迹收集成本
    • 本地模拟环境支持快速RL实验迭代

Takeaways#

  • 可以迁移到什么场景: 长程信息检索、多跳问答、研究助手Agent
  • 风险/注意点: 任务合成质量对最终性能影响大,需要精心设计的约束条件
  • 下一步动作: 关注开源的轨迹数据集和模型检查点,尝试复现并扩展到新领域

2. AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines#

Meta#

  • Title: AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
  • Link: arXiv:2602.14296
  • Venue: arXiv preprint
  • Date: 2026-02-15
  • Tags: Web-Agent, World-Model, Data-Synthesis, FSM
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 首个基于有限状态机合成可控可验证Web环境的框架,$0.04/轨迹生成11,663条验证轨迹,7B Web GUI Agent在WebVoyager上超越所有基线

Problem & Contribution#

  • 解决的问题: 从真实网站收集交互轨迹昂贵且难以验证,状态转换隐式导致依赖不一致的外部验证器
  • 核心想法/方法一句话: 将Web环境建模为有限状态机(FSM),使用Coding Agent将FSM转换为交互式网站,实现程序化验证
  • 主要贡献:
    1. 首个基于FSM的可控可验证Web环境合成框架
    2. 显式定义所有状态、动作和转换规则,支持程序化验证
    3. 全自动搜索-验证流水线,$0.04/轨迹生成11,663条验证轨迹
    4. 7B模型在WebVoyager上超越所有基线,展现清晰的数据缩放律

Method#

  • 方法结构/流程:

    1. FSM建模: 将Web环境建模为有限状态机
    2. 代码生成: Coding Agent将FSM转换为交互式网站
    3. 程序化验证: 动作正确性检查、任务成功确认
    4. 数据合成: 全自动搜索-验证流水线生成轨迹
  • 关键设计:

    • FSM显式状态定义支持精确验证
    • 目标状态确认任务完成
    • 预定义规则检查动作正确性
  • 训练/推理成本:

    • 生成成本: $0.04/轨迹
    • 生成规模: 11,663条验证轨迹(29个多样化Web环境)
    • 模型规模: 7B Web GUI Agent

Evidence#

  • Benchmark / setting: WebVoyager, Online-Mind2Web
  • 对比对象: SOTA Web GUI Agent基线
  • 关键结果:
    • 7B模型在WebVoyager上15步内超越所有基线
    • 数据缩放律:合成数据量增加,WebVoyager和Online-Mind2Web性能持续提升
    • 真实世界性能显著提升

Takeaways#

  • 可以迁移到什么场景: Web Agent训练、GUI自动化、数据合成
  • 风险/注意点: 合成环境与真实环境存在差距,需要考虑领域迁移
  • 下一步动作: 关注代码和数据集开源,探索扩展到其他GUI环境(如移动端、桌面应用)

3. The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics#

Meta#

  • Title: The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics
  • Link: arXiv:2602.14903
  • Venue: arXiv preprint
  • Date: 2026-02-16
  • Tags: Chain-of-Thought, Reasoning, Interpretability, LLM
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 提出”势函数”量化CoT各部分对正确答案的贡献度,发现CoT的非单调性、洞察峰值和幸运猜测现象,揭示20%的部分CoT可”解锁”弱模型性能

Problem & Contribution#

  • 解决的问题: CoT推理成功的驱动因素尚不清楚,难以理解CoT哪些部分实际贡献于最终答案
  • 核心想法/方法一句话: 引入”势函数”量化CoT各部分增加正确答案似然的程度,通过竞赛级数学问题深入分析CoT轨迹动态
  • 主要贡献:
    1. 提出”势函数”量化CoT各部分的贡献度
    2. 发现CoT的三个关键模式:非单调性(推理分支)、洞察峰值、幸运猜测
    3. 提出CoT可迁移性,发现20%的部分CoT可解锁弱模型在难题上的性能
    4. 揭示CoT推理机制的内在可迁移性

Method#

  • 方法结构/流程:

    1. 势函数定义: 量化给定CoT部分增加正确答案似然的程度
    2. 轨迹分析: 通过势函数透镜分析竞赛级数学问题的推理轨迹
    3. 可迁移性研究: 测量弱模型在强模型部分CoT下的性能提升
  • 关键发现:

    • 非单调性: 推理分支导致势函数强烈非单调
    • 洞察峰值: 尖锐但难以解释的峰值对应推理洞察和跳跃
    • 幸运猜测: 模型有时无相关论证即得出正确答案
    • 可迁移性: 20%的部分CoT可”解锁”弱模型性能

Evidence#

  • Benchmark / setting: 竞赛级数学问题
  • 对比对象: 不同强度模型的CoT轨迹
  • 关键结果:
    • 势函数揭示CoT推理的复杂动态模式
    • 20%的部分CoT可显著提升弱模型在先前无法解决的问题上的性能
    • CoT机制具有内在可迁移性

Takeaways#

  • 可以迁移到什么场景: CoT优化、模型蒸馏、推理过程可视化
  • 风险/注意点: 势函数计算成本较高,需要大量采样
  • 下一步动作: 探索基于势函数的CoT修剪和优化策略,研究知识迁移机制

4. Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning#

Meta#

  • Title: Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
  • Link: arXiv:2602.14518
  • Venue: arXiv preprint
  • Date: 2026-02-16
  • Tags: Multimodal, Knowledge-Conflict, Long-CoT, Interpretability
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 系统诊断多模态长链推理中的知识冲突,区分输入级客观冲突和过程级有效冲突,揭示冲突信号在中后期层集中编码等四大机制

Problem & Contribution#

  • 解决的问题: MLLM在长链推理中常因不同知识源提供冲突信号而失败,但缺乏统一的形式化理解和诊断方法
  • 核心想法/方法一句话: 在统一的知识冲突概念下形式化失败,区分输入级客观冲突和过程级有效冲突,通过探测内部表征揭示冲突处理机制
  • 主要贡献:
    1. 统一形式化知识冲突,区分客观冲突和有效冲突
    2. 发现四大机制:线性可分性、深度定位、层次一致性、方向不对称性
    3. 揭示冲突信号在中后期层集中编码
    4. 提供机制层面的多模态长CoT失败诊断和控制方法

Method#

  • 方法结构/流程:

    1. 冲突形式化: 输入级客观冲突 vs 过程级有效冲突
    2. 内部表征探测: 分析不同冲突类型的编码方式
    3. 机制发现: 线性可分性、深度定位、层次一致性、方向不对称性
  • 关键发现:

    • 线性可分性: 不同冲突类型编码为线性可分的特征而非纠缠
    • 深度定位: 冲突信号集中在中后期层
    • 层次一致性: 沿轨迹聚合token级信号可稳健恢复输入级冲突类型
    • 方向不对称性: 强化模型隐式源偏好比强制反向更容易

Evidence#

  • Benchmark / setting: 多模态长链推理任务
  • 对比对象: 不同冲突类型和MLLM
  • 关键结果:
    • 冲突信号在中后期层显著集中
    • 不同冲突类型具有线性可分的内部表征
    • 方向不对称性揭示模型偏好的可操控性

Takeaways#

  • 可以迁移到什么场景: 多模态推理诊断、知识冲突消解、模型对齐
  • 风险/注意点: 冲突检测需要访问内部表征,可能不适用于黑盒API
  • 下一步动作: 基于发现开发冲突感知的推理控制机制,探索冲突消解策略

5. Choosing How to Remember: Adaptive Memory Structures for LLM Agents#

Meta#

  • Title: Choosing How to Remember: Adaptive Memory Structures for LLM Agents
  • Link: arXiv:2602.14038
  • Venue: arXiv preprint
  • Date: 2026-02-15
  • Tags: Agent, Memory, Long-Context, Adaptive-Architecture
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 提出FluxMem框架,让Agent基于交互级特征自适应选择记忆结构,引入三级记忆层次和Beta混合模型门控,在PERSONAMEM和LoCoMo上平均提升9.18%和6.14%

Problem & Contribution#

  • 解决的问题: 现有Agent记忆系统采用一刀切结构,不将记忆结构选择建模为上下文自适应决策,限制处理异构交互模式的能力
  • 核心想法/方法一句话: 为Agent配备多种互补记忆结构,基于交互级特征显式学习结构选择,引入三级记忆层次和分布感知记忆融合
  • 主要贡献:
    1. 首个自适应记忆组织统一框架,支持多种记忆结构动态选择
    2. 三级记忆层次支持稳健的长程记忆演化
    3. Beta混合模型概率门控实现分布感知记忆融合
    4. 在PERSONAMEM和LoCoMo上分别提升9.18%和6.14%

Method#

  • 方法结构/流程:

    1. 多结构支持: 配备多种互补记忆结构
    2. 自适应选择: 基于交互级特征学习结构选择
    3. 三级层次: 工作记忆、短期记忆、长期记忆
    4. 概率融合: Beta混合模型门控替代脆弱相似度阈值
  • 关键设计:

    • 离线监督学习结构选择策略
    • 下游响应质量和记忆利用率作为监督信号
    • 分布感知融合替代硬阈值
  • 训练/推理成本:

    • 基于下游任务质量进行离线监督学习
    • 无需在线微调

Evidence#

  • Benchmark / setting: PERSONAMEM, LoCoMo(长程对话基准)
  • 对比对象: 固定记忆结构基线
  • 关键结果:
    • PERSONAMEM上平均提升9.18%
    • LoCoMo上提升6.14%
    • 长程记忆演化稳健性显著提升

Takeaways#

  • 可以迁移到什么场景: 长程对话Agent、个性化助手、长期陪伴AI
  • 风险/注意点: 结构选择策略需要针对特定领域调优
  • 下一步动作: 探索更多记忆结构变体,研究在线自适应策略

6. Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking#

Meta#

  • Title: Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking
  • Link: arXiv:2602.13980
  • Venue: arXiv preprint
  • Date: 2026-02-15
  • Tags: Efficient-LLM, Context-Compression, Soft-Prompt, Training-Acceleration
  • 推荐度: ⭐⭐ 可选
  • TL;DR: 提出PIC方法,通过块级因果掩码将记忆token的感受野限制在局部块,降低压缩器训练难度,在64×压缩比下F1提升29.8%,训练时间减少40%

Problem & Contribution#

  • 解决的问题: 长上下文显著增加推理延迟,软提示压缩需要捕获全局依赖,训练难度大、数据需求高
  • 核心想法/方法一句话: 借鉴人类工作记忆的组块机制,通过块级因果掩码限制记忆token的感受野为顺序局部块
  • 主要贡献:
    1. 提出并行迭代压缩(PIC),通过简单注意力掩码修改降低压缩器训练难度
    2. 显式限制记忆token的感受野为局部块,降低捕获全局依赖的难度
    3. 在64×压缩比下F1提升29.8%、EM提升40.7%
    4. 训练时间减少约40%

Method#

  • 方法结构/流程:

    1. 块级掩码: 修改Transformer注意力掩码限制感受野
    2. 局部压缩: 每个记忆token仅关注对应局部块
    3. 并行处理: 迭代并行压缩
    4. 训练加速: 降低训练难度和数据需求
  • 关键设计:

    • 空间专业化:记忆嵌入相对原始token的空间特化
    • 顺序局部块:保持序列顺序的局部上下文
    • 无需额外预训练数据
  • 训练/推理成本:

    • 训练时间减少约40%(16×压缩器)
    • 推理时标准压缩-解压流程

Evidence#

  • Benchmark / setting: QA任务等多个下游任务
  • 对比对象: 竞争基线压缩方法
  • 关键结果:
    • 64×压缩比:F1提升29.8%,EM提升40.7%
    • 16×压缩器训练时间减少40%
    • 高压缩场景优势尤为显著

Takeaways#

  • 可以迁移到什么场景: 长上下文压缩、文档摘要、RAG系统
  • 风险/注意点: 块大小需要根据任务特性调优
  • 下一步动作: 探索自适应块大小策略,研究与其他压缩技术的组合

7. Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation#

Meta#

  • Title: Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation
  • Link: arXiv:2602.14083
  • Venue: arXiv preprint
  • Date: 2026-02-15
  • Tags: Web-Navigation, MCTS, Planning, LLM-Agent
  • 推荐度: ⭐⭐⭐ 必读
  • TL;DR: 将Web导航探索转移到语义规划空间,通过解耦战略规划与执行落地,将稀疏动作空间转化为密集规划树,在WebArena上达到SOTA

Problem & Contribution#

  • 解决的问题: Web导航中应用树搜索面临稀疏有效路径导致探索效率低、噪声上下文稀释准确状态感知两大挑战
  • 核心想法/方法一句话: 将探索转移到语义规划空间,解耦战略规划与执行落地,构建密集规划树和抽象语义历史
  • 主要贡献:
    1. 语义规划空间探索,将稀疏动作空间转化为密集规划树
    2. 抽象语义历史蒸馏噪声上下文,提供精确状态感知
    3. 双门控奖励严格验证物理可执行性和战略对齐
    4. 结构细化实现失败子规划的on-policy修复

Method#

  • 方法结构/流程:

    1. 规划空间转移: 在语义规划空间而非原始动作空间探索
    2. 战略规划: 生成高层语义规划
    3. 执行落地: 将规划映射为具体动作
    4. 双门控奖励: 验证可执行性和战略对齐
    5. 结构细化: 修复失败的子规划
  • 关键设计:

    • 规划-执行解耦
    • 密集规划树提升探索效率
    • 抽象语义历史过滤噪声
  • 训练/推理成本:

    • 标准MCTS搜索开销
    • 额外规划层推理成本

Evidence#

  • Benchmark / setting: WebArena
  • 对比对象: SOTA Web导航方法
  • 关键结果:
    • WebArena上达到SOTA性能
    • 更高的任务有效性和搜索效率
    • 相比现有方法显著提升

Takeaways#

  • 可以迁移到什么场景: Web自动化、GUI Agent、长程任务规划
  • 风险/注意点: 规划到动作的映射需要精心设计
  • 下一步动作: 探索规划空间学习,研究跨网站泛化能力

总结#

论文推荐度TL;DR下一步
REDSearcher⭐⭐⭐长程搜索Agent统一框架,双约束任务合成,SOTA性能关注开源数据集,复现并扩展
AutoWebWorld⭐⭐⭐FSM合成可验证Web环境,$0.04/轨迹,7B模型超越基线探索扩展到其他GUI环境
The Potential of CoT⭐⭐⭐势函数量化CoT贡献,20%部分CoT解锁弱模型性能基于势函数的CoT优化策略
Diagnosing Knowledge Conflict⭐⭐⭐多模态长CoT知识冲突诊断,揭示四大机制开发冲突感知推理控制机制
Choosing How to Remember⭐⭐⭐自适应记忆结构选择,三级层次,Beta门控融合探索在线自适应和更多结构变体
Cognitive Chunking⭐⭐块级因果掩码降低压缩器训练难度,训练加速40%自适应块大小策略研究
Plan-MCTS⭐⭐⭐语义规划空间探索,密集规划树,WebArena SOTA规划空间学习和跨网站泛化

今日趋势观察

  1. Agent训练基础设施成熟化: AutoWebWorld、WebWorld等世界模型框架让Web Agent训练从”野外采集”走向”可控合成”,大幅降低数据成本和验证难度
  2. 长程推理可解释性突破: 从REDSearcher的任务难度量化到CoT势函数的贡献度分析,再到知识冲突的机制诊断,长程推理正在从黑盒走向可分析、可控制
  3. 记忆系统自适应化: FluxMem、HyMem等框架让记忆结构选择成为上下文自适应决策,而非一刀切设计,更接近人类认知经济性原则
  4. 规划与执行解耦: Plan-MCTS等方案将高层战略规划与低层执行落地解耦,在保持效率的同时提升复杂任务完成率
  5. 多模态冲突诊断: 首次系统揭示多模态长CoT中的知识冲突处理机制,为可靠多模态推理提供理论基础

Curated by Amy 🤖

Daily AI Papers - 2026年02月17日
https://amysheng-ai.github.io/AmyBlog/posts/daily-ai-papers-2026-02-17/
Author
Amy
Published at
2026-02-17
License
CC BY-NC-SA 4.0
© 2026 Amy. All Rights Reserved. / RSS / Sitemap
Powered by Astro & Fuwari