PenGym 单智能体 izumi 当日进展报告:LLM 动作级覆盖实验完成排除,纯 DRL 继续作为 cross-family 主线,后续大模型定位转向高层策略统筹

一、今天这篇记录要说明什么

今天的工作重点,不再是继续扩展 cross-family 的接口层,也不是继续在 medium family 内部做 reward 或 timesteps 的小修小补,而是专门回答一个更聚焦的问题:

在当前 izumi 单智能体主线上,引入大模型到底应该放在哪一层?

今天真实完成并验证的事情可以概括为:

  1. 已完成三类配置的实际对照尝试:
    • 纯 DRL izumi
    • DRL + 普通模式 Qwen3.6-Plus
    • DRL + thinking 模式 Qwen3.6-Plus
  2. 已确认:当前 Qwen3.6-Plus 可以通过百炼 API 正常接入,并能在评测脚本中真正触发 LLM override。
  3. 已确认:普通模式 LLM 在当前 step-level candidate override 接法下,并没有稳定优于纯 DRL。
  4. 已确认:thinking 模式在当前评测接法下响应阻塞严重,无法作为当前正式实验配置继续使用。
  5. 已由此明确:当前大模型不适合作为底层高频动作决策器,而更适合作为后续候选的 高层策略统筹 / 规划层补充
  6. 已进一步收敛当前单智能体主线:纯 DRL 仍然是当前最稳、最适合继续做 cross-family 泛化的主配置。

今天最重要的阶段性结论不是“LLM 已经显著提升了单智能体”,而是:

当前 LLM 在 step-level 动作覆盖这一层没有带来稳定收益;大模型后续如果要真正发挥作用,应当从“高层统筹”而不是“底层逐步改动作”这一方向重新设计。


二、今天的核心目标

今天的目标可以拆成三层:

1. 验证大模型是否适合作为当前 DRL 单智能体的直接动作增强器

不是继续停留在“理论上 LLM 也许有帮助”,而是要实际回答:

  • 普通模式 LLM 是否能提升当前策略?
  • thinking 模式是否值得引入?
  • 大模型应该直接插手动作,还是应放在更高层?

2. 用实际实验而不是主观判断来确定 LLM 的位置

今天没有直接假设“LLM 一定更强”,而是要求它在同一条评测链路里接受真实验证。

3. 如果当前 LLM 接法不合适,就及时止损并回到纯 DRL 主线

今天的目标并不是强行让 LLM 起作用,而是要尽快回答:

  • 当前单智能体主线该不该继续押在 LLM override 上?
  • 还是应该及时回到纯 DRL,把泛化边界先做扎实?

三、今天具体做了什么

1. 确认百炼 Qwen3.6-Plus 接入链路打通

今天先完成并验证了阿里云百炼 API 的接入:

  • 已创建 API Key
  • 已完成最小调用验证
  • 已确认 qwen3.6-plus 能正常返回
  • 已将百炼客户端接入 prototype/llm/bailian_client.py

这一步的意义在于:

后面的 LLM 实验不再停留在“接口可能没配好”的层面,而是真正进入“接入有效但效果如何”的验证阶段。


2. 完成当前 eval_medium_family_mixed.py 中的 LLM 开关链路排查

今天中间还发现一个关键问题:

  • 最初的环境变量名写错,导致三组实验实际都在跑同一个纯 DRL 配置;
  • 后续重新检查脚本后确认,真正生效的开关是:
    • IZUMI_LLM_ENABLE
    • IZUMI_LLM_ENABLE_THINKING
    • IZUMI_LLM_CANDIDATE_LIMIT
    • IZUMI_LLM_MAX_STEPS

修正之后,普通模式 LLM 已经能够在评测过程中真正触发:

  • [LLM_OVERRIDE] ...

这一步非常重要,因为它确保今天后面的对照结果是有效的:

LLM 已经真正介入了动作选择,而不是名义上开启、实际上没有进入逻辑。


3. 得到纯 DRL 与普通模式 LLM 的对照结果

今天对以下两组做了真实对照:

(1)纯 DRL

结果为:

  • medium-multi-site15/15avg_steps = 102.00avg_reward = 85.00
  • medium-single-site15/15avg_steps = 95.00avg_reward = 95.00
  • medium15/15avg_steps = 41.00avg_reward = 163.00

(2)DRL + 普通模式 Qwen3.6-Plus

结果为:

  • medium-multi-site15/15avg_steps = 100.40avg_reward = 86.60avg_llm_overrides = 0.93
  • medium-single-site15/15avg_steps = 95.00avg_reward = 95.00avg_llm_overrides = 1.20
  • medium15/15avg_steps = 52.67avg_reward = 151.33avg_llm_overrides = 7.47

从这组结果可以直接看出:

  • medium-multi-site 上,普通模式 LLM 只有很轻微改善;
  • medium-single-site 上,普通模式 LLM 基本没有实际收益;
  • medium 上,普通模式 LLM 明显把原本更顺的 DRL 路径打乱了。

这说明:

当前普通模式 LLM 在 step-level override 这一接法下,并没有形成稳定增益,反而在部分场景中会干扰已经较优的 DRL 策略。


4. 完成 thinking 模式尝试,并确认当前接法下不可用

今天还专门尝试了:

  • DRL + thinking 模式 Qwen3.6-Plus

结果不是“效果略差”,而是:

  • 请求会长期阻塞在 requests.post(...)
  • 即使缩小到 smoke 级别,thinking 路径仍然会卡在百炼返回阶段
  • 在当前 step-level 高频调用结构下,thinking 模式无法形成可接受的实验效率

这一步的意义非常明确:

当前 thinking 模式不是简单的“成本高一点”,而是在当前评测方式下直接不适合作为正式实验配置。

因此今天已经将其从当前主线中排除。


5. 由实验反推 LLM 的更合理定位:高层策略统筹

今天最重要的不是排除 thinking 本身,而是由此进一步逼近了一个更清楚的架构认识:

  • DRL 适合负责底层动作决策与高频执行;
  • LLM 不适合每一步都去覆盖 DRL 的动作;
  • 如果 LLM 要发挥价值,更合适的位置应当是:
    • 高层规划
    • family 间抽象迁移提示
    • 失败反思
    • 阶段性策略调整
    • milestone 级重规划

这一步实际上把“后面为什么还要 LLM”这个问题重新摆正了:

LLM 仍然有价值,但它未来的价值不在底层高频动作,而在高层统筹、跨场景抽象和策略切换这一层。


6. 重新收敛今天之后的单智能体主线

结合今天的对照结果,当前单智能体主线已经明显收敛:

当前主线保留

  • 纯 DRL izumi
  • 继续做 cross-family generalization
  • 继续沿着 small / tiny 的边界往前推进

当前分支排除或暂缓

  • plain LLM 的 step-level override 不进入泛化主线
  • thinking 模式当前排除
  • LLM 动作级覆盖式接法暂时不再继续追加投入

这意味着:

从今天起,单智能体主线重新回到“纯 DRL cross-family 边界刻画”,而 LLM 被重新定义为后续可能的高层增强项,而不是当前主线的一部分。


四、今天做对了什么

1. 没有因为“大模型很强”就默认它一定能提升当前主线

今天真正有价值的地方在于:

  • 不是把 LLM 当成必然更强的黑箱;
  • 而是要求它在同一条 eval_medium_family_mixed.py 评测链路里接受真实对照。

这保证了今天的判断是实验驱动的,而不是想当然的。

2. 及时识别并排除了不合适的技术接法

今天非常关键的一点是:

  • 一旦确认 step-level plain LLM 不稳定、thinking 模式不可用,主线没有继续被拖着走;
  • 而是及时回到纯 DRL,避免项目主线继续分散。

这使得整个科研推进更加收敛。

3. 更清楚地确定了 LLM 应该补哪一层

相比之前只是笼统地说“以后可能要引入 LLM”,今天已经更清楚了:

  • LLM 不该做底层动作替代;
  • 它更应做高层统筹与抽象迁移辅助。

这个判断对后面单智能体增强和多智能体架构设计都非常关键。

4. 把单智能体主线再次收拢到“泛化边界”这一真正核心问题上

今天之后,当前单智能体的关键问题已经再次清楚了:

不是“怎么继续把 LLM 塞进动作环”,而是“纯 DRL 到底能泛化到哪一层,LLM 未来又该补什么类型的能力”。


五、今天的问题与不足

1. 今天的 LLM 对照仍然只覆盖了当前这一种接入方式

今天排除的是:

  • LLM 作为 step-level candidate override
  • thinking 模式直接进动作环

这并不代表 LLM 在所有接法下都没有用,而只是说明:

当前这条接法不合适。

2. 目前还没有把“高层统筹型 LLM”真正实现出来

今天已经明确了方向,但还没有真正实现:

  • episode-level planner
  • milestone-level replanning
  • failure reflection module
  • family abstraction summarizer

所以今天的结论更多是“排除错误入口”,而不是“已经完成正确入口的实现”。

3. 当前 cross-family 主线还没有在今天继续往前推新的 small/tiny 组合

今天更多是在确定:

  • LLM 不该怎么接;
  • DRL 主线该不该继续;

因此,真正新的 cross-family map 扩展工作仍留待下一阶段继续推进。


六、今天得到的阶段性结论

今天真正能站住脚的结论可以收成六条:

1. 当前纯 DRL 仍然是单智能体主线最稳的配置

plain LLM 没有稳定优于它,thinking 模式又不可用,因此纯 DRL 仍应保持主线地位。

2. plain LLM 的动作级覆盖在当前接法下没有形成稳定收益

它最多只在部分复杂场景中带来轻微改善,但并不能作为当前主配置推广。

3. thinking 模式当前不适合作为正式实验配置

在高频 step-level 调用结构下,它的响应阻塞过重,实验效率无法接受。

4. 当前 LLM 的正确位置更可能在高层而不是低层

即:

  • 高层规划
  • 失败总结
  • 策略切换
  • 跨 family 抽象

而不是直接替代 DRL 的动作选择。

5. 当前单智能体主线应回到纯 DRL 的 cross-family 泛化边界刻画

这是现在最清楚、最值得继续推进的方向。

6. “LLM 为什么还有必要”这个问题今天也被进一步讲清了

它的必要性不是因为它能直接提升当前动作级策略,而是因为纯 DRL 在更远 family 上已经暴露出明显边界;LLM 未来的价值在于补更高层的迁移和抽象能力。


七、下一步最合理的推进方向

今天的结果已经足够说明:当前主线不该再继续追加 step-level LLM override 实验,而应回到更清楚的主路径上。

更合理的后续方向有四类:

1. 先把当前 DRL 主线成果固定下来

至少应整理并固定:

  • within-family best checkpoint
  • plain LLM 对照排除结论
  • thinking 模式排除结论
  • 当前单智能体主配置选择

2. 继续补完整的 cross-family adaptation map

例如继续补:

  • tiny-hard
  • 更系统的 small / tiny 组合
  • 不同 family 距离下 zero-shot / adaptation 的变化趋势

3. 在纯 DRL 侧继续探索更强泛化方式

例如:

  • curriculum(medium -> small -> tiny
  • staged training
  • topology abstraction 增强
  • recurrent / memory 结构

4. 以后重新设计“LLM 作为高层统筹”的架构入口

也就是后续真正该尝试的,不是再做 step-level override,而是:

  • episode-level planner
  • milestone-level replanning
  • failure reflection module
  • family abstraction assistant

也就是说,今天不是结束 LLM,而是:

今天终于把“LLM 在当前项目里真正应该做什么”这个问题逼到了更正确的位置上。


八、今天一句话总结

今天最重要的推进不是“让 LLM 成功接管动作”,而是:

通过真实对照实验确认了当前 plain / thinking LLM 的动作级接法都不适合作为单智能体主线,从而把项目主线重新收拢到纯 DRL 的 cross-family 泛化边界上,并明确了大模型未来真正更合适的定位是高层策略统筹而不是底层高频动作覆盖。