欢迎来到和泉伏见的网络世界！

发表于2026-05-22|日常

哎哎总是感觉在瞎折腾。不知道自己在学习什么。真像是云顶天宫，在应用层做东西，不知道做的是什么，为什么这么做，只知道这么做了，这样可行。但是这样不行。我到底是要学AI还是计算机，还是AI和计算机。折腾了快一年了。要是早点入行就好了。

发表于2026-05-18|科研

从 DVWA 真实靶场验证到项目收口：Qwen Commander 多智能体渗透测试系统完成闭环一、这篇文章要说明什么上一篇记录结束时，项目已经从 PenGym / NASim 仿真智能体，推进到了真实 Web 靶场方向的多智能体系统骨架阶段。当时已经完成的是： PenGym 仿真线已经稳定； tiny / small / medium family 的 expert 和 router 已经形成完整闭环；本地 toy target 上完成了 nmap service_scan -> XML -> RealObservationEvent； Qwen 的角色被重新定位为 Commander，而不是 step-level action override；零信任语义通信和 Web Agent Team 的基础架构已经搭起来。但是当时还不能说系统已经真正具备 Web 靶场渗透测试能力。因为那时只完成了 nginx toy target 的安全探测，还没有完成： DVWA 登录； Web 页面爬取；表单解析； SQLi / XSS 候选识别；...

大模型下的深度强化学习的多智能体渗透测试(15)

发表于2026-05-17|科研

从 PenGym 仿真到真实 Web 靶场：Qwen Commander、零信任语义通信与多智能体渗透测试系统骨架一、这篇文章要说明什么这篇记录的核心，不再是继续在 PenGym / NASim 里训练新的 PPO 模型，也不是继续把已有仿真 expert 的成功率往上堆，而是说明项目开始从“仿真自动渗透智能体”转向“面向本地授权 Web 靶场的多智能体渗透测试系统”。本阶段最重要的变化可以概括为四点：训练线已经暂停：当前没有继续训练 PPO、BC、D3QN 或其他 RL 模型，已有模型仍作为仿真 expert 使用。 PenGym 仿真线已经成为稳定基座：tiny / small / medium family 的 solved experts、router、manager-worker、CLI 等工程能力已经形成完整闭环。真实工具链路已经迈出第一步：本地 Docker toy target 上已经完成 nmap service_scan -> XML -> RealObservationEvent 的受控真实扫描闭环。大模型角色被重新定义：Qw...

大模型下的深度强化学习的多智能体渗透测试(13)

发表于2026-05-13|科研

PenGym 单智能体 izumi 当日进展报告：small-family 完成 clean demo + BC + actor-freeze，并通过 2-expert router 达到 40/40 全覆盖一、这篇文章要说明什么上一篇记录结束时，项目已经完成了一个比较关键的 family-level 结果：当前主线固定为 646/192，即 obs_dim=646、action_dim=192； tiny-family 不再依赖单一 BC policy，而是通过 2-expert router 实现全覆盖； tiny 使用 maskable_ppo_izumi_tiny_adapt_20k.zip； tiny-small / tiny-hard 共用 tiny-small successdistill actor-freeze PPO expert； tiny / tiny-small / tiny-hard 三个场景最终达到 deterministic 60/60 成功；这说明当前研究已经从“单场景策略训练”推进到“solved experts + router”的 f...

大模型下的深度强化学习的多智能体渗透测试(12)

发表于2026-05-12|科研

PenGym 单智能体 izumi 当日进展报告：tiny-family 单策略失败后转向 2-expert router，并实现 tiny / tiny-small / tiny-hard 全覆盖一、这篇文章要说明什么上一篇记录结束时，项目已经推进到一个比较重要的位置：当前主线已经固定为 646/192，即 obs_dim=646、action_dim=192； tiny-small 已经通过 success distillation 得到 deterministic 10/10 的 BC policy； tiny-small 进一步通过 actor-freeze / value-only PPO 得到更短的 deterministic 10/10 策略； tiny-hard 已经通过最小 expert demo + BC 训练达到 deterministic 10/10；普通 PPO warm-start 已确认会破坏已成功的 BC actor，不再作为当前主路线；当前更安全的 PPO 接法是 actor-freeze / value-only，而...

大模型下的深度强化学习的多智能体渗透测试(11)

发表于2026-05-08|科研

PenGym 单智能体 izumi 当日进展报告：success distillation 压出 tiny-small deterministic 成功策略，并迁移到 tiny-hard BC solved 基线一、这篇文章要说明什么上一篇记录结束时，项目已经推进到一个新的关键位置：当前主线已经固定为 646/192，即 obs_dim=646、action_dim=192； unified demo dataset 与 BC 训练链路已经打通； BC 到 MaskablePPO 的 warm-start 工程链路已经打通； tiny-small 的问题已经从“接口不通 / 数据不足”推进到更具体的策略提取问题；修复 repeat guard 后，stochastic policy 已经能偶尔成功，但 deterministic argmax 仍然不稳定；继续普通 PPO 训练、继续简单 root bonus、继续无控制采样都没有形成稳定 deterministic 成功策略。本阶段的核心目标不再是继续盲目堆训练步数，而是做一件更聚焦的事：把 stoch...

大模型下的深度强化学习的多智能体渗透测试(10)

发表于2026-05-03|科研

PenGym 单智能体 izumi 当日进展报告：BC warm-start 工程闭环打通，tiny-small 根因从数据不足推进到 guard、argmax 与奖励信号问题一、这篇文章要说明什么上一篇记录结束时，项目已经推进到一个比较清楚的位置： medium family 内部泛化已经成立； small-honeypot 和 tiny 已经可以通过 short adaptation 成功； tiny-small / tiny-hard 仍然失败；失败并不是开局完全不会，而是前期 foothold 能建立，中期会被坏分支带偏；旧的 build_demo_dataset.py 仍然是 legacy raw observation / raw action id 路线，不能直接用于 unified cross-family 主线。因此，本阶段的重点从“继续堆 PPO 训练步数”转向：在当前 646/192 unified cross-family 主线下，构建兼容 unified observation 与 canonical action space 的...

大模型下的深度强化学习的多智能体渗透测试(9)

发表于2026-04-10|科研

PenGym 单智能体 izumi 当日进展报告：cross-family 边界继续向前推进，tiny 适配成功，tiny-small / tiny-hard 失败模式收敛，并开始转向示范轨迹与 BC warm-start 路线一、今天这篇记录要说明什么今天的工作重点，不再是继续纠结 medium family 内部训练细节，也不是回到 step-level LLM 的旧接法上，而是继续沿着当前已经收敛的主线，把 cross-family / cross-scenario 的边界再往前推一层，并进一步分析失败机制，尝试寻找不换 backbone 的修复路径。这一点与前一天已经确定的主线保持一致：当前最值得继续推进的方向仍然是纯 DRL 的 cross-family 泛化边界刻画，而 LLM 更适合作为未来候选的高层统筹项，而不是当前底层动作主线。今天真实完成并验证的事情可以概括为：已基于当前统一动作空间 / 统一观测主线，继续补齐 small / tiny 方向的 cross-family adaptation map；已确认：small-honey...

大模型下的深度强化学习的多智能体渗透测试(8)

发表于2026-04-09|科研

PenGym 单智能体 izumi 当日进展报告：LLM 动作级覆盖实验完成排除，纯 DRL 继续作为 cross-family 主线，后续大模型定位转向高层策略统筹一、今天这篇记录要说明什么今天的工作重点，不再是继续扩展 cross-family 的接口层，也不是继续在 medium family 内部做 reward 或 timesteps 的小修小补，而是专门回答一个更聚焦的问题：在当前 izumi 单智能体主线上，引入大模型到底应该放在哪一层？今天真实完成并验证的事情可以概括为：已完成三类配置的实际对照尝试：纯 DRL izumi DRL + 普通模式 Qwen3.6-Plus DRL + thinking 模式 Qwen3.6-Plus 已确认：当前 Qwen3.6-Plus 可以通过百炼 API 正常接入，并能在评测脚本中真正触发 LLM override。已确认：普通模式 LLM 在当前 step-level candidate override 接法下，并没有稳定优于纯 DRL。已确认：thinking 模式在当前评测接法下响应阻塞严重，无法...

大模型下的深度强化学习的多智能体渗透测试(7)

发表于2026-04-06|科研

PenGym 单智能体 izumi 当日进展报告：cross-family 接口层基本打通，small family 已出现 zero-shot 与 fast adaptation，tiny family 仍是当前纯 DRL 主线边界一、今天这篇记录要说明什么今天的主线不再是继续在 medium family 内部做小修小补，而是把问题真正往前推进到 cross-family generalization。今天真实完成并验证的事情可以概括为：已重新确认：medium-multi-site / medium-single-site / medium 三场景的 within-family generalization 已成立。已从实验和接口层面明确：当前问题已经不再只是 observation wrapper，而是 cross-family action representation 也必须统一。已实现一套面向 cross-family 的最小动作统一机制： unified_action_schema.py canonical target index UnifiedAct...