欢迎来到和泉伏见的网络世界！

发表于2026-04-10|科研

PenGym 单智能体 izumi 当日进展报告：cross-family 边界继续向前推进，tiny 适配成功，tiny-small / tiny-hard 失败模式收敛，并开始转向示范轨迹与 BC warm-start 路线一、今天这篇记录要说明什么今天的工作重点，不再是继续纠结 medium family 内部训练细节，也不是回到 step-level LLM 的旧接法上，而是继续沿着当前已经收敛的主线，把 cross-family / cross-scenario 的边界再往前推一层，并进一步分析失败机制，尝试寻找不换 backbone 的修复路径。这一点与前一天已经确定的主线保持一致：当前最值得继续推进的方向仍然是纯 DRL 的 cross-family 泛化边界刻画，而 LLM 更适合作为未来候选的高层统筹项，而不是当前底层动作主线。今天真实完成并验证的事情可以概括为：已基于当前统一动作空间 / 统一观测主线，继续补齐 small / tiny 方向的 cross-family adaptation map；已确认：small-honey...

大模型下的深度强化学习的多智能体渗透测试(8)

发表于2026-04-09|科研

PenGym 单智能体 izumi 当日进展报告：LLM 动作级覆盖实验完成排除，纯 DRL 继续作为 cross-family 主线，后续大模型定位转向高层策略统筹一、今天这篇记录要说明什么今天的工作重点，不再是继续扩展 cross-family 的接口层，也不是继续在 medium family 内部做 reward 或 timesteps 的小修小补，而是专门回答一个更聚焦的问题：在当前 izumi 单智能体主线上，引入大模型到底应该放在哪一层？今天真实完成并验证的事情可以概括为：已完成三类配置的实际对照尝试：纯 DRL izumi DRL + 普通模式 Qwen3.6-Plus DRL + thinking 模式 Qwen3.6-Plus 已确认：当前 Qwen3.6-Plus 可以通过百炼 API 正常接入，并能在评测脚本中真正触发 LLM override。已确认：普通模式 LLM 在当前 step-level candidate override 接法下，并没有稳定优于纯 DRL。已确认：thinking 模式在当前评测接法下响应阻塞严重，无法...

大模型下的深度强化学习的多智能体渗透测试(7)

发表于2026-04-06|科研

PenGym 单智能体 izumi 当日进展报告：cross-family 接口层基本打通，small family 已出现 zero-shot 与 fast adaptation，tiny family 仍是当前纯 DRL 主线边界一、今天这篇记录要说明什么今天的主线不再是继续在 medium family 内部做小修小补，而是把问题真正往前推进到 cross-family generalization。今天真实完成并验证的事情可以概括为：已重新确认：medium-multi-site / medium-single-site / medium 三场景的 within-family generalization 已成立。已从实验和接口层面明确：当前问题已经不再只是 observation wrapper，而是 cross-family action representation 也必须统一。已实现一套面向 cross-family 的最小动作统一机制： unified_action_schema.py canonical target index UnifiedAct...

学习计划

发表于2026-04-06|杂项

学习路线清单（按先后顺序）第一阶段：基础底座1. Python 基础语法数据类型与容器函数面向对象异常处理文件读写标准库模块与包虚拟环境与依赖管理日志与调试测试（pytest）网络编程并发基础（线程、进程、协程）爬虫 Flask / FastAPI 数据处理（NumPy / Pandas）基础可视化安全脚本开发 2. Linux 常用命令文件系统权限管理用户与组进程管理服务管理 Shell 脚本网络命令 SSH 日志查看环境变量软件安装与编译 systemd Docker 基础 3. 计算机网络 OSI / TCP-IP 模型 IP / TCP / UDP DNS HTTP / HTTPS TLS 基础 Socket 路由与交换基础 NAT / 代理 WebSocket 抓包分析（Wireshark）常见协议（FTP / SMTP / SSH） 4. 操...

大模型下的深度强化学习的多智能体渗透测试(6)

发表于2026-04-03|科研

PenGym 单智能体 izumi 当日进展报告：medium family 统一接口打通，重复无增量动作约束显著改善泛化，但长训与强加权会导致分布偏置一、今天这篇记录要说明什么今天的主线不是继续讨论 reward3，也不是回到最初的单场景长训，而是围绕 medium family 的泛化持续往下推进，并把“为什么泛化不稳定”一步一步拆出来。今天真实完成并验证的事情可以概括为：已实现 medium family unified observation adapter，并把 medium-multi-site、medium-single-site、medium 统一映射到固定 646 维输入。已验证 unified observation 下的 reset、step、smoke train、单局推理都能正常运行，说明“统一接口 + PPO”这条链已经真正打通。已确认：仅做 unified observation + single-scenario training 并不足以稳定泛化。已实现 medium family mixed training，把训练分布从单场景推...

大模型下的深度强化学习的多智能体渗透测试(5)

发表于2026-03-31|科研

PenGym 单智能体 izumi 当日进展报告：reward2 主线保留，reward3 未胜出，长训收益有限，研究重点正式转向泛化接口一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不把尚未完成的泛化接口、LLM 接入、多智能体协作写成已经做完。今天最重要的结果可以概括为六点：已确认当前单智能体学习型 izumi 的主 baseline 仍应保留为 MaskablePPO + reward2 + base_200k。已完成 reward3 分支训练与评测，但当前结果并没有超过 reward2，因此不作为主线。已尝试在 base_200k 基础上继续训练，但在当前单局 deterministic eval 口径下，没有观察到比 200k 更明显的提升，因此暂不继续把精力放在长训上。已尝试直接做跨场景泛化评测，但发现现有实现并不具备直接跨场景 zero-shot 的条件，核心阻塞是 observation / action space 不统一。已通过阅读 PenGymEnv、NASimEnv、Observation、HostVector 等实现，定...

大模型下的深度强化学习的多智能体渗透测试(4)

发表于2026-03-30|科研

PenGym 单智能体 izumi 当日进展报告：MaskablePPO 主线稳定跑通，并通过 reward shaping 突破旧平台，形成新的 DRL 基线一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不描述理想路线，也不把尚未完成的 LLM、多智能体部分写成已经完成。今天最重要的结果可以概括为六点：已确认当前单智能体学习型 izumi 的主线应收敛到 MaskablePPO，而不是继续在 D3QN/DDQN、PPO、RPPO 之间来回横跳。已分清 run.py 中的规则型 izumi 入口和真正的 DRL 入口，避免继续在错误入口上浪费时间。已修复训练与评估不一致、动作掩码接错、成功动作循环、空掩码崩溃等关键工程问题，使 MaskablePPO 单智能体链路真正稳定。已得到 maskable_ppo_izumi_tiny_20k.zip 这一可复现、可多轮 deterministic eval 的 DRL 单智能体基线。已在 tiny_20k 基线上做继承训练，并通过更强 reward shaping（reward2）把训练回报从旧平台约 ...

大模型下的深度强化学习的多智能体渗透测试(3)

发表于2026-03-24|科研

PenGym 单智能体 izumi 当日进展报告：D3QN-v2 训练评估链路已打通，但当前策略仍陷入局部失败循环一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不描述理想路线。今天的结果可以概括为四点：已新建 prototype/drl_izumi/ 单智能体 DRL 实验线，并采用 D3QN 作为当前学习型 izumi 的核心决策模型。已完成 D3QN-v2 训练链与评估链的工程打通，训练不再停留在“规则 agent”或“脚本报错”阶段。已定位并修复一批关键接口级 bug，使训练能够真正进入参数更新阶段。当前模型虽然已经具备深度强化学习训练能力，但评估结果显示策略质量仍然较差，主要表现为重复执行局部失败动作循环。因此，今天最准确的阶段判断是： D3QN-v2 单智能体 DRL 工程链：已打通当前策略效果：仍不理想，尚不能替代规则版 izumi 下一步重点：不再是修接口，而是抑制循环行为、加强动作约束与奖励设计二、今天的工作目标今天的目标，不是继续扩展规则路径，也不是继续尝试 PPO，而是做一件更基础但必须先完成的事：把 izumi 的学习型分...

大模型下的深度强化学习的多智能体渗透测试(2)

发表于2026-03-23|科研

PenGym 单智能体 izumi 当前现状报告：规则基线已完成，深度强化学习分支已建立但尚未并回主线一、这篇文章要说明什么这份记录不再描述“理想路线”，只说明当前仓库和当前进度的真实状态。当前事实可以归纳为三点： PenGym 单智能体规则基线 izumi 已完成并可运行。仓库中已经存在深度强化学习训练与评估脚本，且已经产出 PPO / MaskablePPO 模型文件。当前 DRL 分支还没有真正并回 run.py -a izumi 主线，因此 izumi 目前仍然是规则型 agent，而不是学习型 agent。因此，现阶段最准确的判断是：规则型单智能体阶段：已完成深度强化学习单智能体阶段：已开始，已建立独立实验线，但尚未完成与 izumi 主线合并二、实验环境1. 宿主与虚拟机宿主机：Windows 虚拟机：Ubuntu 虚拟化软件：VMware 2. 本阶段实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义规则型单智能体：izumi Stable-Baselines3 PPO S...

大模型下的深度强化学习的多智能体渗透测试(1)

发表于2026-03-22|科研

从 0 到可运行：PenGym 单智能体基线 izumi 的部署、调试与复现一、这篇文章要解决什么问题这次目标不是直接做多智能体，也不是一上来就接 PPO/LSTM，而是先把一个可运行的自动渗透实验基座搭起来。具体拆成三件事：把 PenGym 环境在 Ubuntu 虚拟机里跑起来。跑通官方自带的单智能体基线：deterministic 和 random。接入自己的规则型单智能体 izumi，验证它能在 NASim 仿真环境中完成一条有效攻击路径。最终结果是： PenGym 已成功部署。 NASim simulation 模式可正常运行。 random 与 deterministic 基线均可执行。自定义 agent izumi 已成功接入，并能完成扫描、利用与横向推进。二、实验环境1. 宿主与虚拟机宿主机：Windows 虚拟机：Ubuntu 虚拟化软件：VMware 2. 本次实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义单智能体基线：izumi 3. 本阶段刻意不做的内容为了先把...