欢迎来到和泉伏见的网络世界！

发表于2026-04-03|科研

PenGym 单智能体 izumi 当日进展报告：medium family 统一接口打通，重复无增量动作约束显著改善泛化，但长训与强加权会导致分布偏置一、今天这篇记录要说明什么今天的主线不是继续讨论 reward3，也不是回到最初的单场景长训，而是围绕 medium family 的泛化持续往下推进，并把“为什么泛化不稳定”一步一步拆出来。今天真实完成并验证的事情可以概括为：已实现 medium family unified observation adapter，并把 medium-multi-site、medium-single-site、medium 统一映射到固定 646 维输入。已验证 unified observation 下的 reset、step、smoke train、单局推理都能正常运行，说明“统一接口 + PPO”这条链已经真正打通。已确认：仅做 unified observation + single-scenario training 并不足以稳定泛化。已实现 medium family mixed training，把训练分布从单场景推...

大模型下的深度强化学习的多智能体渗透测试(5)

发表于2026-03-31|科研

PenGym 单智能体 izumi 当日进展报告：reward2 主线保留，reward3 未胜出，长训收益有限，研究重点正式转向泛化接口一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不把尚未完成的泛化接口、LLM 接入、多智能体协作写成已经做完。今天最重要的结果可以概括为六点：已确认当前单智能体学习型 izumi 的主 baseline 仍应保留为 MaskablePPO + reward2 + base_200k。已完成 reward3 分支训练与评测，但当前结果并没有超过 reward2，因此不作为主线。已尝试在 base_200k 基础上继续训练，但在当前单局 deterministic eval 口径下，没有观察到比 200k 更明显的提升，因此暂不继续把精力放在长训上。已尝试直接做跨场景泛化评测，但发现现有实现并不具备直接跨场景 zero-shot 的条件，核心阻塞是 observation / action space 不统一。已通过阅读 PenGymEnv、NASimEnv、Observation、HostVector 等实现，定...

大模型下的深度强化学习的多智能体渗透测试(4)

发表于2026-03-30|科研

PenGym 单智能体 izumi 当日进展报告：MaskablePPO 主线稳定跑通，并通过 reward shaping 突破旧平台，形成新的 DRL 基线一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不描述理想路线，也不把尚未完成的 LLM、多智能体部分写成已经完成。今天最重要的结果可以概括为六点：已确认当前单智能体学习型 izumi 的主线应收敛到 MaskablePPO，而不是继续在 D3QN/DDQN、PPO、RPPO 之间来回横跳。已分清 run.py 中的规则型 izumi 入口和真正的 DRL 入口，避免继续在错误入口上浪费时间。已修复训练与评估不一致、动作掩码接错、成功动作循环、空掩码崩溃等关键工程问题，使 MaskablePPO 单智能体链路真正稳定。已得到 maskable_ppo_izumi_tiny_20k.zip 这一可复现、可多轮 deterministic eval 的 DRL 单智能体基线。已在 tiny_20k 基线上做继承训练，并通过更强 reward shaping（reward2）把训练回报从旧平台约 ...

大模型下的深度强化学习的多智能体渗透测试(3)

发表于2026-03-24|科研

PenGym 单智能体 izumi 当日进展报告：D3QN-v2 训练评估链路已打通，但当前策略仍陷入局部失败循环一、这篇文章要说明什么这份记录只描述今天真实完成的事情，不描述理想路线。今天的结果可以概括为四点：已新建 prototype/drl_izumi/ 单智能体 DRL 实验线，并采用 D3QN 作为当前学习型 izumi 的核心决策模型。已完成 D3QN-v2 训练链与评估链的工程打通，训练不再停留在“规则 agent”或“脚本报错”阶段。已定位并修复一批关键接口级 bug，使训练能够真正进入参数更新阶段。当前模型虽然已经具备深度强化学习训练能力，但评估结果显示策略质量仍然较差，主要表现为重复执行局部失败动作循环。因此，今天最准确的阶段判断是： D3QN-v2 单智能体 DRL 工程链：已打通当前策略效果：仍不理想，尚不能替代规则版 izumi 下一步重点：不再是修接口，而是抑制循环行为、加强动作约束与奖励设计二、今天的工作目标今天的目标，不是继续扩展规则路径，也不是继续尝试 PPO，而是做一件更基础但必须先完成的事：把 izumi 的学习型分...

大模型下的深度强化学习的多智能体渗透测试(2)

发表于2026-03-23|科研

PenGym 单智能体 izumi 当前现状报告：规则基线已完成，深度强化学习分支已建立但尚未并回主线一、这篇文章要说明什么这份记录不再描述“理想路线”，只说明当前仓库和当前进度的真实状态。当前事实可以归纳为三点： PenGym 单智能体规则基线 izumi 已完成并可运行。仓库中已经存在深度强化学习训练与评估脚本，且已经产出 PPO / MaskablePPO 模型文件。当前 DRL 分支还没有真正并回 run.py -a izumi 主线，因此 izumi 目前仍然是规则型 agent，而不是学习型 agent。因此，现阶段最准确的判断是：规则型单智能体阶段：已完成深度强化学习单智能体阶段：已开始，已建立独立实验线，但尚未完成与 izumi 主线合并二、实验环境1. 宿主与虚拟机宿主机：Windows 虚拟机：Ubuntu 虚拟化软件：VMware 2. 本阶段实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义规则型单智能体：izumi Stable-Baselines3 PPO S...

大模型下的深度强化学习的多智能体渗透测试(1)

发表于2026-03-22|科研

从 0 到可运行：PenGym 单智能体基线 izumi 的部署、调试与复现一、这篇文章要解决什么问题这次目标不是直接做多智能体，也不是一上来就接 PPO/LSTM，而是先把一个可运行的自动渗透实验基座搭起来。具体拆成三件事：把 PenGym 环境在 Ubuntu 虚拟机里跑起来。跑通官方自带的单智能体基线：deterministic 和 random。接入自己的规则型单智能体 izumi，验证它能在 NASim 仿真环境中完成一条有效攻击路径。最终结果是： PenGym 已成功部署。 NASim simulation 模式可正常运行。 random 与 deterministic 基线均可执行。自定义 agent izumi 已成功接入，并能完成扫描、利用与横向推进。二、实验环境1. 宿主与虚拟机宿主机：Windows 虚拟机：Ubuntu 虚拟化软件：VMware 2. 本次实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义单智能体基线：izumi 3. 本阶段刻意不做的内容为了先把...

Hello World!!!

发表于2026-03-09|日常

嗯这就是和泉伏见的个人博客，平时随便写写日常发发癫，搞工作的事情和一些感想吧