大模型下的深度强化学习的多智能体渗透测试(9)
PenGym 单智能体 izumi 当日进展报告:cross-family 边界继续向前推进,tiny 适配成功,tiny-small / tiny-hard 失败模式收敛,并开始转向示范轨迹与 BC warm-start 路线一、今天这篇记录要说明什么今天的工作重点,不再是继续纠结 medium family 内部训练细节,也不是回到 step-level LLM 的旧接法上,而是继续沿着当前已经收敛的主线,把 cross-family / cross-scenario 的边界再往前推一层,并进一步分析失败机制,尝试寻找不换 backbone 的修复路径。这一点与前一天已经确定的主线保持一致:当前最值得继续推进的方向仍然是 纯 DRL 的 cross-family 泛化边界刻画,而 LLM 更适合作为未来候选的高层统筹项,而不是当前底层动作主线。 今天真实完成并验证的事情可以概括为: 已基于当前统一动作空间 / 统一观测主线,继续补齐 small / tiny 方向的 cross-family adaptation map; 已确认:small-honey...
大模型下的深度强化学习的多智能体渗透测试(8)
PenGym 单智能体 izumi 当日进展报告:LLM 动作级覆盖实验完成排除,纯 DRL 继续作为 cross-family 主线,后续大模型定位转向高层策略统筹一、今天这篇记录要说明什么今天的工作重点,不再是继续扩展 cross-family 的接口层,也不是继续在 medium family 内部做 reward 或 timesteps 的小修小补,而是专门回答一个更聚焦的问题: 在当前 izumi 单智能体主线上,引入大模型到底应该放在哪一层? 今天真实完成并验证的事情可以概括为: 已完成三类配置的实际对照尝试: 纯 DRL izumi DRL + 普通模式 Qwen3.6-Plus DRL + thinking 模式 Qwen3.6-Plus 已确认:当前 Qwen3.6-Plus 可以通过百炼 API 正常接入,并能在评测脚本中真正触发 LLM override。 已确认:普通模式 LLM 在当前 step-level candidate override 接法下,并没有稳定优于纯 DRL。 已确认:thinking 模式在当前评测接法下响应阻塞严重,无法...
大模型下的深度强化学习的多智能体渗透测试(7)
PenGym 单智能体 izumi 当日进展报告:cross-family 接口层基本打通,small family 已出现 zero-shot 与 fast adaptation,tiny family 仍是当前纯 DRL 主线边界一、今天这篇记录要说明什么今天的主线不再是继续在 medium family 内部做小修小补,而是把问题真正往前推进到 cross-family generalization。 今天真实完成并验证的事情可以概括为: 已重新确认:medium-multi-site / medium-single-site / medium 三场景的 within-family generalization 已成立。 已从实验和接口层面明确:当前问题已经不再只是 observation wrapper,而是 cross-family action representation 也必须统一。 已实现一套面向 cross-family 的最小动作统一机制: unified_action_schema.py canonical target index UnifiedAct...
学习计划
学习路线清单(按先后顺序)第一阶段:基础底座1. Python 基础语法 数据类型与容器 函数 面向对象 异常处理 文件读写 标准库 模块与包 虚拟环境与依赖管理 日志与调试 测试(pytest) 网络编程 并发基础(线程、进程、协程) 爬虫 Flask / FastAPI 数据处理(NumPy / Pandas) 基础可视化 安全脚本开发 2. Linux 常用命令 文件系统 权限管理 用户与组 进程管理 服务管理 Shell 脚本 网络命令 SSH 日志查看 环境变量 软件安装与编译 systemd Docker 基础 3. 计算机网络 OSI / TCP-IP 模型 IP / TCP / UDP DNS HTTP / HTTPS TLS 基础 Socket 路由与交换基础 NAT / 代理 WebSocket 抓包分析(Wireshark) 常见协议(FTP / SMTP / SSH) 4. 操...
大模型下的深度强化学习的多智能体渗透测试(6)
PenGym 单智能体 izumi 当日进展报告:medium family 统一接口打通,重复无增量动作约束显著改善泛化,但长训与强加权会导致分布偏置一、今天这篇记录要说明什么今天的主线不是继续讨论 reward3,也不是回到最初的单场景长训,而是围绕 medium family 的泛化 持续往下推进,并把“为什么泛化不稳定”一步一步拆出来。 今天真实完成并验证的事情可以概括为: 已实现 medium family unified observation adapter,并把 medium-multi-site、medium-single-site、medium 统一映射到固定 646 维输入。 已验证 unified observation 下的 reset、step、smoke train、单局推理都能正常运行,说明“统一接口 + PPO”这条链已经真正打通。 已确认:仅做 unified observation + single-scenario training 并不足以稳定泛化。 已实现 medium family mixed training,把训练分布从单场景推...
大模型下的深度强化学习的多智能体渗透测试(5)
PenGym 单智能体 izumi 当日进展报告:reward2 主线保留,reward3 未胜出,长训收益有限,研究重点正式转向泛化接口一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不把尚未完成的泛化接口、LLM 接入、多智能体协作写成已经做完。 今天最重要的结果可以概括为六点: 已确认当前单智能体学习型 izumi 的主 baseline 仍应保留为 MaskablePPO + reward2 + base_200k。 已完成 reward3 分支训练与评测,但当前结果并没有超过 reward2,因此不作为主线。 已尝试在 base_200k 基础上继续训练,但在当前单局 deterministic eval 口径下,没有观察到比 200k 更明显的提升,因此暂不继续把精力放在长训上。 已尝试直接做跨场景泛化评测,但发现现有实现并不具备直接跨场景 zero-shot 的条件,核心阻塞是 observation / action space 不统一。 已通过阅读 PenGymEnv、NASimEnv、Observation、HostVector 等实现,定...
大模型下的深度强化学习的多智能体渗透测试(4)
PenGym 单智能体 izumi 当日进展报告:MaskablePPO 主线稳定跑通,并通过 reward shaping 突破旧平台,形成新的 DRL 基线一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不描述理想路线,也不把尚未完成的 LLM、多智能体部分写成已经完成。 今天最重要的结果可以概括为六点: 已确认当前单智能体学习型 izumi 的主线应收敛到 MaskablePPO,而不是继续在 D3QN/DDQN、PPO、RPPO 之间来回横跳。 已分清 run.py 中的规则型 izumi 入口和真正的 DRL 入口,避免继续在错误入口上浪费时间。 已修复训练与评估不一致、动作掩码接错、成功动作循环、空掩码崩溃等关键工程问题,使 MaskablePPO 单智能体链路真正稳定。 已得到 maskable_ppo_izumi_tiny_20k.zip 这一可复现、可多轮 deterministic eval 的 DRL 单智能体基线。 已在 tiny_20k 基线上做继承训练,并通过更强 reward shaping(reward2)把训练回报从旧平台约 ...
大模型下的深度强化学习的多智能体渗透测试(3)
PenGym 单智能体 izumi 当日进展报告:D3QN-v2 训练评估链路已打通,但当前策略仍陷入局部失败循环一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不描述理想路线。 今天的结果可以概括为四点: 已新建 prototype/drl_izumi/ 单智能体 DRL 实验线,并采用 D3QN 作为当前学习型 izumi 的核心决策模型。 已完成 D3QN-v2 训练链与评估链的工程打通,训练不再停留在“规则 agent”或“脚本报错”阶段。 已定位并修复一批关键接口级 bug,使训练能够真正进入参数更新阶段。 当前模型虽然已经具备深度强化学习训练能力,但评估结果显示策略质量仍然较差,主要表现为重复执行局部失败动作循环。 因此,今天最准确的阶段判断是: D3QN-v2 单智能体 DRL 工程链:已打通 当前策略效果:仍不理想,尚不能替代规则版 izumi 下一步重点:不再是修接口,而是抑制循环行为、加强动作约束与奖励设计 二、今天的工作目标今天的目标,不是继续扩展规则路径,也不是继续尝试 PPO,而是做一件更基础但必须先完成的事: 把 izumi 的学习型分...
大模型下的深度强化学习的多智能体渗透测试(2)
PenGym 单智能体 izumi 当前现状报告:规则基线已完成,深度强化学习分支已建立但尚未并回主线一、这篇文章要说明什么这份记录不再描述“理想路线”,只说明当前仓库和当前进度的真实状态。 当前事实可以归纳为三点: PenGym 单智能体规则基线 izumi 已完成并可运行。 仓库中已经存在深度强化学习训练与评估脚本,且已经产出 PPO / MaskablePPO 模型文件。 当前 DRL 分支还没有真正并回 run.py -a izumi 主线,因此 izumi 目前仍然是规则型 agent,而不是学习型 agent。 因此,现阶段最准确的判断是: 规则型单智能体阶段:已完成 深度强化学习单智能体阶段:已开始,已建立独立实验线,但尚未完成与 izumi 主线合并 二、实验环境1. 宿主与虚拟机 宿主机:Windows 虚拟机:Ubuntu 虚拟化软件:VMware 2. 本阶段实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义规则型单智能体:izumi Stable-Baselines3 PPO S...
大模型下的深度强化学习的多智能体渗透测试(1)
从 0 到可运行:PenGym 单智能体基线 izumi 的部署、调试与复现一、这篇文章要解决什么问题这次目标不是直接做多智能体,也不是一上来就接 PPO/LSTM,而是先把一个可运行的自动渗透实验基座搭起来。具体拆成三件事: 把 PenGym 环境在 Ubuntu 虚拟机里跑起来。 跑通官方自带的单智能体基线:deterministic 和 random。 接入自己的规则型单智能体 izumi,验证它能在 NASim 仿真环境中完成一条有效攻击路径。 最终结果是: PenGym 已成功部署。 NASim simulation 模式可正常运行。 random 与 deterministic 基线均可执行。 自定义 agent izumi 已成功接入,并能完成扫描、利用与横向推进。 二、实验环境1. 宿主与虚拟机 宿主机:Windows 虚拟机:Ubuntu 虚拟化软件:VMware 2. 本次实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义单智能体基线:izumi 3. 本阶段刻意不做的内容为了先把...
