欢迎来到和泉伏见的网络世界!

欢迎来到和泉伏见的网络世界!

大模型下的深度强化学习的多智能体渗透测试(6)
发表于2026-04-03|科研
PenGym 单智能体 izumi 当日进展报告:medium family 统一接口打通,重复无增量动作约束显著改善泛化,但长训与强加权会导致分布偏置一、今天这篇记录要说明什么今天的主线不是继续讨论 reward3,也不是回到最初的单场景长训,而是围绕 medium family 的泛化 持续往下推进,并把“为什么泛化不稳定”一步一步拆出来。 今天真实完成并验证的事情可以概括为: 已实现 medium family unified observation adapter,并把 medium-multi-site、medium-single-site、medium 统一映射到固定 646 维输入。 已验证 unified observation 下的 reset、step、smoke train、单局推理都能正常运行,说明“统一接口 + PPO”这条链已经真正打通。 已确认:仅做 unified observation + single-scenario training 并不足以稳定泛化。 已实现 medium family mixed training,把训练分布从单场景推...
大模型下的深度强化学习的多智能体渗透测试(5)
发表于2026-03-31|科研
PenGym 单智能体 izumi 当日进展报告:reward2 主线保留,reward3 未胜出,长训收益有限,研究重点正式转向泛化接口一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不把尚未完成的泛化接口、LLM 接入、多智能体协作写成已经做完。 今天最重要的结果可以概括为六点: 已确认当前单智能体学习型 izumi 的主 baseline 仍应保留为 MaskablePPO + reward2 + base_200k。 已完成 reward3 分支训练与评测,但当前结果并没有超过 reward2,因此不作为主线。 已尝试在 base_200k 基础上继续训练,但在当前单局 deterministic eval 口径下,没有观察到比 200k 更明显的提升,因此暂不继续把精力放在长训上。 已尝试直接做跨场景泛化评测,但发现现有实现并不具备直接跨场景 zero-shot 的条件,核心阻塞是 observation / action space 不统一。 已通过阅读 PenGymEnv、NASimEnv、Observation、HostVector 等实现,定...
大模型下的深度强化学习的多智能体渗透测试(4)
发表于2026-03-30|科研
PenGym 单智能体 izumi 当日进展报告:MaskablePPO 主线稳定跑通,并通过 reward shaping 突破旧平台,形成新的 DRL 基线一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不描述理想路线,也不把尚未完成的 LLM、多智能体部分写成已经完成。 今天最重要的结果可以概括为六点: 已确认当前单智能体学习型 izumi 的主线应收敛到 MaskablePPO,而不是继续在 D3QN/DDQN、PPO、RPPO 之间来回横跳。 已分清 run.py 中的规则型 izumi 入口和真正的 DRL 入口,避免继续在错误入口上浪费时间。 已修复训练与评估不一致、动作掩码接错、成功动作循环、空掩码崩溃等关键工程问题,使 MaskablePPO 单智能体链路真正稳定。 已得到 maskable_ppo_izumi_tiny_20k.zip 这一可复现、可多轮 deterministic eval 的 DRL 单智能体基线。 已在 tiny_20k 基线上做继承训练,并通过更强 reward shaping(reward2)把训练回报从旧平台约 ...
大模型下的深度强化学习的多智能体渗透测试(3)
发表于2026-03-24|科研
PenGym 单智能体 izumi 当日进展报告:D3QN-v2 训练评估链路已打通,但当前策略仍陷入局部失败循环一、这篇文章要说明什么这份记录只描述今天真实完成的事情,不描述理想路线。 今天的结果可以概括为四点: 已新建 prototype/drl_izumi/ 单智能体 DRL 实验线,并采用 D3QN 作为当前学习型 izumi 的核心决策模型。 已完成 D3QN-v2 训练链与评估链的工程打通,训练不再停留在“规则 agent”或“脚本报错”阶段。 已定位并修复一批关键接口级 bug,使训练能够真正进入参数更新阶段。 当前模型虽然已经具备深度强化学习训练能力,但评估结果显示策略质量仍然较差,主要表现为重复执行局部失败动作循环。 因此,今天最准确的阶段判断是: D3QN-v2 单智能体 DRL 工程链:已打通 当前策略效果:仍不理想,尚不能替代规则版 izumi 下一步重点:不再是修接口,而是抑制循环行为、加强动作约束与奖励设计 二、今天的工作目标今天的目标,不是继续扩展规则路径,也不是继续尝试 PPO,而是做一件更基础但必须先完成的事: 把 izumi 的学习型分...
大模型下的深度强化学习的多智能体渗透测试(2)
发表于2026-03-23|科研
PenGym 单智能体 izumi 当前现状报告:规则基线已完成,深度强化学习分支已建立但尚未并回主线一、这篇文章要说明什么这份记录不再描述“理想路线”,只说明当前仓库和当前进度的真实状态。 当前事实可以归纳为三点: PenGym 单智能体规则基线 izumi 已完成并可运行。 仓库中已经存在深度强化学习训练与评估脚本,且已经产出 PPO / MaskablePPO 模型文件。 当前 DRL 分支还没有真正并回 run.py -a izumi 主线,因此 izumi 目前仍然是规则型 agent,而不是学习型 agent。 因此,现阶段最准确的判断是: 规则型单智能体阶段:已完成 深度强化学习单智能体阶段:已开始,已建立独立实验线,但尚未完成与 izumi 主线合并 二、实验环境1. 宿主与虚拟机 宿主机:Windows 虚拟机:Ubuntu 虚拟化软件:VMware 2. 本阶段实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义规则型单智能体:izumi Stable-Baselines3 PPO S...
大模型下的深度强化学习的多智能体渗透测试(1)
发表于2026-03-22|科研
从 0 到可运行:PenGym 单智能体基线 izumi 的部署、调试与复现一、这篇文章要解决什么问题这次目标不是直接做多智能体,也不是一上来就接 PPO/LSTM,而是先把一个可运行的自动渗透实验基座搭起来。具体拆成三件事: 把 PenGym 环境在 Ubuntu 虚拟机里跑起来。 跑通官方自带的单智能体基线:deterministic 和 random。 接入自己的规则型单智能体 izumi,验证它能在 NASim 仿真环境中完成一条有效攻击路径。 最终结果是: PenGym 已成功部署。 NASim simulation 模式可正常运行。 random 与 deterministic 基线均可执行。 自定义 agent izumi 已成功接入,并能完成扫描、利用与横向推进。 二、实验环境1. 宿主与虚拟机 宿主机:Windows 虚拟机:Ubuntu 虚拟化软件:VMware 2. 本次实际使用的软件栈 PenGym NASim simulation Python 虚拟环境 venv 自定义单智能体基线:izumi 3. 本阶段刻意不做的内容为了先把...
Hello World!!!
发表于2026-03-09|日常
嗯这就是和泉伏见的个人博客,平时随便写写日常发发癫,搞工作的事情和一些感想吧
12
avatar
izumifushimi
文章
17
标签
0
分类
2
Follow Me
公告
This is my Blog
最新文章
学习上的折腾2026-05-22
大模型下的深度强化学习的多智能体渗透测试(16)2026-05-18
大模型下的深度强化学习的多智能体渗透测试(15)2026-05-17
大模型下的深度强化学习的多智能体渗透测试(13)2026-05-13
大模型下的深度强化学习的多智能体渗透测试(12)2026-05-12
分类
  • 日常2
  • 科研15
归档
  • 五月 2026 7
  • 四月 2026 4
  • 三月 2026 6
网站信息
文章数目 :
17
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By izumifushimi框架 Hexo 8.1.1|主题 Butterfly 5.5.4