欢迎来到和泉伏见的网络世界!

欢迎来到和泉伏见的网络世界!

学习上的折腾
发表于2026-05-22|日常
哎哎总是感觉在瞎折腾。不知道自己在学习什么。真像是云顶天宫,在应用层做东西,不知道做的是什么,为什么这么做,只知道这么做了,这样可行。但是这样不行。我到底是要学AI还是计算机,还是AI和计算机。折腾了快一年了。要是早点入行就好了。
大模型下的深度强化学习的多智能体渗透测试(16)
发表于2026-05-18|科研
从 DVWA 真实靶场验证到项目收口:Qwen Commander 多智能体渗透测试系统完成闭环一、这篇文章要说明什么上一篇记录结束时,项目已经从 PenGym / NASim 仿真智能体,推进到了真实 Web 靶场方向的多智能体系统骨架阶段。 当时已经完成的是: PenGym 仿真线已经稳定; tiny / small / medium family 的 expert 和 router 已经形成完整闭环; 本地 toy target 上完成了 nmap service_scan -> XML -> RealObservationEvent; Qwen 的角色被重新定位为 Commander,而不是 step-level action override; 零信任语义通信和 Web Agent Team 的基础架构已经搭起来。 但是当时还不能说系统已经真正具备 Web 靶场渗透测试能力。因为那时只完成了 nginx toy target 的安全探测,还没有完成: DVWA 登录; Web 页面爬取; 表单解析; SQLi / XSS 候选识别;...
大模型下的深度强化学习的多智能体渗透测试(15)
发表于2026-05-17|科研
从 PenGym 仿真到真实 Web 靶场:Qwen Commander、零信任语义通信与多智能体渗透测试系统骨架一、这篇文章要说明什么这篇记录的核心,不再是继续在 PenGym / NASim 里训练新的 PPO 模型,也不是继续把已有仿真 expert 的成功率往上堆,而是说明项目开始从“仿真自动渗透智能体”转向“面向本地授权 Web 靶场的多智能体渗透测试系统”。 本阶段最重要的变化可以概括为四点: 训练线已经暂停:当前没有继续训练 PPO、BC、D3QN 或其他 RL 模型,已有模型仍作为仿真 expert 使用。 PenGym 仿真线已经成为稳定基座:tiny / small / medium family 的 solved experts、router、manager-worker、CLI 等工程能力已经形成完整闭环。 真实工具链路已经迈出第一步:本地 Docker toy target 上已经完成 nmap service_scan -> XML -> RealObservationEvent 的受控真实扫描闭环。 大模型角色被重新定义:Qw...
大模型下的深度强化学习的多智能体渗透测试(13)
发表于2026-05-13|科研
PenGym 单智能体 izumi 当日进展报告:small-family 完成 clean demo + BC + actor-freeze,并通过 2-expert router 达到 40/40 全覆盖一、这篇文章要说明什么上一篇记录结束时,项目已经完成了一个比较关键的 family-level 结果: 当前主线固定为 646/192,即 obs_dim=646、action_dim=192; tiny-family 不再依赖单一 BC policy,而是通过 2-expert router 实现全覆盖; tiny 使用 maskable_ppo_izumi_tiny_adapt_20k.zip; tiny-small / tiny-hard 共用 tiny-small successdistill actor-freeze PPO expert; tiny / tiny-small / tiny-hard 三个场景最终达到 deterministic 60/60 成功; 这说明当前研究已经从“单场景策略训练”推进到“solved experts + router”的 f...
大模型下的深度强化学习的多智能体渗透测试(12)
发表于2026-05-12|科研
PenGym 单智能体 izumi 当日进展报告:tiny-family 单策略失败后转向 2-expert router,并实现 tiny / tiny-small / tiny-hard 全覆盖一、这篇文章要说明什么上一篇记录结束时,项目已经推进到一个比较重要的位置: 当前主线已经固定为 646/192,即 obs_dim=646、action_dim=192; tiny-small 已经通过 success distillation 得到 deterministic 10/10 的 BC policy; tiny-small 进一步通过 actor-freeze / value-only PPO 得到更短的 deterministic 10/10 策略; tiny-hard 已经通过最小 expert demo + BC 训练达到 deterministic 10/10; 普通 PPO warm-start 已确认会破坏已成功的 BC actor,不再作为当前主路线; 当前更安全的 PPO 接法是 actor-freeze / value-only,而...
大模型下的深度强化学习的多智能体渗透测试(11)
发表于2026-05-08|科研
PenGym 单智能体 izumi 当日进展报告:success distillation 压出 tiny-small deterministic 成功策略,并迁移到 tiny-hard BC solved 基线一、这篇文章要说明什么上一篇记录结束时,项目已经推进到一个新的关键位置: 当前主线已经固定为 646/192,即 obs_dim=646、action_dim=192; unified demo dataset 与 BC 训练链路已经打通; BC 到 MaskablePPO 的 warm-start 工程链路已经打通; tiny-small 的问题已经从“接口不通 / 数据不足”推进到更具体的策略提取问题; 修复 repeat guard 后,stochastic policy 已经能偶尔成功,但 deterministic argmax 仍然不稳定; 继续普通 PPO 训练、继续简单 root bonus、继续无控制采样都没有形成稳定 deterministic 成功策略。 本阶段的核心目标不再是继续盲目堆训练步数,而是做一件更聚焦的事: 把 stoch...
大模型下的深度强化学习的多智能体渗透测试(10)
发表于2026-05-03|科研
PenGym 单智能体 izumi 当日进展报告:BC warm-start 工程闭环打通,tiny-small 根因从数据不足推进到 guard、argmax 与奖励信号问题一、这篇文章要说明什么上一篇记录结束时,项目已经推进到一个比较清楚的位置: medium family 内部泛化已经成立; small-honeypot 和 tiny 已经可以通过 short adaptation 成功; tiny-small / tiny-hard 仍然失败; 失败并不是开局完全不会,而是前期 foothold 能建立,中期会被坏分支带偏; 旧的 build_demo_dataset.py 仍然是 legacy raw observation / raw action id 路线,不能直接用于 unified cross-family 主线。 因此,本阶段的重点从“继续堆 PPO 训练步数”转向: 在当前 646/192 unified cross-family 主线下,构建兼容 unified observation 与 canonical action space 的...
大模型下的深度强化学习的多智能体渗透测试(9)
发表于2026-04-10|科研
PenGym 单智能体 izumi 当日进展报告:cross-family 边界继续向前推进,tiny 适配成功,tiny-small / tiny-hard 失败模式收敛,并开始转向示范轨迹与 BC warm-start 路线一、今天这篇记录要说明什么今天的工作重点,不再是继续纠结 medium family 内部训练细节,也不是回到 step-level LLM 的旧接法上,而是继续沿着当前已经收敛的主线,把 cross-family / cross-scenario 的边界再往前推一层,并进一步分析失败机制,尝试寻找不换 backbone 的修复路径。这一点与前一天已经确定的主线保持一致:当前最值得继续推进的方向仍然是 纯 DRL 的 cross-family 泛化边界刻画,而 LLM 更适合作为未来候选的高层统筹项,而不是当前底层动作主线。 今天真实完成并验证的事情可以概括为: 已基于当前统一动作空间 / 统一观测主线,继续补齐 small / tiny 方向的 cross-family adaptation map; 已确认:small-honey...
大模型下的深度强化学习的多智能体渗透测试(8)
发表于2026-04-09|科研
PenGym 单智能体 izumi 当日进展报告:LLM 动作级覆盖实验完成排除,纯 DRL 继续作为 cross-family 主线,后续大模型定位转向高层策略统筹一、今天这篇记录要说明什么今天的工作重点,不再是继续扩展 cross-family 的接口层,也不是继续在 medium family 内部做 reward 或 timesteps 的小修小补,而是专门回答一个更聚焦的问题: 在当前 izumi 单智能体主线上,引入大模型到底应该放在哪一层? 今天真实完成并验证的事情可以概括为: 已完成三类配置的实际对照尝试: 纯 DRL izumi DRL + 普通模式 Qwen3.6-Plus DRL + thinking 模式 Qwen3.6-Plus 已确认:当前 Qwen3.6-Plus 可以通过百炼 API 正常接入,并能在评测脚本中真正触发 LLM override。 已确认:普通模式 LLM 在当前 step-level candidate override 接法下,并没有稳定优于纯 DRL。 已确认:thinking 模式在当前评测接法下响应阻塞严重,无法...
大模型下的深度强化学习的多智能体渗透测试(7)
发表于2026-04-06|科研
PenGym 单智能体 izumi 当日进展报告:cross-family 接口层基本打通,small family 已出现 zero-shot 与 fast adaptation,tiny family 仍是当前纯 DRL 主线边界一、今天这篇记录要说明什么今天的主线不再是继续在 medium family 内部做小修小补,而是把问题真正往前推进到 cross-family generalization。 今天真实完成并验证的事情可以概括为: 已重新确认:medium-multi-site / medium-single-site / medium 三场景的 within-family generalization 已成立。 已从实验和接口层面明确:当前问题已经不再只是 observation wrapper,而是 cross-family action representation 也必须统一。 已实现一套面向 cross-family 的最小动作统一机制: unified_action_schema.py canonical target index UnifiedAct...
12
avatar
izumifushimi
文章
17
标签
0
分类
2
Follow Me
公告
This is my Blog
最新文章
学习上的折腾2026-05-22
大模型下的深度强化学习的多智能体渗透测试(16)2026-05-18
大模型下的深度强化学习的多智能体渗透测试(15)2026-05-17
大模型下的深度强化学习的多智能体渗透测试(13)2026-05-13
大模型下的深度强化学习的多智能体渗透测试(12)2026-05-12
分类
  • 日常2
  • 科研15
归档
  • 五月 2026 7
  • 四月 2026 4
  • 三月 2026 6
网站信息
文章数目 :
17
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By izumifushimi框架 Hexo 8.1.1|主题 Butterfly 5.5.4