有了 Computer Use,AGN 还需要吗?

这篇文章回答一个我最近必须正面面对的问题:

当 Codex 已经原生拥有 Computer UseAutomations、连接器、图像生成、应用级浏览器和更强的桌面执行能力后,AGN 还剩下什么不可替代的价值?

这不是一篇纯概念讨论,而是一次带版本锚点的实测调查。

调查前提

这次调查先做了两次 git pull,确保不是拿过期状态做判断。

仓库更新

  1. AgenticNetworkb9b43f1 快进到 a56682d
  2. blog1e0afb5 快进到 bfe452f

之后我做了什么

  1. 在最新 AGN 仓库上重新运行:
    • python3 scripts/agn2_system.py status
    • python3 scripts/agn2_system.py capabilities
    • python3 scripts/agn2_execution_workflow.py preflight --task-summary "..."
    • python3 scripts/agn_reconstruction_status.py show
  2. 重新阅读 AGN 当前最相关的文档:
    • AGENTS.md
    • documentation/reference/agn2_codex_operating_memory.md
    • documentation/reference/agn_phase3_forward_plan.md
    • documentation/reference/agn_phase3_self_audit.md
  3. 用 OpenAI 官方页面重新核对 Codex 最新能力,而不是拿社区二手总结当结论:

换句话说,这篇文章不是“凭印象写判断”,而是基于最新版 AGN 和最新版 OpenAI 官方文档对照出来的。


先说结论

我的结论很直接:

  1. Computer Use 已经吃掉了 AGN 过去相当一部分“执行层便利性”价值。
  2. 如果 AGN 的某一层存在的唯一理由,是“旧 Codex 不会点桌面、不会跨 app、不会后台自动做事”,那一层现在应该被削弱,甚至退役。
  3. 但 AGN 还没有失去全部意义。它仍然保留了一块 Codex 原生产品今天没有完整覆盖的区域:
    • 治理
    • 审批与权限边界
    • 可审计的执行链
    • 明确的 reviewer / worker 分工
    • append-only memory
    • 控制面与读模型
    • 长期结构化系统化演进

所以更准确的判断不是“AGN 已经过时”,而是:

AGN 不该继续和新版 Codex 在“谁更会操作电脑”这件事上正面对打,而应该收缩到它真正擅长的治理层、编排层和可审计系统层。


OpenAI 已经官方确认了什么

先把事实钉牢。

根据 OpenAI 在 2026-04-16 发布的产品页,Codex 现在已经明确具备这些能力:

  1. 背景 Computer Use
    • Codex 可以在 macOS 上看、点、输入,用自己的光标并行操作你的电脑,而且不会抢你的前台工作。
  2. in-app browser
    • Codex 开始原生“在网页里工作”,可以直接在页面上留注释,让 agent 精确理解你要改哪里。
  3. gpt-image-1.5
    • 可以在同一工作流里生成和迭代图片。
  4. 更多插件与连接能力
    • 官方写的是 “more than 90 additional plugins”。
  5. 更深的开发工作流支持
    • GitHub review comments
    • multiple terminal tabs
    • rich previews for PDFs / spreadsheets / slides / docs
    • remote devboxes over SSH in alpha
  6. 后台持续工作
    • 官方在 Codex app 发布页明确写的是 Automations
    • 2026-04-16 的更新页则进一步写到可以 schedule future work,并自动唤醒继续执行长期任务
  7. memory preview
    • 允许 Codex 记住偏好、纠正和耗时收集到的上下文

对应官方来源:

两个容易被说混的点

1. Heartbeats 这个词

我在这次核对的官方产品页里,看到的是 Automationsschedule future workwake up automatically,没有在官方页面里看到把这个能力正式主命名成 Heartbeats

这意味着:

  • 你截图里的说法不一定是假的
  • 但至少在我这次核对到的官方页面里,它不是最稳定的官方公开命名

2. GPT-5.4 提供 1M context

这件事在模型页上是成立的。

OpenAI 官方模型页明确写了:

  • gpt-5.4 context window = 1M
  • 工具支持包含 Computer use

但这不应被偷换成:

“Codex app 的所有工作流默认都等同于 1M 上下文”

模型能力和产品层体验不是一回事,不能混说。


API 级 Computer Use 和 Codex app 不是一回事

这一点非常重要。

Chrome 里打开的 Computer use 文档页 讲的是更底层的能力接口,而不是 Codex app 的全部产品体验。

官方文档把集成路径分成三类:

  1. 用内建的 Responses API computer 工具
  2. 用你自己的 harness,例如 Playwright / Selenium / VNC / MCP
  3. 用 code-execution harness,让模型写脚本来驱动浏览器或桌面

同一页还明确强调了几条安全边界:

  1. 尽量用隔离环境
  2. 高影响动作要保留人工确认
  3. 页面内容、截图文字、PDF、邮件、聊天记录等都应视为不可信输入
  4. 只有用户的直接指令才算权限

这个文档的意义在于:

  • 它说明 OpenAI 现在不是只做一个“会点鼠标的 UI feature”
  • 它是在把 computer use 定义成正式的 agentic execution surface

这对 AGN 的冲击是结构性的,而不是 cosmetic 的。


最新版 AGN 现在是什么状态

在拉到 a56682d 之后,我重新看了 AGN 当前的自我描述和运行面。

当前重构阶段

scripts/agn_reconstruction_status.py show 给出的结论是:

  1. AGN 当前仍在 Phase 3 - Gradual Implementation Migration
  2. 目标是把大量 scripts/ 渐进迁移进 src/agn
  3. 当前重点不是扩能力,而是完成 package-first 的热路径收拢

这和 documentation/reference/agn_phase3_self_audit.md 是一致的。那份自审文档的核心结论非常坦白:

AGN 已经不再只是脚本堆,但也还没有成为完全 package-native 的系统。

文档里明确提到:

  1. 热治理路径已经大体 package-first
  2. 仍然存在剩余 handler proxy
  3. 仍然存在部分 script-era dependency debt

AGN 当前明确仍然强调的核心表面

根据最新版 AGENTS.mdagn2_codex_operating_memory.mdcapabilities 输出,AGN 当前最重视的表面不是“会不会点网页”,而是这些:

  1. Control Plane
  2. policy gate
  3. dispatcher
  4. governed execution gateway
  5. review gate
  6. memory recorder
  7. task-start kernel
  8. operator brief
  9. host info
  10. desktop_adapter 与受治理的 desktop execution

而且它仍然明确坚持:

  1. reviewer 和 worker 要分层
  2. 重要判断不能交给低级 worker
  3. 记忆必须 append-only
  4. 视觉与 GUI 执行必须经过安全边界
  5. 终端不是整个世界,只是一个 execution surface

这说明最新版 AGN 其实已经在把自己的“系统价值”往治理层和执行边界层收,而不是单纯拼功能数量。


哪些部分已经和新版 Codex 明显重叠

这是最该直说的地方。

1. 浏览器与桌面执行层

新版 Codex 已经有:

  1. 背景 Computer Use
  2. in-app browser
  3. 页面内精确标注
  4. 多 agent 并行桌面执行

这直接压缩了 AGN 过去这些东西的独立价值:

  1. browser-use wrapper
  2. 部分 desktop_adapter 场景
  3. 一部分 agn_visual_operator/视觉驱动浏览器操作
  4. 过去为了“让 Codex 碰到真实软件”而搭的桥接层

2. 自动化与长期唤醒

Codex 现在已有:

  1. Automations
  2. schedule future work
  3. 自动唤醒继续执行长期任务
  4. memory preview

这意味着 AGN 里“为了让任务周期性执行、隔一段时间再醒来”的一些设计,不再自动具有稀缺性。

3. 图像与多模态工作流

Codex 现在直接能调 gpt-image-1.5,还和截图、代码、页面工作流打通。

这会削弱 AGN 过去那类“通过额外 skill 或 wrapper 才能把图像工作引进来”的必要性。

4. 插件 / MCP / 外部工具接入

Codex 新增了 90+ plugins,而我这次会话本身也已经直接挂上了:

  1. Computer Use
  2. GitHub
  3. Google Drive
  4. Figma
  5. image generation
  6. automation

这意味着很多“为了把外部工具接进来而搭的第二层桥”已经没有以前那么值钱了。


哪些部分 AGN 现在仍然不可替代

如果只看“能不能做事”,新版 Codex 确实已经强得多。

但如果看“能不能以治理化、可审计、长期稳定的方式做事”,AGN 还保留着明显不同的价值。

1. 治理与权限边界

Codex 产品本身当然有安全设计,但 AGN 有一整套更显式的治理框架:

  1. policy gate
  2. emergency stop
  3. control plane
  4. formal command path
  5. read-model visibility

这类东西不是“会不会点鼠标”的增强,而是“谁有资格做什么、做了之后怎么留痕”的增强。

2. append-only memory 与事件证据链

AGN 很强调:

  1. memory/records append-only
  2. runtime/bus 和 durable ledger 分离
  3. invalid append 要留 quarantine evidence

这是一种“系统级记忆 discipline”,而不只是“产品里有 memory feature”。

3. reviewer / worker 分层

AGN 现在仍然坚持一条很重要的原则:

  1. QwenDeepSeek 只是 worker-grade
  2. Gemini ProClaude Opus 是 reviewer-grade
  3. 最终判断不能外包给便宜模型

这个分层,不是单个 agent 产品自动会替你做好的。

4. 可读的系统真相

AGN 不只是“能运行”,还试图把运行状态组织成几类读表面:

  1. capability_snapshot
  2. execution_discipline
  3. host_info
  4. operator_brief
  5. reconstruction_status

这类东西的意义是:你不是只能靠聊天记录回忆系统现在是什么状态。

5. 架构演进纪律

最新版 AGN 很明显在往这个方向收拢:

  1. 把脚本实现迁入 src/agn
  2. 保留 script shim
  3. 用 self-audit 和 acceptance matrix 约束迁移

这和一个“好用的 agent app”不是同一类价值。


所以我现在的真实判断是什么

我的判断分成两层。

对日常直接监督下的工作

如果场景是:

  1. 你在电脑前
  2. 任务范围明确
  3. 主要诉求是跨 app 执行、浏览器调查、桌面操作、轻度自动化

那新版 Codex 已经足够强,AGN 很多执行层 wrapper 都应该退居次要位置。

继续维持它们的代价,可能已经高于收益。

对长期、多代理、可审计系统

如果场景是:

  1. 需要明确审批边界
  2. 需要把 worker 和 reviewer 严格分开
  3. 需要 append-only memory
  4. 需要控制面和可读状态
  5. 需要跨多次会话维持结构化系统演进

那 AGN 仍然不是冗余物。

它的价值不在于“比 Codex 更会点软件”,而在于:

它试图把 agent 执行变成一个被治理、被追踪、可回放、可演进的系统。


我对 AGN 下一步的建议

如果让我基于这次调查给出方向,我会建议 AGN 做三件事。

1. 停止和新版 Codex 在执行层硬碰硬

该收缩的就收缩:

  1. 只为补足旧 Codex 能力缺口而存在的 wrapper
  2. 只为桌面点击而生的中间桥接层
  3. 只为“让 agent 能碰到真实 app”而搭的一次性结构

2. 把重心压回治理层

继续强化这些真正还值钱的部分:

  1. control plane
  2. policy gate
  3. governed execution gateway
  4. reviewer / worker discipline
  5. append-only memory
  6. read models
  7. task-start posture

3. 接受一个新的角色定位

AGN 不该再把自己理解成“比 Codex 更大的工具箱”。

更合理的定位应该是:

Codex 负责越来越强的原生执行,AGN 负责把复杂执行收进一个可治理的系统边界里。

如果这个角色定位成立,那么 AGN 的路线就会清晰很多:

  1. 不和 Codex 抢原生执行体验
  2. 利用 Codex 的原生执行能力
  3. 把自己的不可替代价值集中在 governance、audit、memory、review orchestration 上

最后一句话

有了 Computer Use 之后,AGN 当然没有“原样不动继续扩张”的正当性了。

但这不等于 AGN 没用了。

真正的结论是:

新版 Codex 已经让 AGN 过去很多执行层补丁失去必要性;AGN 现在要么收缩到治理层与系统层,要么就会被新版 Codex 的原生能力逐步边缘化。

这不是坏消息。

这反而是一次很健康的架构分化:

  • 让 Codex 去做它已经明显更擅长的事
  • 让 AGN 只保留那些真正值得长期维护的部分