如果你第一次打开 codex-main 这个源码目录,很容易被它的规模吓住:顶层有 npm 包、Rust workspace、SDK、app-server、MCP、插件、技能、沙箱、TUI、云任务、线程存储、模型提供商、登录认证等大量模块。它不像一个传统命令行工具,也不像一个简单的 ChatGPT 包装器。更准确地说,Codex CLI 是一个“本地运行的智能软件工程代理”:它能理解用户目标,读取项目上下文,调用模型推理,决定是否执行命令或修改文件,把工具结果回传给模型,再持续推进任务直到给出最终结果。

本文基于当前工作区的 codex-main 源码目录进行分析,目标是让初学者也能看懂 Codex 的基本原理,同时给有工程背景的读者足够的架构细节。文章会围绕四个问题展开:

第一,Codex 到底是什么?它和普通命令行工具、普通聊天机器人有什么区别?

第二,Codex 的源码是如何组织的?哪些 crate 或目录承担核心职责?

第三,Codex 的核心执行原理是什么?从用户输入一条需求,到模型调用 shell、修改文件、读取 MCP 资源、输出最终答案,中间经过了哪些关键步骤?

第四,从工程实践角度看,我们可以怎样使用 Codex、扩展 Codex,或者从它的架构中学习如何设计自己的 AI Agent?

先给出一句通俗但准确的定义:

Codex 是一个以 Rust 为核心实现的本地软件工程 Agent 运行时,它通过协议层连接 UI、CLI、App Server 和无交互执行入口,通过 core 会话循环连接模型和工具,通过沙箱、审批、配置、MCP、技能、插件等机制把“模型会想”变成“系统能安全地做事”。

从源码看,Codex 并不是把用户问题直接发给模型,然后打印模型回答这么简单。它更像一个小型操作系统,里面有输入队列、事件队列、会话状态、权限系统、工具注册表、上下文管理器、模型客户端、执行沙箱、插件系统和持久化存储。模型只是决策核心之一,真正把 Agent 做成产品的是围绕模型的一整套工程系统。

为了帮助初学者建立直觉,我们先用一个简化流程表示 Codex 的工作方式:

普通回复

工具调用

用户输入任务

CLI/TUI/App Server 接收请求

加载配置、权限、AGENTS.md、技能和插件

构建模型可见上下文

向模型发起 Responses API 请求

模型输出什么

记录消息并展示给用户

ToolRouter 匹配工具

审批与沙箱检查

执行 shell、apply_patch、MCP、web、子代理等工具

工具结果写回会话历史

结束当前 turn

这个循环是理解 Codex 的关键。传统 CLI 往往是“一条命令 -> 一个结果”,聊天机器人往往是“一段上下文 -> 一段文本”。Codex 则是“一段目标 -> 多轮推理 -> 多次工具调用 -> 状态更新 -> 最终交付”。它的源码复杂度主要来自三个方面:

  1. 模型需要看到足够上下文,但上下文窗口有限,所以需要压缩、裁剪和结构化注入。
  2. 模型需要调用真实工具,但工具可能读写文件、联网、执行命令,所以必须有权限、沙箱和审批。
  3. Codex 要服务多种入口,包括交互式 TUI、无交互 exec、IDE/桌面 App、MCP Server、Cloud 任务等,所以需要稳定协议和分层架构。

接下来进入源码层面的系统拆解。

2. 内容

简要介绍:codex-main 是一个多语言单仓库,外层 npm 包负责分发和启动,核心能力集中在 codex-rs Rust workspace。最重要的主线是:codex-cli/bin/codex.js 找到对应平台的原生二进制,Rust cli 解析命令,tui 或 exec 或 app-server 建立会话,core 运行 Agent 主循环,protocol 定义客户端与 Agent 之间的操作和事件,tools 负责把模型输出映射成真实工具调用,sandboxing 和权限系统负责限制风险。

2.1 Codex 不是“聊天壳”,而是 Agent Runtime

很多初学者第一次理解 AI 编程工具时,会把它想成:

用户:帮我修 bug

程序:把问题发给模型

模型:返回一段代码

程序:显示代码

这只是最早期的代码助手形态。Codex 源码展示的是更成熟的 Agent 形态:

用户:帮我修 bug

Codex:读取项目规则

搜索相关文件

运行测试

分析失败

修改代码

再运行测试

汇总结论

这个过程中,模型需要不断“看见”外部世界。它不能只凭训练记忆回答,因为当前项目的代码、测试失败、用户本地环境、未提交变更、配置文件和工具输出都在实时变化。Codex 的核心价值就在于把这些外部信息纳入一个受控循环。

在 codex-rs/core/src/session/turn.rs 中,源码对 run_turn 的注释已经把核心机制讲得很清楚:每一次 sampling request,模型可能返回函数调用,也可能返回助手消息。如果返回工具调用,Codex 执行工具并把工具输出作为下一次请求的输入;如果返回普通助手消息,就记录进历史并认为当前 turn 完成。

也就是说,Codex 的“智能”不只是模型能力,还包括它周围的运行时能力:

  • 它能把模型输出解析成结构化工具调用。
  • 它能把工具调用映射到本地实现。
  • 它能在执行前检查权限与审批策略。
  • 它能把执行结果转换成模型能理解的 ResponseInputItem
  • 它能维护线程、turn、上下文窗口、token 预算和持久化记录。

如果我们把 Codex 当成一个系统来观察,可以把它拆成五层:

用户入口层:CLI / TUI / exec / App Server / MCP Server

协议层:Op / Event / Thread / Turn

核心层:Session / Turn / Context / ModelClient

工具层:ToolRouter / ToolRegistry / ToolRuntime

执行与安全层:sandbox / approval / permission profile

模型与外部服务:OpenAI Responses API / WebSocket / HTTP / MCP

其中最重要的源码目录如下:

codex-main/
├── README.md                         # 项目入口说明,介绍安装方式和产品形态
├── codex-cli/
│   └── bin/codex.js                  # npm 包入口,定位并启动平台原生二进制
├── codex-rs/
│   ├── Cargo.toml                    # Rust workspace,列出大量内部 crate
│   ├── cli/                          # 顶层命令行解析与子命令分发
│   ├── tui/                          # 交互式终端 UI
│   ├── exec/                         # 非交互执行入口,适合脚本和 CI
│   ├── core/                         # Agent 核心:会话、turn、工具、上下文、模型调用
│   ├── protocol/                     # 核心协议类型:Op、Event、SandboxPolicy 等
│   ├── app-server/                   # App/IDE 等宿主形态可复用的服务端
│   ├── app-server-protocol/          # App Server v1/v2 JSON-RPC 协议
│   ├── codex-api/                    # OpenAI API / Responses API 访问层
│   ├── codex-client/                 # HTTP/SSE/WebSocket 客户端基础能力
│   ├── model-provider/               # 模型提供商抽象
│   ├── mcp-server/、codex-mcp/       # MCP 相关能力
│   ├── core-skills/、skills/         # 技能加载与注入
│   ├── core-plugins/、plugin/        # 插件 manifest、市场和本地插件
│   ├── sandboxing/                   # 跨平台沙箱抽象
│   ├── linux-sandbox/                # Linux Landlock / bubblewrap 支持
│   ├── windows-sandbox-rs/           # Windows 受限 token、ACL、WFP 等
│   ├── thread-store/                 # 线程持久化抽象
│   ├── rollout/、rollout-trace/      # 会话记录、回放和调试
│   └── tools/                        # 工具规范和共享工具定义
└── sdk/
    ├── python/                       # Python SDK
    └── typescript/                   # TypeScript SDK

从这个目录可以看出,Codex 的核心不是某一个巨大文件,而是一组职责明确的 crate。core 是大脑和调度中心,但它并不直接承担所有事情:协议在 protocol,UI 在 tui,无交互运行在 exec,App 集成在 app-server,沙箱在 sandboxing,插件和技能也拆成独立模块。

这正是大型 Agent 工程的第一条经验:不要把“模型调用、工具实现、UI 展示、权限控制、配置读取、状态存储”塞进一个文件。它们变化频率不同,风险边界不同,测试方式也不同。

2.2 从安装启动看 Codex 的第一层架构

Codex 可以通过 npm install -g @openai/codex、Homebrew 或安装脚本安装。源码中的 codex-cli/package.json 定义了 npm 包名和可执行入口:

{
  "name": "@openai/codex",
  "bin": {
    "codex": "bin/codex.js"
  },
  "type": "module"
}

但 codex.js 并不实现 Agent 本身。它做的是平台适配:根据 process.platform 和 process.arch 判断目标三元组,例如 macOS arm64 对应 aarch64-apple-darwin,Linux x64 对应 x86_64-unknown-linux-musl,Windows x64 对应 x86_64-pc-windows-msvc。然后它到对应平台包的 vendor/<target>/bin/codex 下寻找真正的原生二进制,最后用 spawn 把参数原样转发过去。

简化版代码可以这样理解:

// 简化示例:根据平台选择原生 Codex 二进制
const targetMap = {
  "darwin-arm64": "aarch64-apple-darwin",
  "darwin-x64": "x86_64-apple-darwin",
  "linux-x64": "x86_64-unknown-linux-musl",
  "win32-x64": "x86_64-pc-windows-msvc",
};

const key = `${process.platform}-${process.arch}`;
const targetTriple = targetMap[key];

// 真实源码会处理更多平台、包管理器提示和信号转发
const binaryPath = `vendor/${targetTriple}/bin/codex`;

// 关键逻辑:Node 只负责启动,Agent 主体在 Rust 二进制里
spawn(binaryPath, process.argv.slice(2), {
  stdio: "inherit",
  env: process.env,
});

这个设计有几个好处:

  1. npm 生态用户安装方便,不需要自己编译 Rust。
  2. 真正运行时代码是原生二进制,启动快,资源控制强。
  3. 平台差异被集中处理,Rust 侧可以根据目标平台启用不同沙箱实现。
  4. Node 入口保留了信号转发能力,用户按 Ctrl-C 时能把信号传给子进程。

初学者可以把 codex-cli/bin/codex.js 理解为“门卫”,它不负责推理,只负责把你带到真正的入口。

进入 Rust 之后,codex-rs/cli/src/main.rs 使用 clap 定义了顶层命令。源码里的 Subcommand 很能说明 Codex 的产品边界:

  • Exec:非交互运行 Codex。
  • Review:无交互代码审查。
  • Login / Logout:认证管理。
  • Mcp:管理外部 MCP server。
  • Plugin:管理 Codex 插件。
  • McpServer:把 Codex 作为 MCP server 运行。
  • AppServer:运行 app server 或相关工具。
  • App:启动桌面 App。
  • Doctor:诊断本地安装、配置、认证和运行环境。
  • Sandbox:在 Codex 提供的沙箱里运行命令。
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐