AI Agent入门学习
近期系统学习了当前主流的两款 AI Agent 工具 —— Codex 和 Trae
一、Agent 核心定义与通用架构
1.1 什么是 Agent?
Agent 不是简单的“会聊天的模型”,而是能围绕目标持续行动的系统。其本质可以概括为:
Agent = LLM + Planning + Memory + Tools + Control Loop
1.2 通用架构分层(六大核心模块)
| 模块 | 功能 |
|---|---|
| 感知层(Perception) | 接收并解析多模态输入(文本/图像/语音),构建结构化提示 |
| 记忆层(Memory) | 存储短期上下文与长期知识(向量数据库) |
| 推理层(Reasoning) | 任务分解、规划决策、工具选择与调度 |
| 执行层(Execution) | 调用工具/API、执行代码、生成多模态输出 |
| 控制循环(Control Loop) | 持续的“感知-思考-行动”循环,结果反馈与状态监控 |
| 协作层(Collaboration) | 多 Agent 协同、角色分配与消息传递 |
1.3 架构演进路径
- 单体智能体 → 2. 增强智能体(+记忆/规划) → 3. 工具智能体 → 4. 多智能体系统 → 5. 操作系统级 Agent 平台
二、Codex 深度使用笔记
Codex 提供了 App、VS Code 插件、CLI 三种使用方式,以下重点记录 App 版本的核心特性和实战技巧。
2.1 Codex App 的 11 个特性
- 基础设置
- 模型选择(复杂任务用 GPT-5.4,简单任务用 GPT-5.3-Codex)
- 多项目开发(Threads)
- 单项目使用 Worktree 并行开发
- 复杂问题启用 Plan 模式
- 技能的安装与使用
- 简单的 Git 操作
- 自动化(Automation)
- 语音输入
- 自定义环境命令
- MCP 安装
2.2 Skills(技能)
技能分类
- 工程级别技能:服务于某一个项目
- 全局技能:每个项目都能使用
安装技能(以 skill-installer 为例)
进入脚本目录:
C:\Users\jujiahe\.codex\skills\.system\skill-installer\scripts运行安装命令:
python install-skill-from-github.py --url 技能的GitHub链接安装后重启 Codex 即可使用。
使用方式:在聊天框输入
$技能名称
推荐:为 Codex 创建独立的 Conda 环境,避免依赖污染:
conda create -n codex-env python=3.10
conda activate codex-env

Skill Installer vs. Skill Creator
| 维度 | Skill Installer(安装器) | Skill Creator(创建器) |
|---|---|---|
| 定位 | 物流与部署,搬运已有代码 | 研发与设计,定义新逻辑 |
| 对象 | 已存放在仓库中的技能 | 尚未存在的专业知识/工作流 |
| 核心逻辑 | 自动化运维(网络请求、权限回退、文件解压) | 认知工程(任务拆解、提示词压缩) |
2.3 Worktree(工作树)
- 用于并行开发功能:点击“派生到新工作树” → 在新工作树下开发 → 测试通过后点击“移交至本地”。
- 谨慎使用“覆盖本地变更”选项。
2.4 自动化(Automation)
支持在所选项目目录中定时运行脚本,例如每日变更简报。
2.5 Codex 核心运行环境
codex-primary-runtime(系统级技能)
它是 Codex 的“底层操作系统内核”,负责:
- 基础指令集(读写文件、运行 shell 命令、进程管理)
- 沙箱管理(网络隔离与防火墙规则)
- 工具调用中枢(MCP 服务与模型的桥梁)
- 环境自检(监控系统健康状态)
三、Trae 智能体开发实践
Trae 是一款深度集成 AI 的 IDE,提供 IDE 模式(人机协作)和 SOLO 模式(AI 自主开发)。
3.1 Trae 三大核心 AI 功能
| 功能 | 说明 |
|---|---|
| Tab-Cue | 上下文感知的智能补全,支持多行协同优化、光标位置预测。快捷键:Tab 接受补全,Ctrl+→ 接受部分,Esc 拒绝。 |
| 智能体聊天模式 | Ctrl+U 打开侧边栏。内置工具 /Chat(聊聊代码)、/Builder(端到端开发)、Builder with MCP(使用 MCP 服务器)。 |
| Editor 内 AI 编码 | 编辑器中直接与 AI 协作。 |
3.2 SOLO 模式详解
- SOLO Builder(国际版):聚焦快速原型开发,从零到一。
- SOLO Coder:面向专业开发者,处理复杂项目迭代、代码重构、Bug 修复。支持 Plan 模式(
/plan):先与用户沟通制定计划,确认后再执行。
自定义智能体:可在 Trae 中创建专属智能体,配置 Auto Mode(性价比高,自动选模型)或 Max Mode(指定超级模型,适用于复杂任务)。
3.3 Trae 环境配置要点
Trae 内 Java 运行的两套逻辑(新手易混淆)
| 运行方式 | 调用的 JDK | 配置来源 | 场景 |
|---|---|---|---|
| 终端运行 | 本地 JDK | 系统环境变量 JAVA_HOME |
手动敲命令 |
| 一键运行(右键 Run Code) | Trae 配置的 JDK | Trae 设置里的 java.home |
点击绿色三角按钮 |
Trae Settings 说明
- 通用:主题、编辑器、快捷键
- 开发环境:JDK、Maven、Node.js 等
- 智能体:配置独立任务的“虚拟代理”
- MCP:模型与开发环境的交互协议
- 对话流:优化上下文理解与多轮交互
- CUE:多行编辑、智能改写、光标预测
- 模型:管理超级模型、高级模型,支持添加自定义模型
- 上下文:代码索引管理、忽略文件、文档集
- 规则:个人规则与项目规则,减少重复操作
3.4 Trae 中的回退与历史会话
- 回退:每次请求自动创建回退点,可回退到本轮对话开始前的状态(⚠️ 回退后后续数据不再保留)。
- 新建会话:
Ctrl+Alt+N - 查看历史会话:侧边栏会话列表
四、MCP(模型上下文协议)
MCP 规范了 LLM 与外部服务之间的通信方式,让 AI 从“嘴炮王”变成“实干家”。
4.1 MCP 能做什么?
- 连工具:Slack、GitHub、Blender 等。
- 查数据:本地文件、数据库、实时网络信息。
- 干复杂活儿:写网页时自动查代码、生成图片、调试页面。
- 人机协作:AI 完成部分后询问用户意见。
4.2 常见 MCP 客户端
- Claude Desktop:官方客户端,普通人也能用。
- Cherry Studio:新兴客户端,支持可视化配置。
- Cursor:代码编辑器,装上 MCP 变“全能选手”。
- Trae:内置 MCP 支持,仅在 SOLO 模式(Builder)下支持 Supabase 集成。
4.3 安全最佳实践(非常重要)
⚠️ 大多数 MCP 客户端(如 Cursor)会要求手动接受每个工具调用,建议保持此设置,执行前仔细查看。
降低安全风险的建议:
- 不要连接到生产环境 —— MCP 只用于开发/测试。
- 只读模式:如果必须连接真实数据,配置为只读 Postgres 用户。
- 项目范围限定:限制 MCP 仅访问特定项目资源。
- 使用分支:为数据库创建开发分支,测试后再合并到生产。
4.4 在 Codex 中使用 MCP 示例
“帮我安装 MySQL、Filesystem、Git Local 的 MCP 服务,我要在 Codex 里用。”
安装后即可通过自然语言操作数据库、本地文件和 Git 仓库。
五、同一模型下,Agent 的核心竞争力差异
即便使用完全相同的大模型,不同 Agent 的性能差异可能高达 一倍(42% → 78%)。差异来源于:
| 维度 | 说明 |
|---|---|
| 系统架构与脚手架 | 提示工程、控制循环、错误处理、重试机制 |
| 记忆系统能力 | 短期上下文管理、长期记忆检索准确率、记忆压缩 |
| 工具调用精准度 | 函数识别准确率、参数传递精度、调用时机判断 |
| 上下文工程能力 | 长对话压缩、关键信息提取、窗口高效利用 |
| 垂直领域优化 | 行业知识库、业务流程理解、专业术语处理 |
| 推理效率 | Token 效率、响应速度、资源调度 |
| 持续学习 | 用户反馈学习、错误自我修正 |
| 安全与可靠性 | 输入输出过滤、权限控制、容错 |
| 可观测性 | 决策透明化、性能监控、行为分析 |
💡 “模型是引擎,架构是整车” —— 在大模型逐渐成为公共技术底座的今天,Agent 的核心竞争力已经从“拥有什么模型”转向“如何使用模型”。
六、遇到的问题与解决方式(Codex)
| 问题 | 解决方法 |
|---|---|
reconnecting... |
网络问题,换个节点 |
| 缺少 MCP 服务 | 向 Codex 发送:“帮我安装 mysql、filesystem、git_local 的 MCP 服务” |
| 技能安装失败 | 检查是否在正确的虚拟环境中,必要时使用 git sparse checkout 回退模式 |
七、总结与个人感悟
通过这段时间对 Codex 和 Trae 的学习,我深刻体会到:
- Codex 更像一个“终端里的 AI 搭档”,强在 CLI、自动化、技能系统和 MCP 生态,适合习惯命令行、需要批量处理任务的开发者。
- Trae 则是一个“AI 原生 IDE”,强在深度集成、SOLO 模式、可视化配置和团队协作,适合希望 AI 主导开发全流程的场景。
两者并不互斥,实际开发中可以结合使用:用 Trae 进行项目搭建和复杂重构,用 Codex 编写脚本、自动化测试或远程服务器操作。
MCP 协议的引入让 AI 真正具备了“动手能力”,而架构设计和工程实现才是拉开 Agent 性能差距的关键。未来,掌握 Agent 的开发与调优能力,将成为开发者新的核心竞争力。
📌 本文所有内容均来自个人学习实践,如有错误或补充,欢迎交流指正。
📫 邮箱:3274692202@qq.com