AI Agent入门学习

近期系统学习了当前主流的两款 AI Agent 工具 —— CodexTrae

一、Agent 核心定义与通用架构

1.1 什么是 Agent?

Agent 不是简单的“会聊天的模型”,而是能围绕目标持续行动的系统。其本质可以概括为:

Agent = LLM + Planning + Memory + Tools + Control Loop

1.2 通用架构分层(六大核心模块)

模块 功能
感知层(Perception) 接收并解析多模态输入(文本/图像/语音),构建结构化提示
记忆层(Memory) 存储短期上下文与长期知识(向量数据库)
推理层(Reasoning) 任务分解、规划决策、工具选择与调度
执行层(Execution) 调用工具/API、执行代码、生成多模态输出
控制循环(Control Loop) 持续的“感知-思考-行动”循环,结果反馈与状态监控
协作层(Collaboration) 多 Agent 协同、角色分配与消息传递

1.3 架构演进路径

  1. 单体智能体 → 2. 增强智能体(+记忆/规划) → 3. 工具智能体 → 4. 多智能体系统 → 5. 操作系统级 Agent 平台

二、Codex 深度使用笔记

Codex 提供了 App、VS Code 插件、CLI 三种使用方式,以下重点记录 App 版本的核心特性和实战技巧。

2.1 Codex App 的 11 个特性

  1. 基础设置
  2. 模型选择(复杂任务用 GPT-5.4,简单任务用 GPT-5.3-Codex)
  3. 多项目开发(Threads)
  4. 单项目使用 Worktree 并行开发
  5. 复杂问题启用 Plan 模式
  6. 技能的安装与使用
  7. 简单的 Git 操作
  8. 自动化(Automation)
  9. 语音输入
  10. 自定义环境命令
  11. MCP 安装

2.2 Skills(技能)

技能分类

  • 工程级别技能:服务于某一个项目
  • 全局技能:每个项目都能使用

安装技能(以 skill-installer 为例)

  1. 进入脚本目录:C:\Users\jujiahe\.codex\skills\.system\skill-installer\scripts

  2. 运行安装命令:

    python install-skill-from-github.py --url 技能的GitHub链接
    
  3. 安装后重启 Codex 即可使用。

  4. 使用方式:在聊天框输入 $技能名称

推荐:为 Codex 创建独立的 Conda 环境,避免依赖污染:

conda create -n codex-env python=3.10
conda activate codex-env

Skill Installer vs. Skill Creator

维度 Skill Installer(安装器) Skill Creator(创建器)
定位 物流与部署,搬运已有代码 研发与设计,定义新逻辑
对象 已存放在仓库中的技能 尚未存在的专业知识/工作流
核心逻辑 自动化运维(网络请求、权限回退、文件解压) 认知工程(任务拆解、提示词压缩)

2.3 Worktree(工作树)

  • 用于并行开发功能:点击“派生到新工作树” → 在新工作树下开发 → 测试通过后点击“移交至本地”。
  • 谨慎使用“覆盖本地变更”选项。

2.4 自动化(Automation)

支持在所选项目目录中定时运行脚本,例如每日变更简报。

2.5 Codex 核心运行环境

codex-primary-runtime(系统级技能)

它是 Codex 的“底层操作系统内核”,负责:

  • 基础指令集(读写文件、运行 shell 命令、进程管理)
  • 沙箱管理(网络隔离与防火墙规则)
  • 工具调用中枢(MCP 服务与模型的桥梁)
  • 环境自检(监控系统健康状态)

三、Trae 智能体开发实践

Trae 是一款深度集成 AI 的 IDE,提供 IDE 模式(人机协作)和 SOLO 模式(AI 自主开发)。

3.1 Trae 三大核心 AI 功能

功能 说明
Tab-Cue 上下文感知的智能补全,支持多行协同优化、光标位置预测。快捷键:Tab 接受补全,Ctrl+→ 接受部分,Esc 拒绝。
智能体聊天模式 Ctrl+U 打开侧边栏。内置工具 /Chat(聊聊代码)、/Builder(端到端开发)、Builder with MCP(使用 MCP 服务器)。
Editor 内 AI 编码 编辑器中直接与 AI 协作。

3.2 SOLO 模式详解

  • SOLO Builder(国际版):聚焦快速原型开发,从零到一。
  • SOLO Coder:面向专业开发者,处理复杂项目迭代、代码重构、Bug 修复。支持 Plan 模式/plan):先与用户沟通制定计划,确认后再执行。

自定义智能体:可在 Trae 中创建专属智能体,配置 Auto Mode(性价比高,自动选模型)或 Max Mode(指定超级模型,适用于复杂任务)。

3.3 Trae 环境配置要点

Trae 内 Java 运行的两套逻辑(新手易混淆)

运行方式 调用的 JDK 配置来源 场景
终端运行 本地 JDK 系统环境变量 JAVA_HOME 手动敲命令
一键运行(右键 Run Code) Trae 配置的 JDK Trae 设置里的 java.home 点击绿色三角按钮

Trae Settings 说明

  • 通用:主题、编辑器、快捷键
  • 开发环境:JDK、Maven、Node.js 等
  • 智能体:配置独立任务的“虚拟代理”
  • MCP:模型与开发环境的交互协议
  • 对话流:优化上下文理解与多轮交互
  • CUE:多行编辑、智能改写、光标预测
  • 模型:管理超级模型、高级模型,支持添加自定义模型
  • 上下文:代码索引管理、忽略文件、文档集
  • 规则:个人规则与项目规则,减少重复操作

3.4 Trae 中的回退与历史会话

  • 回退:每次请求自动创建回退点,可回退到本轮对话开始前的状态(⚠️ 回退后后续数据不再保留)。
  • 新建会话Ctrl+Alt+N
  • 查看历史会话:侧边栏会话列表

四、MCP(模型上下文协议)

MCP 规范了 LLM 与外部服务之间的通信方式,让 AI 从“嘴炮王”变成“实干家”。

4.1 MCP 能做什么?

  1. 连工具:Slack、GitHub、Blender 等。
  2. 查数据:本地文件、数据库、实时网络信息。
  3. 干复杂活儿:写网页时自动查代码、生成图片、调试页面。
  4. 人机协作:AI 完成部分后询问用户意见。

4.2 常见 MCP 客户端

  • Claude Desktop:官方客户端,普通人也能用。
  • Cherry Studio:新兴客户端,支持可视化配置。
  • Cursor:代码编辑器,装上 MCP 变“全能选手”。
  • Trae:内置 MCP 支持,仅在 SOLO 模式(Builder)下支持 Supabase 集成。

4.3 安全最佳实践(非常重要)

⚠️ 大多数 MCP 客户端(如 Cursor)会要求手动接受每个工具调用,建议保持此设置,执行前仔细查看。

降低安全风险的建议

  • 不要连接到生产环境 —— MCP 只用于开发/测试。
  • 只读模式:如果必须连接真实数据,配置为只读 Postgres 用户。
  • 项目范围限定:限制 MCP 仅访问特定项目资源。
  • 使用分支:为数据库创建开发分支,测试后再合并到生产。

4.4 在 Codex 中使用 MCP 示例

“帮我安装 MySQL、Filesystem、Git Local 的 MCP 服务,我要在 Codex 里用。”

安装后即可通过自然语言操作数据库、本地文件和 Git 仓库。

五、同一模型下,Agent 的核心竞争力差异

即便使用完全相同的大模型,不同 Agent 的性能差异可能高达 一倍(42% → 78%)。差异来源于:

维度 说明
系统架构与脚手架 提示工程、控制循环、错误处理、重试机制
记忆系统能力 短期上下文管理、长期记忆检索准确率、记忆压缩
工具调用精准度 函数识别准确率、参数传递精度、调用时机判断
上下文工程能力 长对话压缩、关键信息提取、窗口高效利用
垂直领域优化 行业知识库、业务流程理解、专业术语处理
推理效率 Token 效率、响应速度、资源调度
持续学习 用户反馈学习、错误自我修正
安全与可靠性 输入输出过滤、权限控制、容错
可观测性 决策透明化、性能监控、行为分析

💡 “模型是引擎,架构是整车” —— 在大模型逐渐成为公共技术底座的今天,Agent 的核心竞争力已经从“拥有什么模型”转向“如何使用模型”。

六、遇到的问题与解决方式(Codex)

问题 解决方法
reconnecting... 网络问题,换个节点
缺少 MCP 服务 向 Codex 发送:“帮我安装 mysql、filesystem、git_local 的 MCP 服务”
技能安装失败 检查是否在正确的虚拟环境中,必要时使用 git sparse checkout 回退模式

七、总结与个人感悟

通过这段时间对 CodexTrae 的学习,我深刻体会到:

  • Codex 更像一个“终端里的 AI 搭档”,强在 CLI、自动化、技能系统和 MCP 生态,适合习惯命令行、需要批量处理任务的开发者。
  • Trae 则是一个“AI 原生 IDE”,强在深度集成、SOLO 模式、可视化配置和团队协作,适合希望 AI 主导开发全流程的场景。

两者并不互斥,实际开发中可以结合使用:用 Trae 进行项目搭建和复杂重构,用 Codex 编写脚本、自动化测试或远程服务器操作。

MCP 协议的引入让 AI 真正具备了“动手能力”,而架构设计和工程实现才是拉开 Agent 性能差距的关键。未来,掌握 Agent 的开发与调优能力,将成为开发者新的核心竞争力。


📌 本文所有内容均来自个人学习实践,如有错误或补充,欢迎交流指正。
📫 邮箱:3274692202@qq.com


AI Agent入门学习
https://c-boy-t.github.io/2026/05/06/AI-Agent-Learning.md/
作者
jujiahe
发布于
2026年5月7日
许可协议