Outcomes
学完这一阶段,你应该能做到什么
不要求一次到位,但你至少应该把这几个判断和动作练熟。
- 弄清 token、上下文窗口、采样、工具调用和成本之间的关系。
- 知道模型最常见的失败模式,并学会把验证写进流程。
- 建立“模型擅长生成,开发者负责判断”的基本心智。
Outcomes
不要求一次到位,但你至少应该把这几个判断和动作练熟。
Lessons
每节课都为一个工程动作服务,而不是只堆定义。
Course Content
下面这部分才是这个阶段真正要读、要练、要做的正文。建议先顺序读,再回头做 mission 和 quiz。
这一阶段不是为了背定义,而是为了建立一套能长期使用的判断框架。很多人一开始就急着学 prompt 技巧,结果到了真实开发场景里,既不知道模型为什么会错,也不知道自己应该对什么负责。
你真正要掌握的是三件事:模型怎么处理上下文、为什么会出现看似合理但事实错误的输出,以及怎样把验证写进日常工作流。只要这三件事立住,后面的 AI 辅助编程才不会变成盲猜。
Token、上下文与成本
理解模型输入输出的基本计量方式,以及为什么“塞更多内容”不等于“理解更完整”。
把模型想成一个正在阅读你提供材料的助手。它每次只能看到一个有限的上下文窗口,而 token 就是这份材料的大致计量单位。你给进去的背景、要求、示例和历史对话,都会一起占用这个窗口。
这意味着两个很重要的后果。第一,输入越长,成本通常越高;第二,输入越乱,模型越难抓住真正重要的信息。很多新手以为“我把所有资料都贴进去最保险”,结果恰恰是把关键约束埋在噪声里。
更好的做法是把上下文分层:先给任务目标,再给当前代码或业务背景,再给不能破坏的边界,最后给输出格式和验收标准。这样模型不是知道得更多,而是更容易知道什么最重要。
Practice
Homework
交付一份包含概念解释、场景示例和执行清单的学习笔记。
Test
Evaluation
你能把这节课的方法迁移到新问题中,并主动指出常见误区与验证方法。
你能解释核心概念,并在给定场景里按步骤使用它。
你还停留在记定义阶段,遇到真实问题时不知道该如何落地。
提示词不是咒语
提示词的本质不是技巧炫耀,而是把任务定义清楚。
很多人把 prompt 理解成一套神秘咒语,仿佛只要写得足够像高手,模型就会自动给出正确答案。真实情况正好相反:模型最需要的不是华丽措辞,而是清晰任务。
一个真正有用的 prompt,至少要回答这几个问题:你要解决什么问题、当前背景是什么、哪些东西不能动、输出应该落成什么形式、怎样算完成。缺任何一项,模型都可能靠猜补空白。
尤其在代码场景里,提示词最好像一张任务单,而不是一句聊天请求。你越像在给同事分配工作,AI 的结果越稳定。
Practice
Homework
交付一份包含概念解释、场景示例和执行清单的学习笔记。
Test
Evaluation
你能把这节课的方法迁移到新问题中,并主动指出常见误区与验证方法。
你能解释核心概念,并在给定场景里按步骤使用它。
你还停留在记定义阶段,遇到真实问题时不知道该如何落地。
工具、RAG 与 Agent 的区别
理解模型纯生成、检索增强和工具调用之间的边界,避免把不同能力混在一起。
如果问题只是整理已有信息,模型往往可以直接完成;如果问题依赖最新文档、私有知识或真实系统状态,就需要额外能力。RAG 的核心是先检索,再把检索结果交给模型;agent 的核心是模型不只回答,还会调用工具、读写上下文并分步推进任务。
这三个层次的区别很重要,因为它决定了你如何设计工作流。如果问题本质上是“查最新资料再整理”,那你就不该只靠模型记忆。如果问题本质上是“读仓库、改代码、跑检查”,那你需要的是 agent 化工作流,而不是普通聊天。
你可以把它们理解成能力递进:纯生成适合总结与草拟,RAG 适合事实增强,agent 适合真正进入工程流程。不要一上来就把所有问题都扔给最高复杂度的方案。
Practice
Homework
交付一份包含概念解释、场景示例和执行清单的学习笔记。
Test
Evaluation
你能把这节课的方法迁移到新问题中,并主动指出常见误区与验证方法。
你能解释核心概念,并在给定场景里按步骤使用它。
你还停留在记定义阶段,遇到真实问题时不知道该如何落地。
幻觉、偏差与风险控制
真正可靠的 AI 使用方式,不是避免错误,而是设计能暴露错误的流程。
模型会给出错误信息,并不总是因为“它很笨”,而是因为它的目标是生成最合理的下一段输出,而不是自动证明自己所有结论都正确。尤其当上下文不完整、问题有歧义、资料过时或要求过宽时,它很容易用看起来顺畅的方式补全未知部分。
风险高的场景通常包括事实判断、医疗法律金融建议、最新版本差异、部署步骤以及任何需要精确引用来源的内容。越是这些场景,你越不能只看语气像不像专家。
成熟的控制方式不是“希望它别错”,而是把错误更早暴露出来:要求引用来源、要求写测试、要求说明假设、要求区分已知与推测、关键结果必须人工二次判断。
Practice
Homework
交付一份包含概念解释、场景示例和执行清单的学习笔记。
Test
Evaluation
你能把这节课的方法迁移到新问题中,并主动指出常见误区与验证方法。
你能解释核心概念,并在给定场景里按步骤使用它。
你还停留在记定义阶段,遇到真实问题时不知道该如何落地。
Deep Dive
读完下面这些部分,再去做练习和复盘,学习效率会高很多。
生成式模型本质上是在已有上下文里预测下一个最可能出现的 token。它能表现出推理、总结、编写代码等能力,但这不代表它总能保持事实正确或逻辑完整。
当你理解模型靠上下文工作,就会自然接受一个重要事实:给模型更清晰的任务边界、示例和输出格式,通常比空泛地要求“帮我写得更好”更有效。
失败往往不是因为模型不会写代码,而是因为开发者没有给出验收标准。没有测试目标、没有文件范围、没有兼容性要求,模型就只能在模糊任务里猜。
真正成熟的 AI 编程流程,一定包含人类负责的部分:需求澄清、上下文筛选、结果审查、回归验证和发布判断。
你需要开始把每个任务写成结构化问题:目标是什么、边界是什么、输出应该落到哪里、如何判定完成。
这是后面使用 Codex CLI 时最重要的能力,因为好的命令输入,本质上就是好的任务定义。
Mission
选择一个你熟悉的小功能,比如“待办列表的搜索栏”,用三段话写清楚目标、约束和验证方式。