《人工智能:一种现代方法》— AI 思维卡
当我捧起这本 1500 页、被 100 多国 1500 所大学奉为 AI”圣经”的砖头书时,我以为我会被算法淹没——搜索、规划、贝叶斯网络、神经网络……我已经准备好刷一年才能读完。
但读完后,我真正”安装”的,不是算法,而是一副新眼睛。
这本书不是教我”怎么写 AI 代码”,而是教我怎么像一个 AI 工程师一样看待任何会做决策的系统——包括我自己、我的团队、我的拖延、甚至我和家人的关系。它把”智能”从玄学拽下神坛,拆成一个四元组(PEAS)和一张 5 层架构图。
一旦你装上这副眼睛,你会发现一件让人后背发凉的事:你过去把太多”性格问题”误诊成了”架构问题”。
下面是我用「认知升级系统」拆出的核心补丁,以及它怎么改变了我看自己的眼光。
【IDENTITY】这本书的身份卡
② 学 AI = 背公式 + 推导数学。
③ “智能体(agent)”听着像专业术语,离日常思考很远。
【MODEL】我安装的那个补丁长什么样
3 句话讲清精髓
- 任何”智能行为”都可以建模成「感知 → 决策 → 行动」的闭环——你、我、ChatGPT、扫地机器人都是这个意义上的”智能体”。
- 判断一个智能体”聪不聪明”,不看它知道多少,只看它的行动是否在给定环境下最大化预期效用——理性是个数学定义,不是哲学姿态。
- 智能体有 5 种架构层级,从”看到刺激就反应”到”会更新自己内部模型”——升级一个智能体不是加算法,而是换架构。这对人也一样。
认知因果链
┌────────────────────────┐ ┌────────────────────────────┐ ┌────────────────────────┐
│ [旧认知] │ │ [关键干预 = 用 PEAS 四元组 │ │ [新认知] │
│ 智能 = 玄学 / 天赋 │ ──▶ │ + 5 层 Agent 架构 重新 │ ──▶ │ 智能 = 可设计、可比较 │
│ AI = 算法堆叠 │ │ 描述任何决策系统] │ │ 可升级的工程对象 │
└────────────────────────┘ └────────────────────────────┘ └────────────────────────┘
│
▼
┌──────────────────────────────┐
│ 副产品:把"理性"从哲学剥离, │
│ 变成"预期效用最大化"的数学定义│
│ → "对错"从此可被独立评价 │
└──────────────────────────────┘
5 个一定要装进脑子的工程原语
原语 1:PEAS — 描述任何任务环境的四元组
| 字母 | 工程含义 | 用在自我反思 |
|---|---|---|
| Performance | 性能度量 | 我这事的”成功”长什么样?谁打分? |
| Environment | 环境 | 我在哪儿玩?谁是其他玩家? |
| Actuators | 执行器 | 我能调用的动作集是什么? |
| Sensors | 传感器 | 我能拿到什么反馈?盲区在哪? |
我之前以为:定义目标 = 写一行 OKR。
我后来发现:90% 的 OKR 之所以变成废纸,是因为只填了 P(性能),漏了 E(环境)、A(执行器)、S(传感器)——你定了”年度营收 X 亿”(P),但完全没说:在什么市场(E)、用什么手段(A)、怎么拿反馈(S)。
这就像让你”跑得快”但没告诉你赛道、没给你跑鞋、没装计时器——你不是没努力,你是被设计成失败。
原语 2:任务环境的 7 个维度
完全可观察 vs 部分可观察 / 确定性 vs 随机 / 离散 vs 连续 / 静态 vs 动态 / 单 agent vs 多 agent / 已知 vs 未知 / 回合制 vs 序列。
我之前以为:工作和读书没差别,努力就行。
我后来发现:下棋是”完全可观察 + 确定性 + 离散 + 静态 + 多 agent + 已知 + 回合制”——约等于一个温室。而真实工作环境是”部分可观察 + 随机 + 连续 + 动态 + 多 agent + 未知 + 序列“——所有 hard 模式叠满。
这就是为什么从学校到职场会让人怀疑人生:你被训练成了一个下棋手,结果被扔进了战场。
原语 3:5 种 Agent 架构层级 — 一张诊断你自己的地图
行为层级 效用最大化能力
Simple Reflex "看到脏就扫" ↑ 最低 │ 大多数人默认在这
Model-based Reflex "脑内有世界模型再反应" │ │
Goal-based "为达成目标做规划" │ │
Utility-based "在多个目标间权衡" │ │
Learning Agent "持续更新自己的某个部件" ↓ 最高 ↓
我之前以为:勤奋的人、爱学习的人就是 learning agent。
我后来发现:大多数所谓”爱学习”其实是 passive reflex——刷信息流、看公众号、点开 5 个收藏夹永远不读。真正的 learning agent 有一个被更新的具体部件:要么世界模型、要么效用函数、要么动作策略、要么评分体系。
指不出”我这周更新了哪个部件”的学习,就是消费内容。
原语 4:理性 = 在已知信息下选择”预期效用”最大的行动
注意四件事:
– ① 不要求结果最优,只要求决策最优
– ② 信息有限是默认设置
– ③ 效用要先定义清楚(这就是 P)
– ④ “更努力”≠”更理性”,重新定义性能度量才是
这句话像一记醒木:下次你想抱怨”环境(E)”不公,就想这句话——E 是给定的,你能动的只有 S 和 A。
抱怨 E 是徒劳,优化 S(拿更好的信息)和 A(练更精的动作)才是正道。
我用它对付过自己的拖延:我常说”我没能开始,因为条件不成熟”。但用 PEAS 一拆——我的传感器只在收集”困难”信息,我的执行器只在列出”太难”的步骤。我抱怨的”环境”,其实是我自己设的局。
原语 5:学习 = 让 Agent 的某个部件随经验更新
如果你说不出”我学到了”具体指向哪个部件,那不是学习,那是表演学习。
我之前以为:每个月读完 4 本书 = 在学习。
我后来发现:读完 4 本书但说不出”我更新了哪个部件”= 我只是消费了 4 本书的内容。真正的学习长这样:「读完《纳瓦尔宝典》后,我把’用杠杆而非用时间换收入’这个判断加进了我的效用函数——之前我会接所有时薪 200 的活儿,现在会拒掉一半改去做能复利的事」。看,我能指出具体更新了效用函数里的哪条权重。
三条不能丢的关键判断
我之前以为 vs 我后来发现
| 我读之前以为 | 我读完才发现 |
|---|---|
| AI 是数学家的游戏 | AI 是给所有”会做决策的系统”提供了一套通用语言 |
| 聪明是天赋 | 聪明是可被工程化的架构选择 |
| 拖延是性格问题 | 拖延是 reflex agent 在打 multi-agent 动态战——架构错配 |
| 学习就是看更多书 | 学习是有明确的”被更新的部件”,否则只是消费内容 |
| 抱怨环境是发泄情绪 | 抱怨环境是承认自己只是一个 reflex agent——主动放弃了 A 和 S |
【EVIDENCE】证据审计 — 这模型站得住脚吗
来自外部的攻击
⚠️ 批评 1:非单调推理被边缘化
Russell & Norvig 把这块标为”理论有趣、实践无关”。符号主义阵营骂这是站队声明,不是公允判断。如果你想要做规则推理(医疗诊断、法律推理)的工作,这本书会让你以为这条路死了——但事实并非如此。⚠️ 批评 2:贝叶斯主义偏向
Norvig 是公开的贝叶斯主义者。整本书在概率推断 vs 模糊逻辑/默认推理之间,明显倾向前者。如果你只学这一本,你会以为整个 AI 学界都是贝叶斯的——其实远不是。这是 Russell 自己也不否认的本书”立场色彩”。⚠️ 批评 3:早期版本的技术错误
早版本曾把一阶逻辑一致性误称为半可判定。这提醒你:即使经典教材也不要全盘相信——这本身就是 learning agent 的基本姿态。⚠️ 最脆弱的判断
如果去掉所有案例,最脆弱的判断是”PEAS 在 P 模糊领域仍然成立”——本书默认 P 可定义,但人生最难的问题恰恰是 P 没人能给(养育、艺术、伦理)。强行 PEAS 化会把丰富目标退化为可测但失真的代理指标(古德哈特定律)。这是这套框架的真实暗面。
【CONTRAST】边界地图
和我已经用的方法相比
| 既有方法 | 冲突点 | 互补点 |
|---|---|---|
| OKR(目标 + 关键结果) | OKR 假设目标已知;PEAS 把”目标”拆成 P + E,强迫你先定义 P 再谈 O | PEAS 给 OKR 补上”环境感知”和”传感器/执行器”——OKR 经常忘了问”我有什么手段、能收到什么反馈” |
| 第一性原理 | 第一性原理是”剥到原子级再重建”的演绎;理性 agent 是”从 PEAS 反推架构”的工程化 | 两者都拒绝模式套用,但 PEAS 更适合设计系统,第一性原理更适合质疑前提 |
| GTD / 任务管理 | GTD 把你当 reflex agent(清空大脑 → 看任务 → 处理);本书提醒你升级到 utility-based / learning agent | GTD 是”action 层”,本书是”架构层”——可以同时用 GTD 做执行,用 PEAS 反思架构 |
| 5Why / 根因分析 | 5Why 假设有单一根因;理性 agent 框架告诉你大多数失败是”架构层级与环境不匹配”——5Why 会把架构问题误诊为执行问题 | 当 5Why 卡住时,问”我目前是哪种 agent?环境需要哪种 agent?”通常能跳出循环 |
| SPIN / Challenger 销售法 | SPIN 是 reflex-level(问对问题 → 获得回应);理性 agent 建议你把销售看作多 agent、部分可观察、动态环境 | 把 SPIN 升级到 model-based:维护”客户内部模型”并动态更新,效果远超脚本化提问 |
适用 vs 失效
| ✅ 这些场景我一定用它 | ❌ 这些场景我绝不用它 |
|---|---|
| 1. 设计自动化系统/工作流:PEAS 是天然语言 | 1. P 本身在争议中的任务(教育、艺术、关系)——强行 PEAS 化会退化目标 |
| 2. 诊断”为什么这流程不工作”:90% 是架构与环境错配 | 2. 极反应性的危机(救火、急救)——这时 reflex 反而是正确架构 |
| 3. 决定职业转型/技能投资:先定义”我作为 agent 的 PEAS”,再选学什么 | 3. 目标可能错的场景——本书默认 P 给定就追,缺少”P 本身是否值得追”的反思层 |
| 4. 多人团队角色澄清:每人写一张 PEAS 卡,互相校验 | 4. 强烈不确定的探索期——learning agent 需要稳定反馈,探索期反馈嘈杂会让 agent 学到错误模式 |
【ACTION】移植清单 — 我以后到底怎么用
下次遇到这些场景,别动,先问自己
① P:成功长什么样?谁打分?打了之后会怎样?
② E:在哪儿玩?是单人战还是多 agent 博弈?环境是动态的吗?
③ A/S:我的动作集是什么?我的反馈源是什么?盲区在哪?
① 我现在用的是哪种 agent 架构(reflex / model / goal / utility / learning)?
② 这个环境真正需要的是哪种架构?
③ 是不是用 reflex 在打 multi-agent 动态战?
① 我的效用函数(U)是什么?写出来。
② 有哪些隐藏变量(部分可观察)?要不要先做一个”信息收集动作”再决?
③ 这是回合制还是序列决策?序列决策不能用回合制思维。
我以后处理 X 的步骤
新流程一:接到任何模糊任务,10 分钟 PEAS 化
- 找张白纸(或新建 .md)写下任务名
- 列 P:至少 3 个”成功长什么样”的可观察指标——列不出就先停,去找能列出的人
- 列 E:画图,圈出所有相关 agent,标合作者/对手/中立者
- 列 A:列出能调用的动作集(哪些能直接做?哪些要审批?)
- 列 S:列出信息源(哪些实时?哪些有延迟?盲区在哪?)
- 用 7 维分类一下环境
- 决定用哪种 agent 架构启动
新流程二:周日晚 15 分钟”我这周是哪种 agent”复盘
- 列出本周 5-10 个重大动作
- 给每个动作分类:reflex / model / goal / utility / learning
- 算各类占比。如果 reflex > 50%,下周强制安排 1 个”纯 utility 决策时间块”
- 找出本周的”learning agent 动作”——能不能回答”我具体更新了哪个部件?”
答不出 = 本周没真正学习,只是消费了内容
未来 3 周,3 个最小可行实验
我自己扮反对派攻击一下
⚠️ 核心假设拷问:PEAS + 理性 agent 默认了哪 3 件事?
1. 假设:性能度量可定义。状态:☐ 高风险——养育/亲密关系/自我实现里 P 难定义。应对:在 P 模糊领域,先做”P 探索 agent”(目标:找到正确的 P),再做执行 agent。
2. 假设:环境状态有可观察部分。状态:☑ 多数场景成立;但心理学/政治领域可观察信号高度欺骗。应对:多 agent 博弈时加一个”信号可信度”折扣因子。
3. 假设:效用可累加为标量。状态:☐ 待验证——人脑不天然按效用累加运作(卡尼曼《思考,快与慢》)。应对:重大决策时强制写效用函数,就是为了”反人性”地补上这个假设。⚠️ “看起来在用模型其实在表演”的三大风险:
– 风险 1:给一切贴 PEAS 标签——工具狂热不是工具使用。判断标准:用完 PEAS 后,我下一步动作有没有变?没变 = 表演。
– 风险 2:自欺为 learning agent——大多数”学习”是被动接收信息(reflex)。每周复盘必问”我更新了世界模型的哪个具体节点”。
– 风险 3:贝叶斯化一切——本书的贝叶斯倾向会诱导你把所有不确定性都建模成概率,但人生很多事是奈特式不确定性(连概率分布都未知)。识别这种情况要勇敢退回”不知道”。
- 触发条件:今晚或明早之前
- 执行动作:找张纸 / Obsidian,用 PEAS + 7 维环境分类把它写完整。5 分钟内必须开始动笔。
- 成功指标:① ≤ 20 分钟完成;② P 列至少 3 条且可量化;③ 写完后能回答”为什么之前我一直卡住”——若答案是”P 没定义”或”环境维度判错”,本实验成功。
- 我之前以为这事卡是因为我懒;做完才发现通常是 PEAS 某个槽位是空的。
- 触发条件:每晚睡前 5 分钟
- 执行动作:写下今天 3 个最重要动作,给每个标 agent 类型
- 成功指标:① 7 天不间断;② 周末统计 reflex 占比;③ 第二周 reflex 占比比第一周降 ≥ 10%;④ 至少识别出 1 次”以为是 utility 实则 reflex”的伪决策
- 触发条件:第 3 周末
- 执行动作:把”我自己在工作中”作为一个 agent,写 PEAS。找一个了解我的人 review,问:”你眼里我的 P 是这个吗?”
- 成功指标:① 完成卡片;② 至少 1 个维度(多半是 P 或 S)的认知被 reviewer 修正;③ 修正后能写出至少 1 条新的优先动作——这就是认知补丁真正”安装”的证据。
【REFLECTION】3 句留在身上的话
「An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators.」
(智能体是任何被视为”通过传感器感知环境、通过执行器作用于环境”的东西。)
我会在什么情境下想起它:
当我又一次抱怨”我没法做这件事”、”环境不允许”时,我会想起这句话——智能体的定义里没有”借口”这个变量。它只有 P、E、A、S。如果我做不到,唯一的诊断方式是问 PEAS 哪一环出了问题,而不是抱怨。这句话的破坏力在于:它把人从”受害者叙事”拽回”工程师视角”,所有外部条件都变成 E(环境约束),所有自我感觉都变成 S(传感器噪声)——而 A(执行器)我永远有。
「Rationality maximizes expected performance, while perfection maximizes actual performance.」
(理性追求预期表现最大化,完美追求实际表现最大化。)
我会在什么情境下想起它:
当我事后复盘一个失败决定,开始”如果当时……”的反刍时,我会想起这句话——我该问的不是”结果是否最优”,而是”在当时的信息和效用下,这个决策是否最优”。这句话区分了决策质量和结果质量——是治愈”事后诸葛偏见”的解药。反过来也成立:做对了但结果不好,不必怀疑流程;做错了但结果好,不要被运气迷惑。
「The art of AI is in choosing the right level of abstraction at which to model the agent and its environment.」
(AI 的艺术,在于选择恰当的抽象层级去建模智能体及其环境。)
我会在什么情境下想起它:
当我做产品设计、组织设计、甚至子女教育规划时——任何”设计一个会自主运作的系统”的场景。没有”客观正确”的抽象层级,只有”对当前任务有用”的层级。家庭治理可以建模为多 agent 博弈,也可以建模为单 agent(系统视角);都没错,但选哪个决定下一步的工具集和盲区。每当我感觉”分析陷入泥沼”,问一句”我是不是抽象层级选错了”,通常能立刻打开新方向。
【MY TAKE】这本书对我到底意味着什么
它改写了我的哪 3 条认知
| 旧认知(Bug) | 新认知(Patch) | 让我相信的关键论据 |
|---|---|---|
| AI 是算法集合,跟我无关 | AI 提供了一套普适的智能体设计语言,PEAS + agent 架构层级是我理解任何”会做决策的系统(包括自己)”的母语 | 5 种 agent 架构本身就是一张”自我诊断地图”——大部分人活在 reflex / model 层;升级 = 换架构而非加技巧 |
| “聪明 = 知道多 + 反应快” | 聪明 = PEAS 清晰 + 选对架构 + 做预期效用最大化的决策。聪明是工程属性,不是天赋 | “Rationality maximizes expected performance”——把”对错”从结果论里救出来 |
| 学习 = 输入更多信息 | 学习 = 明确指出”我更新了哪个部件”——指不出部件的”学习”是消费内容,不是升级 agent | Learning agent 的定义把学习从模糊的”成长”变成具体的”哪个模块在更新” |
它会长期影响我的哪 3 个决策场景
- 任何新项目启动前的 10 分钟 PEAS 化——这是最高 ROI 的应用,从 reflex 启动模式切换到 model-based 启动模式。预计每周触发 1+ 次。
- 重大不可逆决策前的强制效用函数练习——把”感觉”逼成”标量”,把”标量”逼出”我为谁定义的效用”。预计每季度触发 2-3 次。
- 当我陷入”做了很多但没进步”的循环时的 agent 类型诊断——多数时候答案是”你是 reflex agent 在打 multi-agent 动态战”,识别架构错配后立刻知道下一步该升级哪个部件。
【ICAP 分层】这本书在我这里的泵升路径
今晚就做:三选一
别让这份补丁只躺在文件夹里。今晚选一个,5 分钟就能开始:
把”我自己在工作中”作为一个 agent 写出 PEAS。写完发给一个真正了解你的人,问一句:”你眼里我的 P 是这个吗?” 这是激活 Interactive 层的关键动作,但需要勇气,所以我把它放在三选一的最后。
行动,是把认知补丁”安装”进系统的唯一密码。
</div>
<div class="cta-footer">行动,是把认知补丁"安装"进系统的唯一密码。</div>
三周后回来复诊
- 我实际启动了哪几个实验?
- 哪条洞察我完全没调用过?为什么?(这是这本书在我这里真正的失效点)
- 哪条洞察产生了意外价值?(这是这本书最高 ROI 的部分)
- 哪个【ACTION】项可以升级成长期习惯?
调研来源