ChatGPT 是怎么工作的？

本期我们回归一下 AI 相关的话题，聊一聊 ChatGPT 的工作原理。本文内容主要编译自科学搜索引擎 WolframAlpha 的作者 Stephen Wolfram 的文章，以及其他参考资料，具体详见文末。

▎一切都是统计概率

人工智能历史的发展，大致可以分为几个阶段：

符号阶段（20世纪50年代-70年代）
学习阶段（20世纪70年代-90年代）
统计阶段（20世纪90年代-21世纪初）
深度学习阶段（21世纪初-）

在符号阶段，早期的科学家试图找出人类推理的法则，并且让机器学会这些逻辑。我们怎么思考计算的，机器也要怎么思考计算。这一阶段当然也有成果，但科学家们发现了最大的问题：我们无法把世间万物的知识和法则都灌输给机器，很多信息是无法良好抽象的（被称为形式主义），也很难批量地输入。因此早期的人工智能往往解决确定性的问题，比如下棋，棋谱的输入是可控的，下棋的规则也是可控的。

当科学家们发觉这点困难后，机器需要自我学习就提上了日程。起初，科学家们还是想让机器通过归纳演绎这种推理的手段学习，比如使用决策树算法，发现依然很难（这被称为基于规则的机器学习）。有一派的科学家，就致力于统计学习的方法了（基于统计的机器学习）。

统计学习的原理，就是把所有信息掰开揉碎了，塞给机器。机器在做判断时，更多是预测下一个元素出现的概率。如果是语句，那就是预测单词；如果是绘图，那就是预测像素。

比如，机器手里有半句话：The best thing about AI is its ability to

它会搜寻所有的预料库，查阅接下来出现哪个单词的概率更高。

然后写出来。这是一个极简的例子，实际操作，当然要复杂得多，有时未必会选择概率最高的词汇。