我们经常能听到一些各式各样的说法:

到底 GPT 这样的范式意味着什么?为什么大模型会被认为是邪教?为什么这种范式不是让人工智能领域专家升职加薪,反而是危机四伏?为什么深度学习也变成了「旧」的东西?

我尽可能用通俗的语言来说一下我的理解。一方面基于我过去读研期间人工智能的认知,另一方面深度参考了这篇内容通向AGI之路:大型语言模型(LLM)技术精要》,作者是中科院的张俊林老师。

▎从深度学习到预训练模型

在深度学习引入 NLP 之后,主流的技术都切换成了深度学习,以大量的改进 LSTM 模型及少量的改进 CNN 模型作为典型的特征抽取器;以Sequence to Sequence(或叫encoder-decoder亦可)+ Attention作为各种具体任务典型的总体技术框架。

在过程中,正如深度学习常见的操作,就是加神经网络的层数,来试图提升效果。但在 NLP 领域,深度学习的效果并不显著,跟过往非深度学习的方法比,优势并没有特别大。

这里有两个原因:

而预训练模型横空出世,在学术领域和产业领域,都快速带来了巨大的转变,让技术方法收敛到了同样的模式中去了。这里提到的预训练模型,就是 Bert 和 GPT。

预训练模型有两个大的模式切换:

一、中间任务消亡。