![GPT图解:大模型是怎样构建的](https://wfqqreader-1252317822.image.myqcloud.com/cover/237/52717237/b_52717237.jpg)
基于Transformer架构的预训练模型
以BERT(Bidirectional Encoder Representations from Transformers)为代表的基于Transformer架构的预训练语言模型一登场就引起了大量的关注。有了预训练模型,很多一度不能解决的问题都得到了解决。
小冰:我们厂里的人和你都一直在说的这个Transformer究竟是什么?预训练又指什么?
咖哥:Transformer是几乎所有预训练模型的核心底层架构,也是本课程的核心内容,现在暂不讲述它的技术细节。自然语言处理中的预训练,则通常指在大量无标注文本数据上训练语言模型。预训练所得的大规模语言模型也被叫作“基础模型”(Foundation Model 或Base Model)。在预训练过程中,模型学习了词汇、语法、句子结构及上下文信息等丰富的语言知识。这种在大量数据中学到的知识为后续的下游任务(如情感分析、文本分类、命名实体识别、问答系统等)提供了一个通用的、丰富的语言表示基础,为解决许多复杂的NLP问题提供了可能。
在预训练模型发展过程的早期,BERT毫无疑问是最具代表性,也是影响力最大的预训练语言模型。BERT通过同时学习文本的上下文信息,实现对句子结构的深入理解。BERT之后,各种大型预训练模型如雨后春笋般地涌现(见下图),自然语言处理领域进入了一个新的时代。这些模型推动了NLP技术的快速发展,为解决许多以前难以应对的问题提供了强大的工具。
![](https://epubservercos.yuewen.com/8C7E95/31309469307528006/epubprivate/OEBPS/Images/0-14.jpg?sign=1739635476-itHwThiavOR055LE9DXmmKhtRWjpLxKd-0-6b24f5bd977c5bddbc929f6520a212e0)
各种预训练语言模型
对图中各种预训练语言模型的简单解释如表0.1所示(按照模型出现的先后顺序排列)。
表0.1 各种预训练语言模型的说明
![](https://epubservercos.yuewen.com/8C7E95/31309469307528006/epubprivate/OEBPS/Images/table_375a4c95-b75a-4860-a244-00e6a2f56bef.png?sign=1739635476-GSSbgB8C2cqCgSBwAHWRQKoKxc3sahX6-0-cd07f1cc586286312ecf4a3e8e32a794)
当然,现今预训练模型的发展趋势是参数越来越多,模型也越来越大(见下页图),训练一次的费用可达几百万美元。巨大的资金和资源投入,只有世界顶级“大厂”才负担得起,普通的学术组织和高等院校很难在这个领域继续引领科技突破,这种现象开始被普通研究人员所诟病。
![](https://epubservercos.yuewen.com/8C7E95/31309469307528006/epubprivate/OEBPS/Images/0-15.jpg?sign=1739635476-dBf8li2D6fIYsPyoIukvBly4TnjBstcJ-0-eb98307ea2163fb339a0de6432c45265)
参数越来越多,模型越来越大