预训练语言模型和大语言模型区别（预训练语言模型 pdf）

大家好，我是讯享网，很高兴认识大家。

 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <p>随着ChatGPT在2022年11月的发布&#xff0c;大语言模型从比较专业的应用领域走进了人们的生活。在这之前&#xff0c;生成式预训练Transformer&#xff08;GPT&#xff09;在文本预测、推理、补全、翻译等方面应用较广&#xff0c;而ChatGPT的“Chat”这种交互方式拉近了生成式AI与人类使用者之间的距离&#xff0c;大语言模型迅速爆火&#xff0c;同类的产品经过一段时间的追赶&#xff0c;也逐步形成与OpenAI竞争的态势。</p>

讯享网

一、误区

大语言模型（LLM，Large Language Model）从2017年Google翻译团队那篇著名的论文《attention is all you need》开始飞速发展，时间也不过7、8年时间，模型架构、相关软件版本变化非常快，各种模型层出不穷，对于为了开发基于AI的应用、将LLM当成一种基础工具使用的初学者，学习大语言模型可能会走入以下误区：

1、以深度学习的理论学习大语言模型

由于神经网络、深度学习、NLP等理论、算法、实践都比较成熟，一些图书会以这些理论为基础，讲解LLM，这也没什么问题，但对于初学者，这些知识门槛不低，很容易造成“入门到放弃”。实际上，从2017年后，LLM的基础理论并未有大的变化，一个Transformer架构、一个注意力机制，再加上一个Transformers库的知识储备，对于入门LLM基本上就够了。

2、可能误入ChatGPT生态

很多LLM的书，是讲ChatGPT如何使用，如何用OpenAI的接口编写程序，图书内容让人眼花缭乱，但问题显而易见，我们难于访问ChatGPT，使用会有成本，且使用的是云服务，自己部署模型的本领未学到。

3、可能被限定到某种模型或平台

市面上的模型非常多，几乎都声称爆款、赶超OpenAI、霸榜huggingface之类的，然后初学者被引导到人家的官网、云平台，知识限定到某种模型或API。实际上，从使用者来看，能装显卡驱动、能装CUDA、能装Python，会使用Transformers库，那就能处理大部分模型了，各种模型的安装、微调、开发API，大同小异。

讯享网

二、学习方法

那么如何系统地学习大语言模型，少走弯路，是初学者所需要了解的。合理的学习路径能够让初学者循序渐进地掌握知识，每学一部分内容，会打下一定的LLM基础，学习时间也不长，学得也扎实，做到“从入门到精通”，而不是“从入门到放弃“。以下是作者总结的学习方法和步骤：

1、准备显卡

LLM是实践性非常强的一门学科，不管是安装、微调、量化，还是应用开发，都需要动手实践，做得多了，填得坑多，经验就丰富。有条件的话，最好准备一张24G显存的显卡，因为目前新的8B、9B规模的模型，使用半精度装入GPU大概要20G以上的显存，当然16G显存的显卡也可以用，装入的模型稍旧些，不影响学习。但如果听信了模型量化工具不需要GPU资源，也能用大模型的说法，实际上这个说法也没错，但学到的知识也只是学到了使用量化大模型这一点知识。

2、学基础知识

了解NLP、Transformer、自注意力机制、PyTorch等这些LLM的基础知识，对深入学习LLM会有帮助，做到知其然，也知其所以然。

3、亲自部署大模型

有很多云算力租用平台，是将显卡驱动、CUDA、Anaconda（Python虚拟环境）、PyTorch等基础环境事先装好的，初学者使用这些平台就会漏学掉很多知识，事实上，显卡驱动、CUDA、Pytorch之间的版本依赖问题是比较多的，安装过程也并不会很顺利，只有自己多装几遍，多实践，才能摸清楚LLM基础环境的脾气，以后遇到报错的时候不会慌张。正确的做法是用裸机，最好是用Linux，初学者在上面装显卡驱动、CUDA、Anaconda、PyTorch，然后部署某一个大模型完整实践，其他模型的使用也同样基于Transformers库，大同小异，区别不大，多装几遍就可以应对很多模型了。

4、学习微调

微调（也可以夸大一些说成训练）是应用大模型的常用技术，初学者在能熟练安装模型的基础上，就可以练习某些模型的微调了，语料格式也就那么几种常用的，微调方法以LoRA较为常用，多练习几遍，也就掌握了。具备这样的知识，就能做行业模型训练之类的工作了。

5、学习RAG

RAG（检索增强、知识库与LLM整合）是目前比较流行的一种技术，我个人理解这只是算力不足、模型训练周期过长等情况下的一种过渡性方案，前景并不好，不过这只是我的一家之言，不一定对。目前RAG比较流行，学习一下也好。

6、学习应用开发

首先，得先学OpenAI的编程接口技术（目前是事实上的Chat应用标准接口方式），了解SSE（服务端主动向客户端推送信息），然后学做一个Chat工具，接着按自己的爱好，学学编程机器人、Agent之类的技术。

三、总结

经过以上的学习步骤，从理论、到具体操作（安装、微调、量化），然后到开发，把LLM的常用的技术就学扎实了，实现了从0到1的突破，用的时间也就是半个月左右，在此基础上，再根据实际情况深入学习，就没什么问题了。在此，给大家推荐一本新书《大模型项目实战：多领域智能应用开发》，是作者用了两年时间、做了近10场、每场3040位学员的线下培训，然后总结出以上方法论形成的成果。书中的简要操作方法、源代码全部在https://github.com/little51/llm-dev 开源，方便读者实践。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取

预训练语言模型和大语言模型区别（预训练语言模型 pdf）

相关推荐