<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <p>随着ChatGPT在2022年11月的发布,大语言模型从比较专业的应用领域走进了人们的生活。在这之前,生成式预训练Transformer(GPT)在文本预测、推理、补全、翻译等方面应用较广,而ChatGPT的“Chat”这种交互方式拉近了生成式AI与人类使用者之间的距离,大语言模型迅速爆火,同类的产品经过一段时间的追赶,也逐步形成与OpenAI竞争的态势。</p>
讯享网
- 一、误区
大语言模型(LLM,Large Language Model)从2017年Google翻译团队那篇著名的论文《attention is all you need》开始飞速发展,时间也不过7、8年时间,模型架构、相关软件版本变化非常快,各种模型层出不穷,对于为了开发基于AI的应用、将LLM当成一种基础工具使用的初学者,学习大语言模型可能会走入以下误区:
1、以深度学习的理论学习大语言模型
由于神经网络、深度学习、NLP等理论、算法、实践都比较成熟,一些图书会以这些理论为基础,讲解LLM,这也没什么问题,但对于初学者,这些知识门槛不低,很容易造成“入门到放弃”。实际上,从2017年后,LLM的基础理论并未有大的变化,一个Transformer架构、一个注意力机制,再加上一个Transformers库的知识储备,对于入门LLM基本上就够了。
2、可能误入ChatGPT生态
很多LLM的书,是讲ChatGPT如何使用,如何用OpenAI的接口编写程序,图书内容让人眼花缭乱,但问题显而易见,我们难于访问ChatGPT,使用会有成本 ,且使用的是云服务,自己部署模型的本领未学到。
3、可能被限定到某种模型或平台
市面上的模型非常多,几乎都声称爆款、赶超OpenAI、霸榜huggingface之类的,然后初学者被引导到人家的官网、云平台,知识限定到某种模型或API。实际上,从使用者来看,能装显卡驱动、能装CUDA、能装Python,会使用Transformers库,那就能处理大部分模型了,各种模型的安装、微调、开发API,大同小异。
- 二、学习方法
那么如何系统地学习大语言模型,少走弯路,是初学者所需要了解的。合理的学习路径能够让初学者循序渐进地掌握知识,每学一部分内容,会打下一定的LLM基础,学习时间也不长,学得也扎实,做到“从入门到精通”,而不是“从入门到放弃“。以下是作者总结的学习方法和步骤:
1、准备显卡
LLM是实践性非常强的一门学科,不管是安装、微调、量化,还是应用开发,都需要动手实践,做得多了,填得坑多,经验就丰富。有条件的话,最好准备一张24G显存的显卡,因为目前新的8B、9B规模的模型,使用半精度装入GPU大概要20G以上的显存,当然16G显存的显卡也可以用,装入的模型稍旧些,不影响学习。但如果听信了模型量化工具不需要GPU资源,也能用大模型的说法,实际上这个说法也没错,但学到的知识也只是学到了使用量化大模型这一点知识。
2、学基础知识
了解NLP、Transformer、自注意力机制、PyTorch等这些LLM的基础知识,对深入学习LLM会有帮助,做到知其然,也知其所以然。
3、亲自部署大模型
有很多云算力租用平台,是将显卡驱动、CUDA、Anaconda(Python虚拟环境)、PyTorch等基础环境事先装好的,初学者使用这些平台就会漏学掉很多知识,事实上,显卡驱动、CUDA、Pytorch之间的版本依赖问题是比较多的,安装过程也并不会很顺利,只有自己多装几遍,多实践,才能摸清楚LLM基础环境的脾气,以后遇到报错的时候不会慌张。正确的做法是用裸机,最好是用Linux,初学者在上面装显卡驱动、CUDA、Anaconda、PyTorch,然后部署某一个大模型完整实践,其他模型的使用也同样基于Transformers库,大同小异,区别不大,多装几遍就可以应对很多模型了。

4、学习微调
微调(也可以夸大一些说成训练)是应用大模型的常用技术,初学者在能熟练安装模型的基础上,就可以练习某些模型的微调了,语料格式也就那么几种常用的,微调方法以LoRA较为常用,多练习几遍,也就掌握了。具备这样的知识,就能做行业模型训练之类的工作了。
5、学习RAG
RAG(检索增强、知识库与LLM整合)是目前比较流行的一种技术,我个人理解这只是算力不足、模型训练周期过长等情况下的一种过渡性方案,前景并不好,不过这只是我的一家之言,不一定对。目前RAG比较流行,学习一下也好。
6、学习应用开发
首先,得先学OpenAI的编程接口技术(目前是事实上的Chat应用标准接口方式),了解SSE(服务端主动向客户端推送信息),然后学做一个Chat工具,接着按自己的爱好,学学编程机器人、Agent之类的技术。
- 三、总结
经过以上的学习步骤,从理论、到具体操作(安装、微调、量化),然后到开发,把LLM的常用的技术就学扎实了,实现了从0到1的突破,用的时间也就是半个月左右,在此基础上,再根据实际情况深入学习,就没什么问题了。在此,给大家推荐一本新书《大模型项目实战:多领域智能应用开发》,是作者用了两年时间、做了近10场、每场3040位学员的线下培训,然后总结出以上方法论形成的成果。书中的简要操作方法、源代码全部在https://github.com/little51/llm-dev 开源,方便读者实践。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/141914.html