2025年预训练权重和预训练模型的区别（预训练权重和预训练模型的区别与联系）

大家好，我是讯享网，很高兴认识大家。
 </p><p data-id="pa-1crpYSPY">本文的大模型特指的是大规模数据训练得到的预训练模型，对于大模型，2021年8月李飞飞联合100多名专家发布了一份研究报告《On the Opportunities and Risk of Foundation Models》，他们将大模型统一命名为 fundation model，也可以称之为基石模型，属于深度学习的一种。此外，从命名就可以看出，大模型的研究已经在AI 领域形成了里程碑式的影响。</p><p data-id="pa-sOQW7YMl"></p><p data-id="pa-lC9TGEIx"><img src="https://s4.51cto.com/oss//05/11d41a544a7ebeecddbe751afad079.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 613px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa-MMSRQWiM">那么什么样的模型可以称为大模型，应可以包括3个方面：模型的参数规模大、模型训练用到的数据规模大<strong>、</strong>模型训练用到的机器更多 。</p><p data-id="pa-QfviivuY">参数规模大（一张卡搞不定）：其中参数规模主要与传统的深度学习模型进行比较，传统模型参数量最多也就是百万，而预训练模型则一下子直接突破到了亿这个级别，在此后的模型参数的规模增长呈现了一种指数级的跨越式增长，并且能够实现效果的持续提升。</p><p data-id="pa-kGrn3Vub"></p><p data-id="pa-lmhTSwnU"><img src="https://s6.51cto.com/oss//05/88545d560dca391dda56829bfa45c39e.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-QU5glmpZ" style="text-align: center;">图1：模型数据量增长趋势</p><p data-id="pa-dL4bqa0f">思考：模型是不是越大越好，模型越来越大是不是趋势？</p><p data-id="pa-DEmpnU9g">2021年，一整年整个行业都在鼓吹大模型效果，OpenAI在20年5月发布了GPT-3之后仿佛打开了潘多拉魔盒，放出了所有人训练更大模型的“贪欲"。21年1月Google1.6万亿的Switch transformer，6月智源1.75万亿的悟道2.0，11月阿里10万亿的M6。</p><p data-id="pa-YfqHP4jC">2021年12月28日，阿里达摩院在《达摩院2022十大科技趋势》提出大模型的性能与能耗提升不成比例。在2021年12月，百度发ERNIE3.0 Titan，模型的规模只有千亿级别。显然模型参数的增量也已经进入了瓶颈期，以参数量的提升来提高模型效果这条路不好走了。大模型整体已经从单纯的拓展参数规模，开始卷向拓展任务复杂程度，提高数据质量与数量。</p><p data-id="pa-iKr7XWtU">数据规模大（一台机器处理不完）：2018年的 BERT模型，使用了BooksCorpus (单词量 800M)，English Wikipedia (单词量 2,500M)进行训练，总体数据量在GB级别，然而到了中文领域，数据量直接飙升到了TB 起步,其中悟道2.0用了3TB 数据，ERNIE3.0用了4TB 数据。</p><p data-id="pa-baZEoYEO"></p><p data-id="pa-6EyE6EH3"><img src="https://s4.51cto.com/oss//05/a777dd43556a6a935dd457a0f136d01407d972.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-3Dwytl7U" style="text-align: center;">图2：模型训练数据量增长趋势</p><p data-id="pa-iv9LUTbe">具体来说，模型应该具备多少参数规模、使用多少数据进行训练，才能称之为大模型？目前业界并没有具体的定论，只要符合具备足够多的模型参数，能够蕴含足够多数据的信息的模型，都可以称为大模型。而超大规模的模型，一般情况下是以GPT3作为标杆，通常超过百亿级别的模型都可以认为是超大规模的模型，这类模型，单机单节点已经无法满足处理要求了。</p><p data-id="pa-MVtZ4Ok5">自2018年NLP 领域 BERT提出之后，AI 应用进入了一个新纪元。训练范式不再是从使用数据直接训练出模型这样一对一（数据A1对应模型A1）的关系。而是使用“预训练+微调”范式，即提前使用大量无监督数据A2进行训练，得到预训练模型A2（Pretrained Model），然后在不同领域使用数据（B1、B2等），通过对 A2模型在不同类型任务上进行微调可以得到 （B1、B2等）模型的范式，大致方式如下：</p><p data-id="pa-95cqV7fU"></p><p data-id="pa-o92oaKFK"><img src="https://s3.51cto.com/oss//05/5216f7b3797e51ddeba33373f4c32cb.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-KgA4fO5s" style="text-align: center;">图3：fundation model 下游任务应用</p><p data-id="pa-wzeq10u5"><br></p><p data-id="pa-vN2DMQU2">当然在上一小节，也说到大模型一台机器训练不了，一张卡放不下。因此，目前大模型更多的是离线应用，在线应用上，还需要考虑知识蒸馏和低精度量化等模型压缩技术、项目实时性等一系列复杂的项目难题。大模型基本形成了一种AI能力的公共基础组件，结合一个或者多个助教模型实现大模型知识的蒸馏学习，实现垂直领域模型的快速定制。</p><p data-id="pa-DzlaDY7I"> </p><p data-id="pa-547somBp"> </p><p data-id="pa-ddqPKzlc">2021年12月，国务院印发《“十四五”数字经济发展规划》，指出要增强关键技术创新能力，提高数字技术基础研发能力，加快创新技术的工程化和产业化。而大规模预训练模型属于人工智能新基建领域新兴并快速发展的热点方向之一。</p><p data-id="pa-lPzYcHI9">2021年12月，国内超大预训练模型飞速发展。在《2022达摩院十大科技趋势》中，达摩院将其称作“从弱人工智能通向人工智能突破性的探索”。</p><p data-id="pa-3nRNnGTZ">2022年1月，中国信通院《AI 框架发展白皮书》中提出“AI 框架将着力强化对超大规模 AI 的支持”。同期发布的《AI人工智能白皮书》中指出，超大规模预训练模型也在推动技术效果不断提升，继续朝着规模更大、模态更多的方向发展。</p><p data-id="pa-DTDuMGac">2022年1月，百度研究院发布2022年十大趋势预测，其中超大规模预训练模型居首位，百度表示超大规模预训练模型将逐渐朝着实用化方向发展，呈现知识增强、跨模态统一建模、多学习方式共同演进的趋势。</p><p data-id="pa-Fg0E9RMH">2022年4月，中国信通院启动大模型系列标准编制工作，从大模型的开发、能力、应用和安全可信等方面进行评估，建立和完善大模型技术和应用评估方法标准体系。</p><p data-id="pa-aAS5wR1E">从上面可以看出，在超大规模预训练模型是AI 技术发展的大趋势上基本达成了共识。而工业界，普遍认为超大模型逐步向多模态、实用主义发展。</p><p data-id="pa-WVeAXNKz">相对于一般的厂商来说，云厂商去实现大模型具备了一定的优势，因此可以看到各大云厂商都具备对应的大模型，并且大模型的相关应用也越来越卷，简单罗列了一下几大云厂商的应用关系如下：</p><p data-id="pa-NC7gNHYs"></p><p data-id="pa-t5QWfm3s"><img src="https://s6.51cto.com/oss//05/a457eb6506ee1bdcc2d6f52cf8b17.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-zk4yvwrP" style="text-align: center;">图4：部分厂商大模型应用</p><p data-id="pa-0rMZFHEs"><br></p><p data-id="pa-jLLLqIKp">整体来看，云厂商使用大模型主要有2个层面的应用考虑：</p><p data-id="pa-my7o05sJ">一是提高生产力：包括普适性 AI 应用，即使用大模型完成小模型的快速定制，另外就是快速的将大模型使用到现有产品中去，包括智能问答、服装设计等场景，在不断的使用大模型探索应用的边界。</p><p data-id="pa-J7MJafdf">二是提高影响力：包括可以依赖大模型宣传一波自己的框架（百度的 PaddlePaddle、华为的 MindSpore）；借助大模型刷榜，挑战人类智能极限（中文的 CLUE，英文的 GLUE 等）；开发出各种好玩但不一定赚钱的应用（AI 写诗、AI 作画，展会特别好用），也许某一天就可以变现了。</p><p data-id="pa-gtbpFlLf">此处只是对大模型的实现进行一个简单的分析，有不靠谱之处敬请谅解。总的来说，如果要吃下大模型大概可以分为数据、技术、资源三个层面进行展开，以下对大模型的整体可行性进行初步的简单评估。</p><p data-id="pa-Ob2OcFWv">目前大模型对于 Trillion 级别的模型还是很难基于单一模型实现的，超大模型基本都是一些混合模型，而理论基础基本都是基于 Google 提出的 MoE 的理论以及对应的改进。</p><p data-id="pa-GORAhYNq">而对于1T以下的大模型来说，国内目前只有 PaddlePaddle、MindSpore、OneFlow等少数国产框架支持分布式大模型训练，其他的基本都是基于 Tensorflow 或者 Pytorch 的基础上进行开发的分布式框架。也因此，目前大规模分布式模型支持的最好的还是 GPU。除了华为的 MindSpore 是可以支持华为本身的昇腾芯片之外，对于原生芯片的支持目前来看并没有那么好（目前的训练芯片的支持情况均从相关论文以及开源代码中进行梳理）。</p><p data-id="pa-jgm2ljU5"></p><p data-id="pa-r8R1vnPA"><img src="https://s9.51cto.com/oss//05/57a1ea456ccbfd6a64a3132f93327c052f5881.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-aW6QkhR6" style="text-align: center;">图5：部分大模型框架支持情况</p><p data-id="pa-FaMhwZxN"><br></p><p data-id="pa-kva1lIoZ">目前来看，除了以上整理的框架之外，国内还是有非常多的优秀框架能够完成大模型训练任务的，包括智源提供的OpenBMB、火山引擎（字节）veGiantModel 等框架都可以实现大模型的训练任务，因此模型的训练框架选择还是比较多的，因此在2022年的今年，只要有数据，大模型训练再也不是瓶颈，条条大路通罗马。</p><p data-id="pa-455BCVjB">从2017年Transformer结构的提出开始，目前模型参数一个比一个大，从图上看，超过10亿参数规模的数据就已不是一张 GPU 卡能够训练优化的了，更大的模型（GPT3、T5）等模型就更别说了。如下图，每隔2年硬件显存大概增长了2倍，但是大模型参数量已经增长了超过240倍。</p><p data-id="pa-omZ84XrG"></p><p data-id="pa-EQFthgH2"><img src="https://s3.51cto.com/oss//05/d2ba5d985e4249d1f3a61f86199.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-YkzGWCIQ" style="text-align: center;">图6：硬件与模型增量</p><p data-id="pa-iwR8BPHQ">目前大模型训练框架虽然提出了模型并行、数据并行、流水线并行等多种策略来降低单一节点上显存的占用，从而实现分布式模型的训练，甚至最后衍生出ZeRO这样通过计算时间换空间的降低单一节点显存使用的极致方案，但是大模型的训练依然存在一定的瓶颈。</p><p data-id="pa-h1S8vQ1O"></p><p data-id="pa-r2jXQ27B"><img src="https://s2.51cto.com/oss//05/519abdc01b0fd461d8ae5e65aab4e5ee.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 523px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-TBvzT32h" style="text-align: center;">图7：大模型的并行训练机制</p><p data-id="pa-bSal9XOr">&nbsp; 随着数据和模型的不断增大，主要会触碰到两方面的瓶颈，大数据和大模型所产生的显存墙问题（模型是否能跑起来）以及计算墙（能否在合理时间内完成训练）问题。</p><p data-id="pa-H4AjLkAw">显存问题：如果不考虑 ZeRO这样极端的参数优化方案，以GPT-2为例，参数量为1.6B，使用Adaw 优化器、以及混合精度进行训练，实际显存占用大约为16倍fp16的参数量，训练时显存占用约为24G（正好一张P40），哪怕使用了一些优化方案。比如，华为盘古大模型使用参数量为200B，实际使用显存约为3500G。</p><p data-id="pa-JW4sV9tM">计算问题：OpenAI通过估算，端到端训练一个万亿参数的模型大约需要 5000 ZFLOPs（即 5 后面带有 24 个零）。不考虑显存、调优等问题的话，训练这样一个模型需要 4000 张 A100 以 50％ 的计算效率运行大约 100 天。哪怕 BERT 这样的基础模型，训练时间也相当长（以天为单位），下面提供的是关于 BERT 模型在微软 DeepSpeed 上的训练时间。</p><p data-id="pa-r4iFAcDd"></p><p data-id="pa-tf6Uq9ft"><img src="https://s5.51cto.com/oss//05/b23583d12ff597accaf3f6685e.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-1YIKq3F0" style="text-align: center;">图8：微软 DeepSpeed 上 BERT 的模型训练时间</p><p data-id="pa-GKUyOLMd"><br></p><p data-id="pa-adrwF6iw">大模型要落地，主要从数据、技术、资源、应用上进行分析，并梳理出对应的问题</p><p data-id="pa-esUf3m9d"></p><p data-id="pa-FXTnUuql"><img src="https://s2.51cto.com/oss//05/16b9fcd27d038ea061ae2617edef81ff.png" alt='大模型落地应用指北—大模型能吃吗？-AI.x社区' title='大模型落地应用指北—大模型能吃吗？-AI.x社区' style="width: 664px; visibility: visible;" data-type="inline"></p><p></p><p data-id="pa028eb2-ib4Vecc5" style="text-align: center;">图9：如果要用大模型应该关注的问题</p><p data-id="pa-2wjWrvNF"><br></p><p data-id="pa-xglcKmvp"><br></p><p data-id="pa-XEIUMCGf">总体来说，大模型是目前算法技术发展的趋势，大模型可以让数据发挥出更大的价值，大模型可以贯穿数据、平台、业务多个层面的应用。</p><p data-id="pa-SNffZq0O">在技术可行性方面，如果只有一张 GTX3080，对于训练10B 以上的模型还是做不到的。在最优的情况下，应该可以实现1B左右的大模型的训练与优化（当然时间会非常久）。另外，考虑到性价比，如果真的要做大模型还是应该以垂直领域的模型为主。</p><p data-id="pa-6Ehy7CvX">[1] AI and Memory Wall</p><p data-id="pa-OZHS0lgs">[2] 【预训练大模型】智源大会，预训练大模型落地路</p><p data-id="pa-Q7nIkqJl">[3] 达摩院十大科技趋势&nbsp;</p><p data-id="pa-pnz5EX67">[4] 大模型的发展与解决的问题</p><p data-id="pa-ydWmX8ri">[5] AI框架必懂的AI系统知识</p><p data-id="pa-CPoyfw8u">[6] A Roadmap for Big Model</p><p data-id="pa-kBG3ufu3">[7] 清华刘知远：大模型「十问」，寻找新范式下的研究方向</p><p data-id="pa-029GE3ha">[8] 达摩院大模型技术交流会&nbsp;</p><p data-id="pa-htsSVjuN">[9] AI 框架发展白皮书</p><p data-id="pa-7KdYlFrX">[10] 人工智能发展白皮书（信通院）</p><p data-id="pa-16QaImfS">[11] 百度研究院发布2022年十大科技趋势</p><p data-id="pa-D4Y0kwZy">[12] 大规模训练系列之技术挑战</p><p data-id="pa-oEgYofkz">本文转载自<span style="font-size: 0px;"><span style="color: #000000;">&nbsp;</span></span><span style="font-size: 15px;"><span style="color: #000000;">AI遇见云</span></span>，作者：<span style="font-size: 0px;"><span style="color: #000000;">&nbsp;</span></span><span style="font-size: 15px;">杨希</span></p>
讯享网
2025年预训练权重和预训练模型的区别（预训练权重和预训练模型的区别与联系）

相关推荐