rknn模型推理（rck模型推导）

大家好，我是讯享网，很高兴认识大家。
 <p id="3533VTAH"><strong>OSCHINA</strong></p><p id="3533VTAN">10 月 25 日，第 107 期源创会在北京成功举办。</p><p id="3533VTAO">本期邀请来自华为昇思 MindSpore、openMind，Thoughtworks，BentoML，趋境科技的技术大咖、布道师发表主题演讲。接下来一起看看活动的精彩内容吧！</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2F5683a1f7j00smdpqj00kbd200tw00gig00id00a4.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>主题演讲回顾</strong><strong>企业在大模型应用落地过程中面临的推理困境与应对策略</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2F7c61d463j00smdpql00hzd200tu00jqg00id00c4.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTAR">Thoughtworks 数据与人工智能解决方案总监张晶白发表了《企业在大模型应用落地过程中面临的推理困境与应对策略》主题分享。张晶白总结了大模型在专业领域中落地时会遇到的困境：首先，大模型难以理解特定的业务流程，因为其训练数据主要是通用和公开市场数据，缺乏对特定企业数据的了解；第二，数据隐私和安全也是关键问题，企业内部的敏感信息不可能公开给大模型学习；第三，面对复杂的应用场景，往往需要结合多个模型来解决，如何适配和管理这些模型成为难题；第四，行业特有的合规和安全要求，以及大模型推理过程中的延迟问题，也是实施过程中必须考虑的因素；第五则是效率问题。</p><p id="3533VTAS">针对提升大模型业务理解能力方面，张晶白介绍了 Thoughtworks 的两个处理方法：一是利用思维链（Chain of Thought, COT）和思维树（Tree of Thoughts, TOT），提升大模型推理能力；二是专门构建多轮对话任务型 Agent 的基础框架，AI 应用开发使用此框架，只需开发与本 AI 应用业务上下文相关的部分，包括专业词库配置、意图 / 槽位定义、专业术语映射、对话策略定义，Action 开发等。</p><p id="3533VTAT">针对数据的来源与处理问题，张晶白建议企业重视数据平台的建设和数据产品的全链条管理，而不仅仅是关注数据工程的底层技术。数据处理不仅仅是技术问题，还涉及到组织、流程和运营层面的问题，这些问题往往导致大模型应用中出现各种问题，如响应慢、结果不准确等。强调在数据准备过程中解决断点的重要性，以确保整体工作的效果。</p><p id="3533VTAU">针对大模型管理与适配的问题，利用 AIGC 平台侧统一适配底层不同的模型，例如来自公有云的不同厂商的模型和针对敏感数据的私有化部署模型，且对外提供统一的，兼容的 OpenAI API 接口，可确保模型发生变化的时候，不会让变动影响到业务侧，且可很好的实现跨模型的切换。</p><p id="3533VTAV">针对数据安全合规运维问题，张晶白指出需在平台层面上添加适配器以简化上层应用的模型调用，同时处理不同模型的数据出境限制等问题。此外，安全性和敏感词过滤也非常重要，企业可以根据自身需求，定制敏感词过滤机制。</p><p id="3533VTB0">针对输出效率问题，除了关注模型和技术本身的提升，还应注重流程拆解、寻找并优化耗时环节，以及在用户体验层面上的改进。通过拆解应用流程，识别出最耗时的部分并针对性地优化，可以有效提升效率。同时，通过引入异步处理和并行计算，可以在一定程度上缓解速度问题。此外，为了改善用户体验，即使在面临速度瓶颈时，也会通过添加某些无关紧要但能提升感知速度的技巧，如加入思考过程的描述，让对话显得更自然顺畅。最终目标是让客户感受到应用的人性化和贴合度，尽管他们期望大模型像计算机一样高效无暇。通过这些策略，可以在短期内让用户体验得到改善，同时在长期中追求技术与效率的双重提升。</p><p><strong>昇思 2.4 版本加速大模型原生创新</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2F8304d8f7j00smdpqm00pld200u000k2g00id00c9.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTB2">华为昇思 MindSpore 开源生态总监杨滔发表了《昇思 2.4 版本加速大模型原生创新》主题分享。杨滔介绍，自 2020 年 3 月开源以来，昇思 MindSpore 框架在四年半的时间里，见证了人工智能领域的快速发展，包括模型结构、大小和应用场景的显著变化。同时，昇思 MindSpore 自身也从最初专注于边缘设备推理场景，到支持大模型训练，并扩展到 AI for science 等应用领域。此外，昇思 MindSpore 也强调与硬件的亲和性，同时保持中立，支持多种 CPU 和 GPU。</p><p id="3533VTB3">杨滔也详细介绍了昇思 MindSpore 最新的技术特性。面对大模型规模的挑战，昇思 MindSpore 提出八维混合并行概念，提供多样的并行机制以优化模型训练。通过面向超节点架构创新高维 Tensor 并行与长序列并行，提升万亿参数模型训练性能 10%。通过多并行机制，昇思 MindSpore 可以帮助用户在日常模型训练过程中，根据自身经验与需求，选选择不同并行模式的组合，从而高效训练相应模型。</p><p id="3533VTB4">此外，昇思 MindSpore 通过大模型使能套件，可低代码实现原生大模型原生全流程开发。比如用户需要微调模型时，或者需要做下游任务时，可以通过套件快速将大模型运行起来。目前，Transformers 与生成式领域模型已覆盖 Open-Sora、LLaMA3 等 30 + 热门领域大模型，开箱即用，将模型训练到部署全流程从月级提升至周级。</p><p id="3533VTB5">而在构建和优化模型时，开发者也会面临易用性和执行效率之间的平衡问题。优化计算图可以提高效率，但可能因改变了计算顺序和融合计算而增加调试难度。为此，昇思 MindSpore 提供了不同级别的编译选项，允许开发者在开发初期选择非优化执行以方便调试，之后可逐步应用自动算子融合等优化技术以提升效率。同时，模拟执行工具帮助开发者在资源有限的环境下评估模型在多卡环境下的性能，确保模型优化后能顺利部署。</p><p id="3533VTB6">生态方面，杨滔介绍，通过与外部开源社区、技术社区的合作，为昇思 MindSpore 带来了一些特定功能的完善，尤其是在 API 和组件缺失方面。比图在动态图性能提升放 main，通过联合启智社区升级 MindTorch，提升了迁移适配效率。此外，昇思 MindSpore 鼓励开发人员参与开源社区，目前拥有约 3.5 万名开发者。</p><p id="3533VTB7">当下，昇思 MindSpore 也在探索 AI4Sci，通过创新 AI + 科学计算范式，孵化科学领域基础大模型。杨滔介绍，AI for Science 强调数值模拟在科学探索中的核心地位，通过计算方法解决复杂物理方程的求解问题，从而推动科学发现和工程应用。进入人工智能时代，偏微分方程的求解与导数计算成为重要研究方向，促进了科学与 AI 的结合。昇思 MindSpore 也在和不同高校合作，进行跨学科研究，如蛋白质结构预测和流体力学模拟等等。</p><p><strong>openMind 大模型平台介绍</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2Fd91974fdj00smdpqo00hod200u000jxg00id00c6.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTB9">华为高级软件工程师王玺源发表了《openMind 大模型平台介绍》主题分享。王玺源介绍，openMind 在 AI 价值链上位于中间层，链接应用层与底层算力，扮演着大模型智能平台的角色。</p><p id="3533VTBA">openMind 平台主要分为两部分：一是基础设施平台，负责构建整个平台；二是用户可以直接使用的工具链，旨在提供多样化的服务。当下，国内外市场上有包括 Hugging Face、魔乐、Gitee AI 等在内的平台，汇聚了多个模型与数据集应用等，openMind 工具链则统一了北向接口，使用户能访问并使用这些平台。</p><p id="3533VTBB">openMind 底层的算力支撑工具是昇腾。目前昇腾的原生支持已经推入到多个上游社区，如 LLaMA-Factory、PyTorch、OpenCV 等等。实际上用户在使用大模型训练框架、推理引擎时，选择非常多样，有时甚至需要融合多个产品。openMind 则是可以让用户能够简单、高效地去使用这些产品工具。</p><p id="3533VTBC">在整个 AI 应用运行的架构中，最下层是硬件，往上依次是硬件加速、推理引擎、AI 框架、加速库，然后是 openMind 开发套件。使用 openMind 开发套件相当于屏蔽了下层的硬件、推理引擎等。openMind 通过简化 API 和命令行工具，使开发者能更容易地运行和部署 AI 大模型，同时平台对于模型与镜像管理的能力也确保了本地化使用过程的顺利和高效。</p><p id="3533VTBD">具体而言，在北向上，openMind 提供了一组 pipeline 机制，以及微调接口、快速部署接口、命令行能力等等，可以帮助用户在本地通过一条命令就能构建起大模型。此外，模型之间的关系通过 AI Bom 来保证可追溯性，以及对大模型的病毒扫描和内容审核功能，以保证平台应用的安全性。</p><p id="3533VTBE">南向上，目前已经对接了昇腾，此外在对国产算力的支持方面，页接入社区算力、第三方云算力、私有算力以及国内 AICC 场景的算力支持。随着平台模型数量迅速增长，openMind 提供了开源大模型微调场景下的丰富模型与数据集，用户可以免费尝试生成应用，以及模型 CI 的测试过程，确保模型在不同环境下的可用性和性能。openMind 还为开发者提供了生成 AI 应用的能力，支持自定义向量数据库、知识检索、分布式推理加速等功能。</p><p id="3533VTBF">目前，openMind 已和多个国内 AI 社区合作，为开发者和企业提供广泛的技术交流和应用开发支持。</p><p><strong>大模型推理落地实践与复合 AI 系统</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2F3b85a7b3j00smdp00gad200u000jwg00id00c6.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTBH">BentoML 软件工程师赵申阳发表了《大模型推理落地实践与复合 AI 系统》主题分享，主要介绍 BentoML 是怎样让多个模型和多个服务之间无缝地互相调用，以及资源灵活分配的。</p><p id="3533VTBI">赵申阳指出，在产品开发中，自建服务与 API 服务的选择面临多种考量，包括可定制化、数据安全与成本问题。随着开源模型质量提升和多样化的框架出现，用户对自建服务的兴趣增加。同时，自建服务允许更大的定制化，对于数据安全和避免第三方服务费用的增加更为有利。开源模型和框架的进展推动了用户转向自建解决方案，以满足特定需求和优化成本效益。</p><p id="3533VTBJ">然而，在大模型搭建的过程中，也存在许多问题。比如性能问题，包括 TTFT（第一个 token 的等待时间）、吞吐量和输出质量之间的平衡，以及如何在有限资源下实现性能最大化。一种可能的解决方案是，使用较小的模型处理常见的请求，并在需要时回退到大型模型，以解决复杂问题。但当下的问题是，较小的模型对问题的处理能力不如大模型，所以很多时候用户还是倾向大模型。同时，使用大模型时，往往也不会局限于一个大模型，而是多个模型的组合。而诸如此类的问题的解决，赵申阳介绍了一个方法 —— 复合 AI 系统。</p><p id="3533VTBK">复合 AI 系统利用了多 AI 或者机器学习的模型，以及其他组件去完成某个功能。用户只需要是把这些模型像搭积木一样把它搭起来，就可以形成一个整体的积木。</p><p id="3533VTBL">复合 AI 系统正是通过利用不同大小和功能的模型，如小模型、向量数据库和大型语言模型，来解决诸如 SQL 注入、用户出口等安全问题。同时，复合 AI 系统在成本、性能、可控性、灵活性和独立扩容方面的优势，也可以通过组合不同组件来构建高效、可扩展且经济的 AI 解决方案的方法。</p><p><strong>降低推理成本，如何使用单卡完成千亿参数大模型推理任务</strong></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2Ffe25c25cj00smdpqs00f7d200u000jng00id00c0.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTBN">趋境科技研发负责人陈祥麟发表了《降低推理成本，如何使用单卡完成千亿参数大模型推理任务》主题分享。陈祥麟指出，大模型能力发展的同时其使用成本也大幅度提升，比如算力缺口大、推理成本高、响应延迟长。</p><p id="3533VTBO">聚焦至推理场景下，访存带宽成为了关键瓶颈，内存墙、IO 墙、存储墙成为了制约计算智能进一步发展的关键挑战。相比算力的发展速度，存储带宽和传输带宽的增长斜率都更缓。在这样的背景之下，趋境科技联合清华 KVCache.AI 团队开源了 Ktransformers 框架，旨在解决大模型推理的挑战。</p><p id="3533VTBP">随着模型参数的扩大，个人开发者面临部署大型模型的困难。Ktransformers 采用异构推理的框架结构设计，使开发者能够在单卡 4090 上进行千亿大模型；同时利用注意力机制的稀疏性来处理超长文本本地推理任务，最长能够支持 1M 的超长文本推理。Ktransformers 还特别关注存储瓶颈和算力效率，以优化大模型的推理过程。</p><p id="3533VTBQ">Ktransformers 是高性能的灵活的本地 LLM 推理框架，支持基于模板规则的注入 / 替换，将 Routed Experts 替换成基于 llamafile 实现的 CPU 量化 kernel 等；支持多种算子及进一步自定义，基于一套模板可以轻松地自定义添加算子；并支持更多 MoE 模型等等。此外，随着 prompt 长度增加，KTransformers 的 1M 超长文本推理速度能够保持基本不变。</p><p id="3533VTBR">最后，陈祥麟也分享了 Ktransformers 的未来规划。Ktransformers 当前所有的优化测试都是基于英伟达的 GPU，下一步要在 Atlas，壁仞等国产卡上做进一步的工作。集成多模态模型，类似 Qwen-VL，MiniCPM 等，通过 Marlin，CUDA Graph 对性能进行优化。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1103%2F8b449b65j00smdpqt00w8d200tq00icg00id00bb.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3533VTCM"><strong>↓分享</strong><strong>、在看</strong><strong>与点赞~Orz</strong></p>
讯享网
rknn模型推理（rck模型推导）

相关推荐