sigmoid函数有哪些（sigmod函数怎么来的）

大家好，我是讯享网，很高兴认识大家。

导言

随着近年来大模型的兴起，AI模型不断增大，巨大的计算量和数据量使得在单机单卡的环境下进行模型训练变得不再实际。分布式训练应运而生，人们使用多机多卡的计算集群来训练AI模型，这样一则可以增加计算的并行度，提升训练速度；二则可以消解单卡的存储压力，让数据分布式地存储在多张卡上。

分布式训练在给单卡计算和存储减负的同时，也增大了对卡间通信的需求。训练过程中，多卡需要进行频繁的数据交换与行为同步，集合通信或成为分布式训练性能优化上的瓶颈。分布式训练可能涉及多种集合通信操作，如AllGather，AllReduce等，了解这些操作是对其进行优化的基础。

本文以此为出发点，介绍常见的深度学习分布式训练的并行策略和背后使用到的集合通信操作。希望通过这篇文章，帮助读者理解分布式训练的原理，以及集合通信之于分布式训练的重要性和必要性。

在介绍集合通信操作的同时，会列举出其操作在HCCL（Huawei Collective Communication Library）中对应的接口表示，以方便读者进一步加深对HCCL的功能和使用场景理解。鉴于篇幅限制，将本文内容拆分成三个部分来讲述，本期将阐述第一部分的内容，欢迎持续关注：

模型训练流程

作为背景知识补充之一，先回顾一下深度学习模型训练流程。

在模型训练之前，有一些准备性工作，如数据预处理，模型选择，损失函数和优化方法的确定，以及超参数的预设等，这里不做详细展开。之后就可以开始模型的正式训练了，其过程大致可以分为以下几步：

图片来源：https://medium.com/data-science-365/overview-of-a-neural-networks-learning-process-61690a502fa

基础通信操作

对于通信操作，关注点主要有两个，一是数据的收发方是谁，二是收发的数据是怎样的。基于收发方的不同，通信模式被分成四类：一对一、一对多、多对一、多对多。其中，一对一的通信模式又被称为点到点通信（Point-to-Point，P2P），涉及到多个计算节点参与的一对多，多对一，和多对多的通信模式则属于集合通信（Collective Communication，CC）操作的范畴。

其次，基于收发数据的不同，例如是整块发还是分块发，发送的数据在接收端需不需要进行整合处理等，通信模式又被分成了更细致的门类，下文也会依次展开介绍。

另外，在本章的最后会列举出每一种通信操作在HCCL中对应的接口名称，方便后续大家查找和使用。

1) 一对一

2) 一对多

3) 多对一

4) 多对多

对于上述各种通信操作，HCCL中都有其对应的接口（API）实现，以方便用户使用。API列举如下，想要获得更加详尽的HCCL接口信息，读者可以参考链接（https://hiascend.com/document/redirect/CannCommercialHcclApi）。

在了解了上述有关模型训练和通信操作的背景知识后，我们来看看分布式训练是如何利用多卡并行来共同完成大模型训练的，以及不同分布式训练策略背后的通信操作。

分布式训练的并行策略

什么是分布式训练？通俗易懂地说，就是将大模型训练这个涉及到庞大数据量和计算量的任务切成小份，分发给多个计算单元来共同完成（一个计算单元通常被称为一个计算节点或设备，物理上可以是一张NPU，GPU卡等）。

讯享网

那什么是分布式训练的并行策略呢？简言之就是这个“切的刀法”。模型训练任务中包含着多个维度，我们可以依照不同维度将整个训练任务切分开，并行起来执行。不同的切分方法对应着不同的计算存储和通信模式，直接影响系统性能的好坏。如何进行这个并行维度的选择，是分布式训练并行策略所关注的问题。

目前常见的分布式训练并行策略主要有数据并行和模型并行，而模型并行又进一步分为流水并行，张量并行和专家并行等。除此之外，还有一些进阶版的并行策略，如序列并行，完全分片数据并行，以及Zero系列并行等，下面我们依次对其进行介绍。

1) 数据并行（Data Parallelism，DP）

数据并行是指将一个批次（batch）的训练数据分成若干个小批次，分发给多个计算节点来进行训练的并行方式。

图片来源：https://medium.com/@aruna.kolluru/model-parallelism-390d32145a5a

数据并行需要首先将初始化的模型和优化器参数复制到所有节点上，然后将不同的小批次训练数据从存储设备装载到相应计算节点，随后执行上述模型训练流程中的步骤2)到4)：前向传播，损失计算，反向传播。在各个计算节点基于自己分得的小批次数据计算得到网络参数的梯度后，梯度数据会在所有节点间被同步，随后各种进行参数优化步骤5)，以此循环进行多批次的迭代。梯度同步的操作是为了确保所有节点在进行新批次数据迭代前有一样的网络参数。

由此可见，对于数据并行，集合通信操作发生在两处：其一是训练之初模型参数初始化后的模型广播，即将一个节点中初始化好的模型信息拷贝到所有节点，涉及到的通信操作是一对多的Broadcast；其二则是每一次各节点跑完小批次训练数据后的梯度同步，涉及到的通信操作是多对多的AllReduce，即将所有节点中的梯度信息整合平均后再同步给所有节点。

数据并行的通信操作总结成表格如下：

与之后要介绍的其他并行策略相比，数据并行单次通信数据较少且通信不频繁，因为其仅以Epoch迭代的频率进行通信，而不会在一个Epoch内的多次前向传播和反向传播的过程中进行通信。

数据并行的优势主要体现在：

下期，将为大家带来模型并行的内容，包括分布式训练中的常见的三种模型并行方式，即流水并行（PP）张量并行（TP）和专家并行（EP），以及通信模式的介绍，感谢关注！

参考材料

https://www.youtube.com/watch?v=sIX_9n-1UbM&t=49s

https://medium.com/data-science-365/overview-of-a-neural-networks-learning-process-61690a502fa

https://medium.com/@aruna.kolluru/model-parallelism-390d32145a5a

https://insujang.github.io/2022-06-11/parallelism-in-distributed-deep-learning/

集合通信用户指南：https://hiascend.com/document/redirect/CannCommercialHcclUg

sigmoid函数有哪些（sigmod函数怎么来的）

相关推荐