2026年入门

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

安装就像一样简单，查看更多详情。
要在 AzureML 上开始使用 DeepSpeed，请参阅 AzureML 示例 GitHub
DeepSpeed 已与 HuggingFace Transformers 和 PyTorch Lightning 直接集成。HuggingFace Transformers 用户现在可以通过一个简单的标志和配置文件轻松使用 DeepSpeed 加速他们的模型查看更多详情。PyTorch Lightning 通过 Lightning Trainer 提供了对 DeepSpeed 的便捷访问查看更多详情。
DeepSpeed 可以在 AMD 上通过我们的 ROCm 镜像使用，例如，。
DeepSpeed 还支持英特尔至强 CPU、英特尔数据中心 Max 系列 XPU、英特尔 Gaudi HPU、华为昇腾 NPU 等，请参阅加速器设置指南

DeepSpeed 模型训练通过 DeepSpeed 引擎完成。该引擎可以封装任意类型的模型，并提供最少的 API 集用于训练和检查点保存模型。请参阅教程获取详细示例。

初始化 DeepSpeed 引擎

确保分布式数据并行或混合精度训练所需的所有必要设置都在后台妥善完成。除了封装模型之外，DeepSpeed 还可以根据传递给的参数和 DeepSpeed 配置文件来构建和管理训练优化器、数据加载器和学习率调度器。请注意，DeepSpeed 会在每个训练步骤自动执行学习率调度。

如果您已经设置了分布式环境，则需要替换

为

默认使用 NCCL 后端，DeepSpeed 已对其进行彻底测试，但您也可以覆盖默认设置。

但如果您在调用之后才需要分布式环境设置，则无需使用此函数，因为 DeepSpeed 将在其期间自动初始化分布式环境。无论如何，如果您已经使用了，则需要将其移除。

DeepSpeed 引擎初始化后，可以使用三个简单的 API 来训练模型：前向传播（可调用对象）、反向传播（）和权重更新（）。

在底层，DeepSpeed 自动执行分布式数据并行训练、混合精度训练以及预定义学习率调度器所需的必要操作

梯度平均：在分布式数据并行训练中，确保在上的训练后，梯度在数据并行进程之间进行平均。
损失缩放：在 FP16/混合精度训练中，DeepSpeed 引擎自动处理损失缩放以避免梯度中的精度损失。
学习率调度器：当使用 DeepSpeed 的学习率调度器（在文件中指定）时，DeepSpeed 会在每个训练步骤（当执行时）调用调度器的方法。当不使用 DeepSpeed 的学习率调度器时
- 如果调度器应该在每个训练步骤执行，那么用户可以在初始化 DeepSpeed 引擎时将调度器传递给，并让 DeepSpeed 管理其更新或保存/恢复。
- 如果调度器应该在任何其他间隔（例如，训练周期）执行，那么用户在初始化时不应将调度器传递给 DeepSpeed，并且必须显式管理它。

训练状态的保存和加载通过 DeepSpeed 中的和 API 处理，这两个 API 接受两个参数来唯一标识一个检查点

: 检查点将保存到的目录。
: 唯一标识目录中检查点的标识符。在以下代码片段中，我们使用损失值作为检查点标识符。

DeepSpeed 可以自动保存和恢复模型、优化器和学习率调度器的状态，同时向用户隐藏这些细节。然而，用户可能希望保存特定模型训练的额外数据。为了支持这些项，接受一个客户端状态字典用于保存。这些项可以作为返回参数从中检索。在上述示例中，值作为的一部分存储。

DeepSpeed 功能可以通过配置文件 JSON 文件启用、禁用或配置，该文件应指定为。下面显示了一个示例配置文件。有关完整功能集，请参阅API 文档。

DeepSpeed 安装了入口点来启动分布式训练。我们以下列假设为例说明 DeepSpeed 的用法

您已将 DeepSpeed 集成到您的模型中
是您模型的入口脚本
是命令行参数
是 DeepSpeed 的配置文件

DeepSpeed 使用与 OpenMPI 和 Horovod 兼容的主机文件配置多节点计算资源。主机文件是主机名（或 SSH 别名）的列表，这些机器可通过无密码 SSH 访问，以及插槽计数，指定系统上可用的 GPU 数量。例如，

指定名为 worker-1 和 worker-2 的两台机器各拥有四个 GPU 用于训练。

主机文件通过命令行选项指定。如果未指定主机文件，DeepSpeed 将搜索。如果未指定或找到主机文件，DeepSpeed 将查询本地机器上的 GPU 数量以发现可用的本地插槽数量。

以下命令在中指定的所有可用节点和 GPU 上启动一个 PyTorch 训练作业

或者，DeepSpeed 允许您将模型的分布式训练限制为可用节点和 GPU 的子集。此功能通过两个命令行参数启用：和。例如，分布式训练可以限制为仅使用两个节点，命令如下

您可以改为使用和标志来包含或排除特定资源。例如，要使用所有可用资源，除了节点 worker-2 上的 GPU 0 以及 worker-3 上的 GPU 0 和 GPU 1

同样，您只能在 worker-2 上使用 GPU 0 和 1

DeepSpeed 现在支持无需无密码 SSH 即可启动训练作业。此模式在 Kubernetes 等云环境中特别有用，在这些环境中可以进行灵活的容器编排，而设置带有无密码 SSH 的主从架构会增加不必要的复杂性。

要使用此模式，您需要在所有节点上单独运行 DeepSpeed 命令。命令结构如下

: 指定包含节点和 GPU 信息的宿主机文件。
: 启用无 SSH 模式。
: 指定节点的等级。这应该是一个从 0 到 n - 1 的唯一整数。
: Leader 节点（rank 0）的地址。
: Leader 节点的端口。

在此设置中，主机文件中的主机名无需通过无密码 SSH 即可访问。但是，启动器仍然需要主机文件来收集有关环境的信息，例如节点数量和每个节点的 GPU 数量。

每个节点都必须使用唯一的启动，并且所有节点都必须提供 Leader 节点（rank 0）的地址和端口。此模式使启动器类似于启动器，如 PyTorch 文档中所述。

在跨多个节点进行训练时，我们发现支持传播用户定义的环境变量很有用。默认情况下，DeepSpeed 将传播所有已设置的 NCCL 和 PYTHON 相关环境变量。如果您想传播其他变量，可以在名为的点文件中指定它们，该文件包含以换行符分隔的条目列表。DeepSpeed 启动器将在您执行的本地路径和您的主目录 () 中查找。如果您想用自己的文件或路径和名称覆盖此文件的默认名称，可以使用环境变量来指定。这在您启动多个需要不同变量的作业时最有用。

举一个具体的例子，一些集群在训练前需要设置特殊的 NCCL 变量。用户只需将这些变量添加到其主目录中名为的文件中，其内容如下

DeepSpeed 将确保在整个训练作业中，在每个节点上启动每个进程时，这些环境变量都已设置。

如上所述，DeepSpeed 提供自己的并行启动器来帮助启动多节点/多 GPU 训练作业。如果您更喜欢使用 MPI（例如 mpirun）启动训练作业，我们也支持这样做。需要注意的是，DeepSpeed 仍将使用 torch distributed NCCL 后端，而不是 MPI 后端。

要使用 mpirun + DeepSpeed 或 AzureML（使用 mpirun 作为启动器后端）启动训练作业，您只需安装 mpi4py Python 包。DeepSpeed 将使用它来发现 MPI 环境，并将必要的状态（例如，世界大小、rank）传递给 torch 分布式后端。

如果您正在使用模型并行、流水线并行，或者在调用之前需要进行 torch.distributed 调用，我们提供相同的 MPI 支持，并额外提供一个 DeepSpeed API 调用。将您的初始调用替换为

如果仅在单个节点（带有一个或多个 GPU）上运行，DeepSpeed 不需要如上所述的主机文件。如果未检测到或未传入主机文件，DeepSpeed 将查询本地机器上的 GPU 数量以发现可用的插槽数量。和参数正常工作，但用户应将 'localhost' 指定为主机名。

相关推荐