2025年HCFL阅读笔记

大家好，我是讯享网，很高兴认识大家。

HCFL: A High Compression Approach for Communication-Efficient Federated Learning in Very Large Scale IoT Networks
原文链接：添加链接描述
（1）提出压缩辅助FL算法
A
HCFL作为一个自编码器来压缩分布式客户端的模型并重建编码的模型。
由于客户随机应用梯度下降，模型的权重分布转换仍然是隐蔽的。需要捕捉每个模型分布的一般化和转换趋势，特别是当模型的梯度下降在不同方向上操作时。因此，HCFL应满足以下两个条件：
1.最小化原始模型和重建模型之间的重建误差，如（4）中所述：
在这里插入图片描述
讯享网
2.最大化原始模型和编码数据之间的相互信息。可以最大化从原始数据传输到编码数据的信息，这提高了编码器的性能，从而提高了解码器的质量。优化问题介绍如下：
2333

通过这种方式，可以制定一个联合优化问题来解决上述两个任务。同时，为了共轭（4）中基于距离的问题和（5）中的熵问题，考虑MSE和交叉熵（CE）之间的关系。遵循一个假设，即HCFL中深度网络的输出被证明为方差为的高斯分布:
在这里插入图片描述
在HCFL的输出上应用CE，得到：

在这里插入图片描述

B.系统部署
如图3所示，HCFL包括两个组件：位于每个客户端域上的编码器和嵌入服务器固件中的单个解码器。尽管在客户端上激活压缩操作需要许多编码器，但服务器端只需要一个解码器，因为来自所有客户端的传入客户端训练信息是不连续的，并且可以使用先进先出规则进行调度。这确保了服务器的硬件要求仍然可以得到满足。
在这里插入图片描述
初始化后，服务器开始其训练迭代。每个迭代被命名为一个通信轮。在每一轮通信中，服务器将全局权重上传到每个客户端并要求K个选中的客户端更新。所选客户端并行训练其模型，然后将其新的本地模型发送到服务器。服务器解码所有接收到的本地参数，然后执行累积和平均以获取新的全局模型。该过程被连续处理，直到FL达到期望的收敛或达到最大通信轮次。此外，编码器在传输链路上的通信过程的打包和调制阶段之前压缩模型。同样，解码器在接收链路中的解调和解封装阶段之后重建模型。这种闭环过程确保了HCFL在任何物联网系统中的兼容性。
在这里插入图片描述
C.HCFL网络架构
拟议的HCFL框架预计将以1:4到1:32的比例压缩模型参数数据。该速率可以通过处理编码方案期间的数据丢失来实现。因此，利用深度神经网络来减少重建数据和原始数据之间的损失。
1）定义数据集
为了开发HCFL，我们首先为网络定义数据集。从模型参数数据集中提取数据。不是在训练结束时提取模型参数，而是在每个客户端的每个epoch之后生成为该系统准备的数据，以帮助压缩器学习神经网络系数的值和空间分布。通过将数据分为两个组件，用两个不同的压缩器进行训练，即卷积核数据集和密集网络数据集，从而降低了客户端的维数诅咒和计算成本，其中每个部分的元素都具有相似的分布特征。

（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
（2）iteration：1个iteration等于使用batchsize个样本训练一次；
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次。

2）提出的压缩系统
在加密器处使用V个全连接（FC）层（图4a），在提取器处使用（l−V）FC层（图4b），其中l是HCFL系统的总隐藏层，以激活降维。每个FC层由一个dense层组成，然后是每个层节点的Tanh激活函数。Tanh的使用是为了保证HCFL的输出在[−1，1]范围内，这是原始模型参数的值范围。FC层还在输入中使用额外的批次归一化，以便通过重新定中心和重新缩放使HCFL更加稳定和快速，如图5所示。根据HCFL的压缩比和输入模型的复杂性来设置HCFL隐藏层的深度。HCFL压缩比越高，深度网络中添加的FC层越多。随着更多的层被添加到神经网络，模型为训练数据分配的对数概率的下限上升（将在第五节中介绍）。因此，深度神经网络比浅层或线性神经网络提供更好的压缩性能[32]，[33]。
在这里插入图片描述

3）数据预处理
数据准备：在FL执行期间存储模型参数。为了避免数据集不平衡，我们只获取预饱和客户端的预测模型。此外，利用所提出的方法，HCFL压缩机可以在每个学习状态下学习模型的一般分布。
数据分割：我们应用分而治之算法[34]将每个单独的模型参数分解为两个或多个子数据集，其分布具有高互信息。因此，聚类数据集分布变得足够简单，HCFL可以避免维数灾难。第2节提出了数据分割技术的性能分析。
D.提出的训练阶段
采用转移学习技术来实施HCFL。首先，在服务器上用少量数据集训练预模型。通过在服务器上的小数据集上应用扩充，模型数据样本集因此在数据分布上具有额外的变化[35]。偶然地向梯度添加了噪声，这提高了梯度范数的方差。这种高方差增加了预训练模型的梯度随机性[36]，这改进了模型参数数据集的泛化。收到的数据集适用于HCFL训练阶段。然后在模型前训练阶段的每个阶段获得的模型被用于我们的HCFL模型训练过程。训练过程如图4a和4b所示。在这些数字中，HCFL的训练如（9）所示。如第III-A节所述，经过训练的HCFL模型因此具有分布式客户模型在实践中的一般特征。

（2）性能评估
A.设置
数据集：MNIST,EMNIST
评价指标：通信效率用数据压缩比（数据压缩比-准确率）
模型：LeNet-5,5-CNN
数据集分割：
模拟中FL模型的模型参数数据集处理如下：
MNIST:卷积层和密集层在不同的HCFL压缩机和提取器中训练。每个HCFL学习每组卷积核参数或完全连接权重的不同分布。因此，我们可以实现HCFL的高压缩效率。
EMNIST:由于5-CNN模型参数的复杂性，将密集层的参数分成8个平衡部分，以减少每个部分的熵。HCFL压缩机需要执行八种不同的培训，HCFL压缩机设置存储在HCFL存储器中。每当FL模型应用HCFL时，都会从内存中加载特定的HCFL设置，以处理相应的分段数据集。
VI-B节中具体实施：每一轮，服务器随机选10/100个客户端，固定学习率：0.01，客户端epochs:5。

压缩效率的角度：评估了在FLHCFL中应用不同压缩比设置时的实际压缩性能。表I和表II显示了在不同压缩比设定下，HCFL和基准（包括FedAvg[5]和TFedAvg[22]）的重建误差和压缩效率。将基准应用于两个数据集：MNIST和EMNIST。

假设在100轮中有10个用户参与每一轮，则客户端和集中式服务器之间的传输所需的总容量对于LeNet-5模型分别为20.5GB和5-CNN模型分别为27.2GB。大量数据对大规模物联网网络来说是一个巨大的负担。在高复杂度的深度网络（即AlexNet[45]或ResNet[46]）中，通信成本预计会更大。模型参数大小与通信时间之间的关系如下：
在这里插入图片描述

根据（13），通过减小传输模型参数大小，可以以相同的比率减少通信时间。值得注意的是，当提高压缩比时，通信效率会提高。如果使用HCFL辅助FL，可以减少传输链路上的大量数据以及所需的通信时间。
提出了四种压缩比：1:4、1:8、1:16和1:32。来自两个表的数据显示，在使用LeNet-5模型和5-CNN时，应用1:4的设置有助于将通信成本降低到25.22%和20.7%。特别是，通过应用1:32设置，LeNet-5集成客户端的通信成本可降低至3.7%（从传统FL的20.5 GB降至HCFL辅助FL的757 MB），而5-CNN-集成客户端的通讯成本可降低3.35%（从常规FL的27.2 GB降至HCFC辅助FL的910.55 MB）。此外，从表1中可以观察到，压缩比为1:32的HCFL在通信效率方面优于T-FedAvg[22]，因为T-FedAvg的最大压缩比上限为16倍。

从计算延迟的角度来看，文章评估了长期FL过程中客户端和服务器的平均计算时间。因为HCFL组件部署在服务器和客户端中，所以在集中式服务器和分布式客户端上进行延迟计算。为了得到公平的评估，计算了100个通信轮的平均延迟值。计算延迟如表III所示。如表中所示，评估在LeNet-5集成客户端（MNIST数据集）和5-CNN-集成客户端（EMNIST数据集）上进行。HCFL工艺时间可计算如下：
在这里插入图片描述
其中r是HCFL系统的压缩比，T HCF Lr是HCFC过程计算延迟，T compr是客户的总计算延迟和压缩比r。

从表中可以看到，客户端和服务器上的HCFL进程都很低（客户端上少于40毫秒，服务器上少于350毫秒）。该时间量远低于客户端上的预测过程延迟（约2.1至2.2秒）。
在以下对HCFL压缩效率的评估中，考虑了HCFL辅助的FL精度。评估使用相同的设置，从总共100个客户端中随机选择十个客户端，所选客户端比率设置为0.1，batch size设置为最大可能值（即，等于每个客户端的数据大小），训练epoch设置为5。为比较HCFL不同压缩比之间的性能，使用确定的压缩比为每个特定HCFL的编码器和解码器训练不同的神经网络模型，然后将它们嵌入到推荐的FL模型中。图8显示了在HCFL压缩机上具有不同压缩比设置的客户的预测精度。测试准确度是通过测试集中预测标签与原始标签匹配的数据百分比来计算的。从图中可以看出，由于HCFL压缩机在使用LeNet-5作为预测模型处理MNIST数据集时生成的数据的内部误差，在分布式训练开始时，HCFL的准确性相对较低。然而，仅在六到七个通信轮次后，HCFL集成FL的表现就可以达到收敛。此外，虽然在压缩率为16和32时，全局精度降低，但在压缩率1:32时，98%的测试精度处于可接受的阈值。或者，这种下降可能归因于以下事实：数据的表示从原始信息中消失得越多，HCFL辅助物联网系统就越容易出错。
在这里插入图片描述
在处理EMNIST的5-CNN等复杂度较高的模型时，应用到数据集分割技术。HCFL在所提出模型上的性能如图9所示。从图中可以看出，由于客户的完整EMNIST数据集的随机洗牌和分割以及客户预测模型的随机启动，所有五种情况的测试精度都显示了HCFL训练初始阶段的高波动和不同的收敛速度。然而，无论提议的压缩比如何，HCFL系统都可以在少于100次通信循环后收敛。据信，由于第五节中提出的模型参数熵的降低，不同压缩方案在长期内可以获得高性能。

C.参与客户数量对全局收敛的贡献
评估了参与客户端数量对易出错压缩数据收敛的影响。HCFL压缩应用于FL，客户数量不同。在MNIST和EMNIST上对它们进行了评估。HCFL辅助FL在MNIST和EMNIST上获得的结果分别如图10a和图10b所示。一般而言，研究表明，FL模型中HCFL压缩功能的性能可以在不同数量的客户参与FL模型的情况下达到预期的效率。然而，客户端的数量越大，系统就越快收敛到全局极值。因此，在大量客户使用HCFL的情况下，预测准确度可以快速实现高性能，因此通过沟通，准确度将更加稳定。例如，对于设置K＝100，在MNIST数据集上的LeNet-5模型的测试精度在具有低标准差（小于1%）的少于20次通信循环后达到99%。相比之下，在80次通信循环之后，具有少量指定客户端（K＝10）的系统具有相对较高的精度标准偏差（超过3%）。
在这里插入图片描述
特别是，客户端上使用的不同深度网络模型对整个HCFL有明显影响。例如，具有EMNIST数据集的复杂模型5-CNN显示出比MNIST数据集的上述评估更显著的结果。对于具有100个客户端的系统，与10个客户端系统相比，测试精度更高，方差显著更低。通常，在预定数量的训练回合中，客户端的数量影响FL过程的准确性和收敛速度。随着每轮参与FL过程的客户越来越多，模型的绝对精度和训练速度受到的不利影响也越来越小。然而，一旦K提高到特定水平，系统性能的提高将不太值得注意，有时候它甚至开始降级。当将FL过程付诸实践时，我们可能会遇到这样的困难：随着K的扩展，越来越多的客户端将其本地参数更新到服务器。因此，FL模型的通信和计算成本显著增加。幸运的是，正如我们在图10a和图10b中的模拟结果中看到的，当K增加时，始终存在性能饱和的上限。这是令人鼓舞的，因为在具有大量客户端的真实应用程序中，我们只需要从网络中选择一组客户端，即可在每个通信轮中执行FL过程。该过程为FL过程节省了大量的通信成本。
在这里插入图片描述
D.分布式模型超参数对全局收敛的贡献
研究了压缩重建误差对不同FL处理设置的影响。考虑两个客户端模型的超参数：Epoch和batch size。从Epoch分析的角度来看，随着在每个通信轮对每个选定客户端进行历元训练的数量增加，系统可以在每个轮之后实现显著更好的测试精度（图11a）和损失（图11b）。更具体的说，系统在设置epoch为20时可以在几轮通信后收敛。同时，具有最小训练时间设置的系统在86%左右的精度和0.4的损失下达到饱和。时间段的数量影响模型在整个训练数据集中完成训练的迭代次数。因此，当我们用更多的时间段训练模型时，预测器可以获得更好的性能。然而，当纪元的数量变得太大时，系统可能会遭受过度拟合和极端的计算负担。在这项工作中，我们使用五个时期来平衡系统计算和系统性能之间的权衡，因为该设置的收敛性接近于前面提到的高时期设置的能力。
在这里插入图片描述
在以下分析中，考虑了batch size。如从图12a和图12b中观察到的，当应用小批量时，HCF降解FL可以获得更好的性能。测试损失反映了在客户端上收集的数据的原始标签和预测标签之间的分类交叉熵。最大batch size在300轮通信后（分别为60%和1轮以上）后，精度低且损失几乎无法达到预期效率。可以观察到，batch size的设置可以对每个客户端的计算负载做出很大贡献。减小batch size帮助网络训练得更快且使用mini-batches要求更少的内存。此外，当应用较小的batch size时，权重更新比使用较大batch size时具有更大的差异。该噪声可以作为权重更新中的规则化效果，使FL以更好的性能运行。
在这里插入图片描述

相关推荐