2025年梯度提升和梯度下降的区别（梯度下降与梯度上升）

大家好，我是讯享网，很高兴认识大家。

梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。

以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加法模型。
梯度下降决策树梯度提升决策树简介_机器学习
讯享网
其中，梯度下降决策树梯度提升决策树简介_GBDT_02 表示决策树，梯度下降决策树梯度提升决策树简介_提升树_03 表示树的参数，梯度下降决策树梯度提升决策树简介_GBDT_04 为树的个数。

针对不同问题的提升树算法主要区别在于损失函数的不同。对于回归问题，使用的是平方损失函数；对于分类问题，使用的是指数损失函数；对二分类问题，提升树算法只需将AdaBoost的基分类器设置为二分类树即可，此时的提升树算法是AdaBoost算法的一个特例。以下主要关注回归问题的提升树算法。

对于回归问题的提升树算法，每一步拟合的是前一步的残差，具体为什么拟合的是残差看下面推导：
梯度下降决策树梯度提升决策树简介_梯度下降决策树_05
其中梯度下降决策树梯度提升决策树简介_机器学习_06

回归问题中的提升树算法如下：

输入：训练数据集梯度下降决策树梯度提升决策树简介_梯度下降决策树_07 其中\(x_{i} in X subseteq R^{n} <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%2C%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_08'>输出：提升树 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20f_%7BM%7D(x)%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_09'><ol><li>初始化<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20f_%7B0%7D(x)%3D0%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_10'></li><li>对<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20m%3D1%2C2%20%5Ccdots%20%5Cmathrm%7BM%7D%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_11'></li></ol><ol data-indent="1"><li>计算每个数据的残差：</li></ol><img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20r_%7Bm%20i%7D%3Dy_%7Bi%7D-f_%7Bm-1%7D%5Cleft(x_%7Bi%7D%5Cright)%2C%20i%3D1%2C2%2C%20%5Cldots%20.%20N%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_12'><ol data-indent="1"><li>拟合残差学习一颗回归树，得到 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20T%5Cleft(x%20%3B%20%5Ctheta_%7Bm%7D%5Cright)%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_13'></li><li>更新 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20T%5Cleft(x%20%3B%20%5Ctheta_%7Bm%7D%5Cright)%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_13'></li></ol><ol><li>得到回归问题提升树 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20f_%7BM%7D(x)%3D%5Csum_%7Bm%3D1%7D%5E%7BM%7D%20T%5Cleft(x%20%3B%20%5Ctheta_%7Bm%7D%5Cright)%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_15'></li></ol>得到一颗提升树后，可以对输入数据进行预测。假设得到两棵树，下图给出预测过程：<img src='https://s2.51cto.com/images/blog//0_cd9daf18277.jpg?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=/resize,m_fixed,w_1184' alt='梯度下降决策树梯度提升决策树简介_GBDT_16' style="width: 871px; visibility: visible;">梯度提升的思想借鉴与梯度下降法，回顾梯度下降法，对于优化问题： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%5Cmin%20f(w)%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_17'> 使用梯度下降法求解的基本步骤：<ol><li>随机选择一个初始点 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20w_0%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_18'></li><li>重复以下过程： </li></ol><ol data-indent="1"><li>求负梯度：<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20g_%7Bi%7D%3D-%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20w%7D%20f%5Cleft.(w)%5Cright%7C_%7Bw_%7Bi%7D%7D%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_19'></li><li>选择步长 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20%5Calpha%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_20'></li><li>更新参数：<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20w_%7Bi%2B1%7D%3Dw_%7Bi%7D%2B%5Calpha%20*%20g_%7Bi%7D%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_21'></li></ol><ol start="3"><li>直到满足终止条件</li></ol>由以上过程可以看出，对于最终的最优解<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20w%5E%7B*%7D%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_22'>，是由初始值 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20w_0%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_23'> 经过M次迭代后得到的。设 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20w_0%20%3D%20d_0%20' alt='梯度下降决策树梯度提升决策树简介_提升树_24'>，则 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20w%5E%7B*%7D%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_22'> 为： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20w%5E%7B*%7D%3D%5Csum_%7Bi%3D0%7D%5E%7BM%7D%20%5Calpha_%7Bi%7D%20*%20g_%7Bi%7D%20' alt='梯度下降决策树梯度提升决策树简介_提升树_26'> 在函数空间中，我们也可以借鉴梯度下降的思想，进行最优函数的搜索。关键是利用损失函数的负梯度在当前模型的值 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20-%5Cleft%5B%5Cfrac%7B%5Cpartial%20L(y%2C%20F(X))%7D%7B%5Cpartial%20F(X)%7D%5Cright%5D_%7BF(X)%3DF_%7Bm-1%7D(X)%7D%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_27'> 作为回归问题提升树算法中的残差的近似值，拟合一个回归树。对于模型的损失函数<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20L(y%2C%20F(X))%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_28'>，为了能够求解出最优的函数<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20F%5E%7B*%7D(X)%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_29'>，首先设置初始值为： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20F_%7B0%7D(X)%3Df_%7B0%7D(x)%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_30'> 以函数 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20F(X)%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_31'> 为一个整体，与梯度下降法的更新过程一致，假设经过M代，得到最优的函数<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20F%5E%7B*%7D(X)%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_29'>为： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20F%5E%7B*%7D(X)%3D%5Csum_%7Bi%3D0%7D%5E%7BM%7D%20f_%7Bi%7D(x)%20' alt='梯度下降决策树梯度提升决策树简介_提升树_33'> 其中<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20f_%7Bi%7D(x)%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_34'> 为： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20f_%7Bi%7D(x)%3D-%5Calpha_%7Bi%7D%20g_%7Bi%7D(X)%3D-%5Calpha_%7Bi%7D%20*%5Cleft%5B%5Cfrac%7B%5Cpartial%20L(y%2C%20F(X))%7D%7B%5Cpartial%20F(X)%7D%5Cright%5D_%7BF(X)%3DF_%7Bm-1%7D(X)%7D%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_35'> 可以看到这里梯度变量是一个函数，是在函数空间上求解；而以往的梯度下降是在N维的参数空间负梯度方向，变量是参数。在梯度提升中，这里变量是函数，通过当前函数的负梯度方向更新函数以修正模型，最后累加的模型近似最优函数。<blockquote style="margin-top: 5px; margin-bottom: 5px; padding-left: 1em; margin-left: 0px; border-left: 3px solid rgb(238, 238, 238); opacity: 0.6;">GBDT的负梯度为什么近似于提升树的残差</blockquote>对于损失函数 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20L%5Cleft(y%2C%20f_%7Bm-1%7D%2BT%5Cleft(x_%7Bi%7D%20%3B%20%5CTheta_%7Bm%7D%5Cright)%5Cright)%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_36'> ，我们将 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20f(x)%20' alt='梯度下降决策树梯度提升决策树简介_机器学习_37'> 而不是 <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Ctheta%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_38'> 作为自变量。根据梯度下降定义，可以得到损失函数参数的更新公式： <img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20f_%7Bm%7D%3Df_%7Bm-1%7D-%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20f%7D%20' alt='梯度下降决策树梯度提升决策树简介_GBDT_39'> 同时提升树的定义为：<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20f_%7Bm%7D%3Df_%7Bm-1%7D%2BT%5Cleft(x_%7Bi%7D%20%3B%20%5CTheta_%7Bm%7D%5Cright)%20' alt='梯度下降决策树梯度提升决策树简介_梯度提升_40'>，决策树拟合的值等于负梯度，为残差。了解了GBDT的两个部分（提升树和梯度提升）后，我们以回归树为例，基模型为CART回归树，得到GBDT的实现思路如下输入：训练数据集<img src='https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20T%3D%5Cleft%5C%7B%5Cleft(x_%7B1%7D%2C%20y_%7B1%7D%5Cright)%2C%5Cleft(x_%7B2%7D%2C%20y_%7B2%7D%5Cright)%2C%20%5Cldots%20.%2C%5Cleft(x_%7BN%7D%2C%20y_%7BN%7D%5Cright)%5Cright%5C%7D%20' alt='梯度下降决策树梯度提升决策树简介_梯度下降决策树_07'>，其中其中\)x_{i} in X subseteq R^{n} 梯度下降决策树梯度提升决策树简介_梯度下降决策树_08