sigmoid算法（siddon算法）

大家好，我是讯享网，很高兴认识大家。

 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <p></p>

讯享网

机器学习算法很多,今天和大家聊一个很强悍的算法- 集成学习算法,基本上是处理复杂问题的首选.话不多说,直奔主题.

讯享网

2.1思想

Bagging（Bootstrap Aggregating）又称装袋法 是一种 并行训练 多个模型的方法，使用 Bootstrap方法，即：通过有放回的对训练数据集进行随机采样得到多个数据子集，每个子集的大小与原始数据集相同。并在每个子集上训练一个独立的模型，结合这些模型的预测结果来减少方差（即：模型的波动性），最后通过 投票或平均 的方法作为最终结果.

可以处理回归问题也可处理分类问题,才用不同的评估方式:

2.2代表算法

随机森林:一种通过样本和特征随机化构建多棵决策树并集成它们结果的集成学习方法。在训练过程中，随机森林对训练数据进行有放回的随机抽样（Bootstrap 采样），为每棵决策树生成不同的训练子集。同时，在每个决策树的节点分裂时，随机选择特征子集以进行**分裂，增加了模型的多样性并降低了过拟合风险。最终，分类任务通过多数投票法整合各棵树的预测结果，回归任务则通过对预测值取平均值生成最终预测。由于两种随机化的引入，随机森林在面对高维数据或噪声数据时表现稳定且具有较强的泛化能力。

2.3API

在中, 通过中的或实现:

讯享网

常用 API 参数（以和为例）：

n_estimators：默认值为 100
- 表示构建多少棵决策树。树的数量越多，模型的泛化能力通常越强，但训练时间会变长。
criterion：默认值为（分类）和（回归）
- 决定树的分裂标准。分类任务中可选择或，回归任务中可选择或。
max_depth：默认值为
- 决定决策树的最大深度。如果不设置，树会一直生长直到叶子节点中的样本数小于或叶子节点纯度足够高。
min_samples_split：默认值为 2

讯享网
- 内部节点再划分所需的最小样本数。可以控制树的生长，防止过拟合。
min_samples_leaf：默认值为 1
- 叶子节点最少包含的样本数。设置较大的值可以让模型更加保守，防止过拟合。
max_features：默认值为（分类）和（回归）
- 在每次分裂时考虑的最大特征数。分类任务中，默认使用特征数的平方根；回归任务中，默认使用全部特征。
bootstrap：默认值为
- 是否使用 Bootstrap 采样。如果设为，则使用所有样本构建每棵树。
oob_score：默认值为
- 是否使用袋外样本（Out-of-Bag samples）来估计模型的泛化误差。启用该参数可以在不使用交叉验证的情况下估计模型性能。
n_jobs：默认值为
- 并行化构建决策树的数量。可以设置为 -1 使用所有的 CPU 核心来加速训练。
random_state：默认值为
- 设置随机数种子，确保模型在每次运行时的行为一致性。

Boosting :又称提升法是一种串行训练多个模型的方法, 每次训练时, 将重点放在前一轮被错误分类的样本上, 使后续模型能够更好的纠正前面模型的错误, 从而逐步提高模型整体预测的准确性. 最后将所有模型的输出加权组合成最终的预测结果.

3.1 AdaBoost

3.1.1思想

AdaBoost（AdaptiveBoosting 自适应提升） 是一种基于加权的集成学习算法.

3.1.2API

在中, 通过中的实现

讯享网

3.2 GBDT

3.2.1思想

梯度提升决策树（GradientBoostingDecisionTree） 是一种基于 梯度残差的集成学习方法 .

3.2.2API

使用中 GBDT 的回归示例

讯享网

常用参数

在中，GBDT 由（分类）和（回归）实现。常用的超参数包括：

n_estimators：默认值为 100
- 弱学习器（决策树）的数量。增加此值会提升模型的性能，但也可能导致过拟合。
learning_rate：默认值为 0.1
- 学习率用于缩减每个弱学习器的贡献。较低的学习率需要更多的树才能达到相同的效果。
max_depth：默认值为 3
- 每棵决策树的最大深度。控制单棵树的复杂度，防止模型过拟合。
subsample：默认值为 1.0
- 每棵树构建时使用的样本比例。较低的值可以引入更多的随机性，增强模型的泛化能力。
min_samples_split：默认值为 2
- 决策树节点再分裂所需的最小样本数。较大的值可以使树更加保守，防止过拟合。
min_samples_leaf：默认值为 1
- 叶节点最少样本数。较大的值会减少模型复杂度，防止过拟合。
max_features：默认值为
- 构建每棵树时考虑的最大特征数。可以设置为 “auto”, “sqrt”, 或 “log2” 来引入随机性。
loss：默认值为
- 损失函数。分类任务中通常为 “deviance”（即逻辑损失），回归任务可选择（平方误差）或（绝对误差）。
random_state：默认值为
- 控制随机数生成，确保结果的可重复性。
warm_start：默认值为
- 是否使用之前训练的模型进行训练（增量训练）。设为可以在已有模型的基础上增加新的弱学习器。

3.3 XGBoost

3.3.1思想

XGBoost(Extreme Gradient Boosting 极限提升树) 是一种基于 梯度残差并结合正则化与并行化 的集成学习方法.

3.3.2API

使用进行分类任务的简单例子

讯享网