讯享网
例如,考虑预测一个人是否会患心脏病的任务,可以产生良好影响的最强指标之一就是体重指数 (BMI)。当我们试图预测一个人可能患有的血压 (BP) 水平时,没有考虑这个特征并且没有在我们的数据集中使用它,通常会导致结果不太准确。在这种情况下,BMI 可以强烈表明一个人患有这些疾病。因此,考虑这个特征很重要,因为它会对结果产生很大的影响。
考虑另一个预测某人是否会拖欠贷款的案例研究。在向某人提供贷款之前,所考虑的银行会询问一系列问题,例如工资、净资产和他们的信用记录。如果我们要让一个人根据上述一系列因素来决定是否必须向某人提供贷款,他/她会查看总工资和他们的整体信用记录。
同样,当数据以与人类相同的方式提供给 ML 模型时,它会学会获得重要的表示,以便它决定一个人是否会偿还贷款。如果我们删除诸如工资之类的特征,ML 模型将缺少关键信息,无法完美地解读一个人是否会偿还贷款。因此,它的预测可能会非常错误,因为数据中缺少最重要的特征之一(工资)。因此,这凸显了拥有正确的特征对于我们的机器学习和深度学习模型在测试集和实时数据上表现良好的重要性。
这是我们在数据中填充缺失值的一种方法。我们在互联网上找到了大量数据集,例如包含几乎所有特征和标签而没有异常或缺失数据的玩具数据集。然而,这在现实生活中可能远非如此,因为大多数现实世界数据都包含缺失值。因此,必须采取特定步骤来确保以某种方式填充缺失的值。
如果我们要预测一个人是否会拖欠贷款,我们会将薪水作为我们机器学习模型的重要特征之一。但是,所有参与者的薪水信息可能不存在于我们的数据中。因此,最好的方法之一是分别用整个薪资特征的平均值来估算或填充这些缺失值。
以用于确定房价的特征为例。在这种情况下,特征可能是卧室数量和利率。我们无法比较这两个特征,因为卧室数量以单位为单位,而利率以美元 (\() 为单位。如果我们将这些数据提供给我们的 ML 模型,它只会理解美元比卧室数量特征高出很多单位。然而,正如我们上面所看到的,这远非事实。因此,在将特征提供给模型进行预测之前,执行特征的缩放操作非常重要。</span></p><p style="outline: 0px;font-family: "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);"><br style="outline: 0px;" /></p><section style="outline: 0px;font-family: "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);"><strong style="outline: 0px;"><span style="outline: 0px;letter-spacing: 0.5px;">归一化</span></strong></section><section style="margin: 16px 8px;outline: 0px;font-family: "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);line-height: 1.75em;"><span style="outline: 0px;font-size: 15px;letter-spacing: 0.5px;">这是我们执行缩放操作的一种方式,在转换数据中的其他值之前,先对所考虑的各个特征取最大值和最小值。我们确保特征的最小值为 0,最大值为 1。这将确保我们能够使用模型产生**结果并获得良好的预测。</span></section><section style="margin-right: 8px;margin-left: 8px;outline: 0px;font-family: "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);line-height: 1.75em;"><span style="outline: 0px;font-size: 15px;letter-spacing: 0.5px;">以客户是否会流失(离开)或继续使用互联网服务为例,月费和使用期限等特征是一些重要特征。月费可以以美元 (\)) 为单位,而使用期限可以以年或月为单位。由于它们的规模不同,因此规范化在这种情况下非常方便,并确保我们获得**的模型预测。
在预测汽车价格时,我们会分别考虑气缸数和里程数等特征。由于这两个特征的尺度不同,我们必须执行标准化,以便在给出预测模型之前,我们可以在特征之间找到共同点。
考虑到一个人是否会拖欠贷款,可能会有关于此人工资的信息。薪资信息可能并不总是准确的,并且这个特征中可能存在相当多的异常值。使用这些数据训练我们的 ML 模型通常会导致它在测试集或未见过的数据上表现不佳。因此,最好的方法是在将数据提供给 ML 模型之前从数据中删除异常值。这可以通过了解薪资的标准差来实现,并且高于或低于 3 个标准差的值会自动被删除,以便模型做出可靠的预测。
当我们发现数据中存在严重偏差时,可以使用这种技术。如果存在大量偏差,即数据包含大量集中在特定区域的值,而一些异常值和数据点远离平均值,则我们的模型更有可能无法理解这种复杂的关系。
与上述预测一个人是否会拖欠贷款的问题类似,我们也可以将对数变换应用于工资,因为我们看到工资信息中普遍存在很多偏差。大量人(约 80%)获得基本工资,而一小部分人(约 20%)获得大量工资。数据中存在相当大的偏差,实际上可以通过使用对数变换来消除。
关注公众号了解更多

会员申请 请在公众号内回复“个人会员”或“单位会员
欢迎关注中国指挥与控制学会媒体矩阵
CICC官方网站
CICC官方微信公众号
《指挥与控制学报》官网
国际无人系统大会官网
中国指挥控制大会官网
全国兵棋推演大赛
全国空中智能博弈大赛
搜狐号
一点号
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/164936.html