2024年最新【吴恩达机器学习笔记】八、应用机器学习的建议_吴机器学习，2024年最新【干货】

大家好，我是讯享网，很高兴认识大家。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

✍个人博客：https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343
📣专栏定位：为学习吴恩达机器学习视频的同学提供的随堂笔记。
📚专栏简介：在这个专栏，我将整理吴恩达机器学习视频的所有内容的笔记，方便大家参考学习。
💡专栏地址：https://blog.csdn.net/Newin2020/article/details/
📝视频地址：吴恩达机器学习系列课程
❤️如果有收获的话，欢迎点赞👍收藏📁，您的支持就是我创作的最大动力💪

八、应用机器学习的建议

1. 决定下一步要做什么

假如你现在想用一个常规的线性回归算法去预测房屋的价格，但是你发现预测的结果与实际结果偏差很大，那么你可以考虑下面的这几点：

尝试获得更多的数据集去训练模型。
尝试减少的特征值，有时可能会因为过拟合导致结果不精确。
尝试增加的特征值，有时可能项目太大，但是特征值太少。
尝试增加多项式特征（x12,x22,x1x2等）。
尝试增加λ值。
尝试减小λ值。

当然，有时候你可能做完了项目才发现某些算法并不理想，所以后面的内容将介绍该如何排除一些不适合的算法，并且告诉你上面这些方法可以用来解决哪些问题。

2. 评估假设函数

这节课，我们来讲讲该如何去评估你的假设函数，因为有时候误差很小并不是一件好事，可能是过拟合了，当特征量特别多的时候，就很难通过画图去评估假设函数，所以要用到接下来要讲的方法。

在这里插入图片描述

首先，对于数据集的处理，我们可以分为两个部分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rn0PTBOg-1669855788009)(吴恩达机器学习.assets/image-20211111205202002.png)]

一部分为训练集，一部分为测试集，而我们通常将训练集和测试集按照7:3的比例进行划分，这里要注意，所划分的数据集要是随机的。

训练和测试线性回归的步骤：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3sGhmeEb-1669855788011)(吴恩达机器学习.assets/image-20211111205653269.png)]

将70％的数据集拿去训练，然后计算出最小的训练误差，得到θ值。
计算测试误差。

训练和测试逻辑回归的步骤：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ybvD3KBz-1669855788012)(吴恩达机器学习.assets/image-20211111210207405.png)]

将70％的数据集拿去训练，然后计算出最小的训练误差，得到θ值。
计算测试误差。

还有一种度量方式是0/1错误分类度量（Misclassification error），可能更好理解一些：

当err为1时，说明分类错误即当hθ(x)≥0.5时，将y判断成了0。
当err为0时，说明此时分类正确。

3. 模型选择和训练、验证、测试集

这节课我们来看看该如何去选择一个合适的模型，首先先来回顾一下之前的模型选择步骤：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hZOU6V6Y-1669855788013)(吴恩达机器学习.assets/image-20211112113324422.png)]

我们之前是用训练集来最小化每一个模型得到θ，然后用同一个训练集来测试哪个误差最小，选出最优的那个模型，而其中出现的d代表的是多项式的阶数。我们假设上面模型中最优的是第五个即d=5，但是这个结果可能过于乐观了，因为它只是针对于训练集训练出的结果，如果放在新样本中可能效果就不会那么好了，所以接下来就要引出验证集了。