機器學習概論-EDA

科技前沿 • 2025-02-14 18:58 • 阅读 51

機器學習概論-EDA監督式學習流程資料前處裡 EDA 特徵工程模型選擇參數調整集成 EDA 探索式資料分析簡單來說就是將資料視覺化讓我們初步的了解資料是甚麼樣子是否有離群值或重要變數好讓我們後續能知道怎麼分析處理 EDA 裡面常用到的方法有下面一些相關係數可以用相關係數來迅速找到和預測目標最有

大家好，我是讯享网，很高兴认识大家。

監督式學習

流程

資料前處裡 → EDA → 特徵工程 → 模型選擇 → 參數調整 → 集成

EDA(探索式資料分析)

簡單來說就是將資料視覺化，讓我們初步的了解資料是甚麼樣子，是否有離群值或重要變數，好讓我們後續能知道怎麼分析處理EDA裡面常用到的方法有下面一些

相關係數

核密度函數

是一种用来估计概率密度函数的非参数方法，采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。

離散化

主要的方法

等寬劃分：按照相同寬度將資料分成幾等份。缺點是受到異異常值的影響比較⼤大。
等頻劃分：將資料分成幾等份，每等份資料裡面的個數是⼀樣的。
聚類劃分：使⽤用聚類演算法將資料聚成幾類，每⼀個類為一個劃分。

需要使用到的技巧 : pd.cut()、 pd.qcut()

常用圖形

Heatmap
常⽤用於呈現變數間的相關性
在这里插入图片描述

Gridplot
在这里插入图片描述
需要使用到的技巧 : seaborn模組

小讯

Linux系统中“rws”是什么意思-

上一篇 2025-02-27 07:27

从零开始操作系统-07：APIC

下一篇 2025-03-15 14:50

Linux系统中“rws”是什么意思- 1736035200
2025年【实例】省市县地区XLXS转化为XML格式，基于golang语言 1736035200
2025年Modbus协议学习 1736035200
35岁的程序员：第12章，林菲菲 1736035200
如何设计qPCR引物序列 1736035200
几分钟看懂ts你确定不来 1736035200
直线拟合_引力效应从直线性向曲线性的理论转变，对于引力的常见误解－－上... 1736035200
2025年松下FP7大型plc程序,一共三十多个电机，轴控制程序模块化 1736035200
2025年计算机数值转换 1736035200
从零开始操作系统-07：APIC 1736035200
JTAG 详解 1736035200
2025年初次见面，请多关照。 1736035200
2025年不懂技术，怎样制作手机电子书？ 1736035200
【机器学习的数学基础】（九）向量微积分(Vector Calculus)(上) 1736035200
2025年负压传感器如何设置_电化学气体传感器在烟气分析仪中的使用与维护 1736035200
2025年大仲村镇概况－我的家乡 1736035200
2025年Qt手动设置Kits套件 1736035200
交易基础知识 1736035200

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们，一经查实，本站将立刻删除。
如需转载请保留出处：https://51itzy.com/kjqy/66331.html