2025年数据科学复习第一章

数据科学复习第一章1 数据的定义 1 统计学 为了找出问题背后的规律而需要的 与问题 相关的变量的观测值 是对客观现象进行计量的结果 2 计算机科学 所有能输入到计算机 并被计算机程序处理 的符号总称 是用于输入电子计算机进行处理 具有一定 意义的数字 字母 符号和模拟量等的通称

大家好,我是讯享网,很高兴认识大家。

1.数据的定义
(1)统计学:为了找出问题背后的规律而需要的,与问题 相关的变量的观测值,是对客观现象进行计量的结果。
(2) 计算机科学:所有能输入到计算机,并被计算机程序处理 的符号总称,是用于输入电子计算机进行处理,具有一定 意义的数字、字母、符号和模拟量等的通称。
(3)数据科学:在一定背景下有意义的对于现实世界中的事物定性或定量的记录。

2.数据的类型
(1)依据结构分类,可分为结构化数据和非结构化数据。比如 ,数字、 字符、日期等等属于结构化数据类型,而文字、 图片、视频、音频都属于非结构化数据。
(2)依据形式分类,可分为文本数据、属性数据、声音数据、 图片数据、视频数据等等。
(3)依据来源分类,可分为观测数据和实验数据。
(4)如何分类,取决于我们想要用数据解决什么样的问题

3.DIKW模型
在这里插入图片描述
讯享网

4.大数据的定义
首先,大数据依旧是数据,或数据相关的过程,其次,大数据的规模并非一定要达到某一确切的数值, 关键在于,是否超过了实际情况下的数据存储能力和数据计算能力。

5.大数据的5V模型
(1)大量性volume (2)高速性velocity (3)多样性variety (4)真实性veracity (5)价值性value

6.大数据的5R模型
(1)相关特性Relevant (2)实时特性Real-time (3)真实特性Realistic (4)可靠特性Reliable (5)投资回报特征(Return on investment, ROI)

7.大数据的4P医疗模型
(1)预测性Predictive (2)预防性Preventive (3)个体化 Personalized (4)参与性Participatory

8.HACE定理
HACE定理将大数据描述为,始于异构(Heterogeneous),自治( Autonomous)的多源海量数据,旨在寻求探索复杂的(Complex)和 演化的(Evolving)数据关联的方法和途径。

9.什么是数据科学
数据科学并非一个全新的领域,而是起源于统计学的,为了 探索当前学术界和工业界中产生的大量数据中蕴含的信息与 知识,结合了诸如大数据,计算机科学,机器学习,数据挖 掘等新的技术和理论的一门新兴交叉学科。

10.数据科学工作流程
在这里插入图片描述

小讯
上一篇 2025-01-11 11:04
下一篇 2025-04-08 13:30

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/123751.html