目的通过数据分析信息。
数据挖掘
数据分析过程越准确,决策过程就越正确。
六步骤
1.数据采集2.数据存储3.数据分析4.数据挖掘5.数据可视化化6.进行决策
1.数据采集
采集的数据称为源数据
手工记录,网络爬虫。
2.数据存储
将数据存储在数据仓库中
将数据收集到计算机中。
如将数据存储在excel,过多使用数据库
3.数据统计
有的是不是线性的。、
合适的统计方法等
4.用数据挖掘 DataMining
又称为资料勘探丶数据采矿。
计算科学有关,诸多方法。
同样的数据不同的人得到不同的结果。
(挖掘机技术哪家强还是山东找蓝翔)
5.数据可视化
维度在地图上显示
6.用统计结果进行决策。
数据与三个重大思维转变
1、、。要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;
2.我们热于接受数据的纷繁复杂,而不再追求精确性。
3.不在探求难以捉摸的因果关系而转而相关性。
尿布和啤酒。故意将需要东西放的很远。
路遥知马力,日久见人心。
微信朋友圈与人性格分析
一目了然数据可视化
R语言
为什么要学习R语言。
R语言免费。与S语言类似。基于S语言最开始做生物统计《bioconductor》包;
具有强大绘图工具。
R的缺点。
1.R软件不够规范,不容易上手,需要付出较多的努力,付出大量的学习成本。
扩展包太多了,成本高。扩展包学习比R学习还比较困难
数据存储
Getwd()获得工作目录路径默认"C:/Users/LENOVO/Documents"默认生成文件放这里
Setwd()设置工作目录setwd(dir = “C:/Users/LENOVO/Desktop/R”);注意Windows上使用的是\而R中使用的是/如果要用\则需要使用转义字符.经常与R数据在同一目录下
这样的工作目录就修改好了
list.files()可以查看目录下的软件
讯享网
如果使用当前系统命令查看则需要退出R才能查看
讯享网Dir()命令也可以完成同样的工作
变量无需进行申明变量名不能以数字开头
<-赋值符号
X<-3
X=3也可以但是在假设检验中,会出现=冲突
5->x向右赋值
X<<-5强制赋值给全局变量
Sum(1,2,3,4,5)
Mean(1,2,3,4,5)
X其实是运用print函数
ls.str()是str和ls()共同结合
str(x)可以看值
ls.str()就可以看共同信息
ls(all.names = TRUE)
all.names查看隐藏选项TRUE大写注意
rm(x)移除某个对象
不可恢复
R中提供list参数
List=ls())
用rm(list=ls())就可以删除全部对象
Home end可以快速移动光标
快捷键ctrl+L
History函数可以查看历史记录 History();
讯享网 ls(); getwd() setwd(dir = "C:/Users/LENOVO/Desktop/R") getwd() list.files() dir() 1+2 x<-3 x x=3 x 5->x x<-sum(1,2,3,4,5) x ls() ls.str() str(x) ls(all.names = TRUE) rm(x) rm(list=ls()) history() /
Save.image()可以保存工作空间
可以保存数据图形函数而不是函数
q()退出系统函数;
ctrl+enter快速执行
R有5000个包
R包的学习比R本身还复杂
安装包
install.packages(“vcd”)
.libPaths()看库的路径
library()可以显示库里面有哪些包
install.packages(c(“”,””,””))
要使用函数可以使用library()已经安装好了不需要再安装包了 也可以使用require()加载包使用包
讯享网help(package=””) data(package=””)可以查看包中拥有的数据集 detach(package:)删除包 remove.package(“”)彻底删除包
save(Rcade,file=”Rcade.rdata”)
讯享网for(i in Rcade)install.packages(i)
help(sum)也可以直接使用?包查看
讯享网args(plot) 直接查看函数的参数
example(函数) 可以直接查看函数的示例
讯享网demo()看图的好像
vignette("")可以查看文档,但不是每个包都有这种文档
??qplot
讯享网help.search(“”)模糊搜索 apropos("sum",mod="function")查找 RSitesearch("")访问官网搜索
内置数据集
就是一些数据给你用来练习
在安装时默认安装的包datasets中
help(package=“datasets”)
data()不加任何参数列出很多数据集
help(package="datasets") data() rivers rivers<-c(1,2,3) `` 将数据集river置换掉 要从新使用river data("rivers")从新加载 names(euro)看属性 state<-data.frame(state.area,state.abb) state 数据框,一列一列的组合 heatmap(volcano) 直接使用内置矩阵绘制热图 data(package="MASS")可以看包中的数据集 注意咯这里DATA可能是函数重载。 data(package=.packages(all.available = TRUE))查看R中所有可用数据集 其中的数据集可以直接使用data(“”)函数进行加载只加载数据集而不是整个R包i data(Aids2,package="MASS") Aids2 加载包中的数据集 两个加载有所不同,一个可用,一个需要加载包后才可用。 ```csharp x<-1:10 rm(list=ls()) x+1 x-3 x<-x+1 x y<-seq(1,100,length.out=10) y x+y x*y x y x**y x%%y y%/%x z<-c(1,2,3) x+z x>y c(1,2,3)%in%c(1,2,2,4,5,6) x==y x<--5:5 x abs(x) sqrt(x) sqrt(25) log(16,base=2) log(16) log10(16) exp(x) ceiling(c(-2.3,3.1415)) floor(c(-2.3,3.1415)) trunc(c(-2.3,3.1415)) round(c(-2.3,3.1415),digits = 2) signif(c(-2.3,3.1415),digits = 2) sin(x) cos(x) range(c(1:100)) var(c(1:100)) prod(c(1:100)) median(c(1:100)) quantile(c(1:100),c(0.4,0.6,0.8)) which.max(c(1:100)) which(c(1:100)==5) which(c(1:100)>5)
讯享网?array dim1<-c("A1","A2") dim2<-c("B1","B2","B3") dim3<-c("C1","C2","C3","C4") x<-array(1:24,c(2,3,4),dimnames = list(dim1,dim2,dim3)) x Titanic m<-matrix(1:20,4,5,byrow=T) m m[1,2] m[1,c(2,3,4)] m[c(2:4),c(2,3)] m[2,] m[2] m[-1,2] dimnames(m)<-list(cnames,rnames) m rnames<-c("C1","C2","C3","C4","C5") cnames<-c("R1","R2","R3","R4") m["R1","C2"] head(state.x77) state.x77[,"Income"] m+1 m+m n<-matrix(1:20,5,4) m+n t<-m[1,] t sum(t) colSums

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/33266.html