<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <h5>大数据</h5>
讯享网
- 大数据学习路线
-
- 1.Java基础——主要部分是JavaSE
-
- 1.1 Java初级
- 1.2 Java高级
- 1.3 其余常见基础…
- 1.1 Java初级
- 2.Linux基础——主要指的是Linux基本命令操作
- 3.Hadoop生态学习(体系结构、原理、编程)
-
- 3.1第一阶段
- 3.2第二阶段
- 3.3第三阶段
- 3.1第一阶段
- 4.Spark生态学习
-
- 4.1第一阶段
- 4.2第二阶段
- 4.3第三阶段
- 4.4第四个阶段
- 4.1第一阶段
- 5.Storm学习——实时计算
- 6.其他学习
-
- 6.1 Kafka
- 6.2 机器学习算法
- 6.3 大型网站高并发处理
- 6.4 Lucene基础
- 6.5 Solr基础
- 6.6 Federation
- 6.1 Kafka
- 7.总结
- 8.其他方向
- 9.项目案例
-
- 1.Java基础——主要部分是JavaSE
大数据的本质:两个
- 大数据的存储——分布式文件存储
- 大数据的计算——分布式计算
大数据核心框架:两个
- Hadoop——基于Java语言开发
- Spark——基于Scala语言开发,Scala语言基于Java语言。Spark支持Java语言,但使用Scala语言更优。
1.Java基础——主要部分是JavaSE
1.1 Java初级
- 基本语法
- 类
- 封装
- 继承
- 多态
讯享网
1.2 Java高级
- Java多线程基本知识
- Java同步关键词详解
- java并发包线程池及在开源软件中的应用
- Java并发包消息队里及在开源软件中的应用
- Java JMS技术
- Java动态代理反射
- I/O流
- 泛型
1.3 其余常见基础…
2.Linux基础——主要指的是Linux基本命令操作
- Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
- Linux的常用命令:常用命令的介绍、常用命令的使用和练习:包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
- Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
- Linux启动流程,运行级别详解,chkconfig详解
- VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
- Linux磁盘管理,lvm逻辑卷,nfs详解
- Linux系统文件权限管理:文件权限介绍、文件权限的操作
- Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
- yum命令,yum源搭建
- Linux网络:Linux网络的介绍、Linux网络的配置和维护 防火墙配置
- Shell编程:Shell的介绍、Shell脚本的编写
- Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
- linux高级文本处理命令cut、sed、awklinux
- 定时任务crontab
- 其余常见操作…
注:目录,在Linux系统中常称为目录,在Windows系统中常称为文件夹,不同称谓同样的性质。
3.Hadoop生态学习(体系结构、原理、编程)
3.1第一阶段
这一阶段是本节的核心,即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。
Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。
有一个基于Hadoop的数据挖掘库——Mahout。
3.2第二阶段
数据分析引擎——Hive(数据仓库工具,不是数据库工具。数据仓库是逻辑上的概念,底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin)
数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具,主要用于在Hive数据库与关系型数据库间进行数据的传递,可将关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)
注:关系型数据库包括,MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。
讯享网
讯享网
3.3第三阶段
实现Hadoop的HA(HA是High availability的缩写,即高可用,7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架,管理分布式环境中的数据。简要来说,Zookeeper = 文件系统 + 监听通知机制。)
Web管理工具——Hue(Hue是大数据分析交互平台,是大数据web管理器,是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI,Hue Server,Hue DB。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。)
工作流引擎——Oozie(Oozie,能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)
注1:Hadoop-HA严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA
注2:大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。
4.Spark生态学习
讯享网
4.1第一阶段
Scala编程
1.Scala是一门多范式(Multi-paradigm)的编程语言,类似Java编程语言,设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。
2.Scala是运行在Java虚拟机上的,并兼容现有Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。
3.可应用于后端开发,表达能力较强,擅长处理数据,长期运行且吞吐量较大的场景。
4.2第二阶段
Spark Core——基于内存的数据计算,替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算,其计算速度较慢、时效性较差。
4.3第三阶段
Spark SQL——类似于Oracle的SQL语句
4.4第四个阶段
Spark Streaming——进行实时计算(流式计算),典型流式计算的生活场景是自来水厂。
讯享网


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/195980.html