2025年大数据自学路线（大数据自学）

大家好，我是讯享网，很高兴认识大家。

 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <h5>大数据</h5>

讯享网

大数据学习路线
- 1.Java基础——主要部分是JavaSE
  - - 1.1 Java初级
      - 1.2 Java高级
      - 1.3 其余常见基础…
  - 2.Linux基础——主要指的是Linux基本命令操作
  - 3.Hadoop生态学习（体系结构、原理、编程）
  - - 3.1第一阶段
      - 3.2第二阶段
      - 3.3第三阶段
  - 4.Spark生态学习
  - - 4.1第一阶段
      - 4.2第二阶段
      - 4.3第三阶段
      - 4.4第四个阶段
  - 5.Storm学习——实时计算
  - 6.其他学习
  - - 6.1 Kafka
      - 6.2 机器学习算法
      - 6.3 大型网站高并发处理
      - 6.4 Lucene基础
      - 6.5 Solr基础
      - 6.6 Federation
  - 7.总结
  - 8.其他方向
  - 9.项目案例

大数据的本质：两个

大数据的存储——分布式文件存储

大数据的计算——分布式计算

大数据核心框架：两个

Hadoop——基于Java语言开发

Spark——基于Scala语言开发，Scala语言基于Java语言。Spark支持Java语言，但使用Scala语言更优。

1.Java基础——主要部分是JavaSE

1.1 Java初级

基本语法

类

封装

继承

多态

讯享网

1.2 Java高级

Java多线程基本知识

Java同步关键词详解

java并发包线程池及在开源软件中的应用

Java并发包消息队里及在开源软件中的应用

Java JMS技术

Java动态代理反射

I/O流

泛型

1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
Linux的常用命令：常用命令的介绍、常用命令的使用和练习：包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用；
Linux启动流程，运行级别详解，chkconfig详解
VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
Linux磁盘管理，lvm逻辑卷，nfs详解
Linux系统文件权限管理：文件权限介绍、文件权限的操作
Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作
yum命令，yum源搭建
Linux网络：Linux网络的介绍、Linux网络的配置和维护防火墙配置
Shell编程：Shell的介绍、Shell脚本的编写
Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署
linux高级文本处理命令cut、sed、awklinux
定时任务crontab
其余常见操作…

注：目录，在Linux系统中常称为目录，在Windows系统中常称为文件夹，不同称谓同样的性质。

3.Hadoop生态学习（体系结构、原理、编程）

3.1第一阶段

这一阶段是本节的核心，即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。

Hadoop是一个对海量数据进行处理的分布式系统架构，可以理解为Hadoop就是一个对大量的数据进行分析的工具，和其他组件搭配使用，来完成对大量数据的收集、存储和计算。

有一个基于Hadoop的数据挖掘库——Mahout。

3.2第二阶段

数据分析引擎——Hive(数据仓库工具，不是数据库工具。数据仓库是逻辑上的概念，底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin)

讯享网

数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具，主要用于在Hive数据库与关系型数据库间进行数据的传递，可将关系型数据库中的数据导入Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)

注：关系型数据库包括，MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。

讯享网

讯享网

3.3第三阶段

实现Hadoop的HA(HA是High availability的缩写，即高可用，7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架，管理分布式环境中的数据。简要来说，Zookeeper = 文件系统 + 监听通知机制。)

Web管理工具——Hue(Hue是大数据分析交互平台，是大数据web管理器，是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI，Hue Server，Hue DB。Hue程序被整合到一个类似桌面的环境，以web程序的形式发布，对于单独的用户来说不需要额外的安装。)

工作流引擎——Oozie(Oozie，能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)

注1：Hadoop-HA严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA

注2：大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。

4.Spark生态学习

讯享网

4.1第一阶段

Scala编程

1.Scala是一门多范式(Multi-paradigm)的编程语言，类似Java编程语言，设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。

2.Scala是运行在Java虚拟机上的，并兼容现有Java程序。Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。

3.可应用于后端开发，表达能力较强，擅长处理数据，长期运行且吞吐量较大的场景。

4.2第二阶段

Spark Core——基于内存的数据计算，替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算，其计算速度较慢、时效性较差。

4.3第三阶段

Spark SQL——类似于Oracle的SQL语句

4.4第四个阶段

Spark Streaming——进行实时计算（流式计算），典型流式计算的生活场景是自来水厂。

讯享网

2025年大数据自学路线（大数据 自学）

1.Java基础——主要部分是JavaSE

1.1 Java初级

1.2 Java高级

1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

3.Hadoop生态学习（体系结构、原理、编程）

3.1第一阶段

3.2第二阶段

3.3第三阶段

4.Spark生态学习

4.1第一阶段

4.2第二阶段

4.3第三阶段

4.4第四个阶段

相关推荐

2025年大数据自学路线（大数据自学）