2025年大数据自学路线(大数据 自学)

大数据自学路线(大数据 自学)svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。



 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> <h5>大数据</h5> 

讯享网
  • 大数据学习路线
    • 1.Java基础——主要部分是JavaSE
        • 1.1 Java初级
          • 1.2 Java高级
          • 1.3 其余常见基础…
      • 2.Linux基础——主要指的是Linux基本命令操作
      • 3.Hadoop生态学习(体系结构、原理、编程)
        • 3.1第一阶段
          • 3.2第二阶段
          • 3.3第三阶段
      • 4.Spark生态学习
        • 4.1第一阶段
          • 4.2第二阶段
          • 4.3第三阶段
          • 4.4第四个阶段
      • 5.Storm学习——实时计算
      • 6.其他学习
        • 6.1 Kafka
          • 6.2 机器学习算法
          • 6.3 大型网站高并发处理
          • 6.4 Lucene基础
          • 6.5 Solr基础
          • 6.6 Federation
      • 7.总结
      • 8.其他方向
      • 9.项目案例

大数据的本质:两个

  1. 大数据的存储——分布式文件存储
  2. 大数据的计算——分布式计算

大数据核心框架:两个

  1. Hadoop——基于Java语言开发
  2. Spark——基于Scala语言开发,Scala语言基于Java语言。Spark支持Java语言,但使用Scala语言更优。

1.Java基础——主要部分是JavaSE

1.1 Java初级
  1. 基本语法
  2. 封装
  3. 继承
  4. 多态
讯享网

1.2 Java高级
  1. Java多线程基本知识
  2. Java同步关键词详解
  3. java并发包线程池及在开源软件中的应用
  4. Java并发包消息队里及在开源软件中的应用
  5. Java JMS技术
  6. Java动态代理反射
  7. I/O流
  8. 泛型
1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

  1. Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
  2. Linux的常用命令:常用命令的介绍、常用命令的使用和练习:包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
  3. Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;
  4. Linux启动流程,运行级别详解,chkconfig详解
  5. VI、VIM编辑器:VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
  6. Linux磁盘管理,lvm逻辑卷,nfs详解
  7. Linux系统文件权限管理:文件权限介绍、文件权限的操作
  8. Linux的RPM软件包管理:RPM包的介绍、RPM安装、卸载等操作
  9. yum命令,yum源搭建
  10. Linux网络:Linux网络的介绍、Linux网络的配置和维护 防火墙配置
  11. Shell编程:Shell的介绍、Shell脚本的编写
  12. Linux上常见软件的安装:安装JDK、安装Tomcat、安装mysql,web项目部署
  13. linux高级文本处理命令cut、sed、awklinux
  14. 定时任务crontab
  15. 其余常见操作…

注:目录,在Linux系统中常称为目录,在Windows系统中常称为文件夹,不同称谓同样的性质。

3.Hadoop生态学习(体系结构、原理、编程)

3.1第一阶段

这一阶段是本节的核心,即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。

Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对大量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。

有一个基于Hadoop的数据挖掘库——Mahout。

 
3.2第二阶段

数据分析引擎——Hive(数据仓库工具,不是数据库工具。数据仓库是逻辑上的概念,底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin)


讯享网

数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具,主要用于在Hive数据库与关系型数据库间进行数据的传递,可将关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)

注:关系型数据库包括,MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。

讯享网
 
讯享网
3.3第三阶段

实现Hadoop的HA(HA是High availability的缩写,即高可用,7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架,管理分布式环境中的数据。简要来说,Zookeeper = 文件系统 + 监听通知机制。)

 

Web管理工具——Hue(Hue是大数据分析交互平台,是大数据web管理器,是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI,Hue Server,Hue DB。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。)

工作流引擎——Oozie(Oozie,能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)

注1:Hadoop-HA严格来说应该分成各个组件的HA机制——HDFSHAYARNHA

注2:大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。

4.Spark生态学习

讯享网
4.1第一阶段

Scala编程

1.Scala是一门多范式(Multi-paradigm)的编程语言,类似Java编程语言,设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。

2.Scala是运行在Java虚拟机上的,并兼容现有Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。

3.可应用于后端开发,表达能力较强,擅长处理数据,长期运行且吞吐量较大的场景。

 
4.2第二阶段

Spark Core——基于内存的数据计算,替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算,其计算速度较慢、时效性较差。

4.3第三阶段

Spark SQL——类似于Oracle的SQL语句

4.4第四个阶段

Spark Streaming——进行实时计算(流式计算),典型流式计算的生活场景是自来水厂。

讯享网

小讯
上一篇 2025-04-26 10:09
下一篇 2025-05-22 16:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/195980.html