druid是什么意思（druid是干嘛的）

大家好，我是讯享网，很高兴认识大家。

上节我们完成了如下的内容：

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_apache_02

进程监视MiddleManager进程，并且是Druid数据摄入的主节点，负责将提取任务分配给MiddleManagers并协调Segment发布，包括接受、拆解、分配Task，以及创建Task相关的锁，并返回Task的状态。

加载生成好的数据文件，以供数据查询。Historical Node是整个集群查询性能的核心所在，Historical会承担绝大部分的Segment查询。

Historical 进程从 Deep Storage 中下载 Segment，并响应有关这些Segment的查询请求（这些请求来自Broker进程）
Historical 进程不处理写入请求
Historical 进程采用了无共享架构设计，它知道如何去加载和删除 Segment，以及如何基于 Segment 来响应查询。即便底层的深度存储无法正常工作，Historical 进程还是能针对其已同步的 Segments，正常提供查询服务。
底层的深度存储无法正常工作，Historical进程还是能针对其已同步的 Segments，正常提供查询服务。

及时摄入实时数据，生成Segment数据文件

MiddleManager 进程是执行提交任务的工作节点，MiddleManagers将任务转发给在不同JVM中运行的Peon进程
MiddleManager、Peon、Task的对应关系是：每个Peon进程一次只能运行一个Task任务，但一个MiddleManager却可以管理多个Peon进程

接收客户端查询请求，并将这些查询转发给 Histo 和 MiddleManagers。当Brokers从这些子查询中收到结果时，它们会合并这些结果并将它们返回给调用者。

Druid的进程可以被任意部署，为了理解与部署组织方便，这些进程分为了三类：

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_clickhouse_03

为Durid集群提供以执行协调任务，如内部服务的监控，协调和领导者选举

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_clickhouse_04

2013年-2018年

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_大数据_05

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_hdfs_06

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_大数据_07

Lambda架构包含三层：BatchLayer、SpeedLayer、Serving Layer

BatchLayer：批处理层，对离线的历史数据进行预计算，为了下游能够快速查询想要的结果，由于批处理基于完成的历史数据集，准确性可以得到保证，批处理层可以用Hadoop、Spark、Flink等框架计算。
SpeedLayer：加速处理层，处理实时的增量数据，这一层重点在于低延迟，加速层的数据不如批处理层那样完整和准确，但是可以填补批处理高延迟导致的数据空白。加速层可以使用Storm、Spark Streaming和Flink等框架计算。
ServingLayer：合并层，将历史数据、实时数据合并在一起，输出到数据库或者其他介质，供下游分析

大数据-154 Apache Druid 架构与原理详解基础架构、架构演进_hdfs_08

Raw Data - Kafka - Streaming Processor（Optional 实时ETL）- Kafka（Optional）- Druid - Application/User

Raw data - Kafka（Optional） - HDFS - ETL Process（Optional）- Druid - Application/User