Apache Druid入门

Druid介绍

Apache Druid是一个实时分析型数据库，旨在对大型数据集进行快速的查询分析（”OLAP”查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景，同时，Druid也通常被用来助力分析型应用的图形化界面，或者当做需要快速聚合的高并发后端API，Druid最适合应用于面向事件类型的数据。

Druid通常应用于以下场景：

点击流分析（Web端和移动端）
网络监测分析（网络性能监控）
服务指标存储
供应链分析（制造类指标）
应用性能指标分析
数字广告分析
商务智能 / OLAP

Druid的核心架构吸收和结合了数据仓库、时序数据库以及检索系统)的优势，其主要特征如下：

列式存储，Druid使用列式存储，这意味着在一个特定的数据查询中它只需要查询特定的列，这样极地提高了部分列查询场景的性能。另外，每一列数据都针对特定数据类型做了优化存储，从而支持快速的扫描和聚合。
可扩展的分布式系统，Druid通常部署在数十到数百台服务器的集群中，并且可以提供每秒数百万条记录的接收速率，数万亿条记录的保留存储以及亚秒级到几秒的查询延迟。
大规模并行处理，Druid可以在整个集群中并行处理查询。
实时或批量摄取，Druid可以实时（已经被摄取的数据可立即用于查询）或批量摄取数据。
自修复、自平衡、易于操作，作为集群运维操作人员，要伸缩集群只需添加或删除服务，集群就会在后台自动重新平衡自身，而不会造成任何停机。如果任何一台Druid服务器发生故障，系统将自动绕过损坏。 Druid设计为7*24全天候运行，无需出于任何原因而导致计划内停机，包括配置更改和软件更新。
不会丢失数据的云原生容错架构，一旦Druid摄取了数据，副本就安全地存储在深度存储介质（通常是云存储，HDFS或共享文件系统）中。即使某个Druid服务发生故障，也可以从深度存储中恢复您的数据。对于仅影响少数Druid服务的有限故障，副本可确保在系统恢复时仍然可以进行查询。
用于快速过滤的索引，Druid使用CONCISE或Roaring压缩的位图索引来创建索引，以支持快速过滤和跨多列搜索。
基于时间的分区，Druid首先按时间对数据进行分区，另外同时可以根据其他字段进行分区。这意味着基于时间的查询将仅访问与查询时间范围匹配的分区，这将大大提高基于时间的数据的性能。
近似算法，Druid应用了近似count-distinct，近似排序以及近似直方图和分位数计算的算法。这些算法占用有限的内存使用量，通常比精确计算要快得多。对于精度要求比速度更重要的场景，Druid还提供了精确count-distinct和精确排序。
摄取时自动汇总聚合，Druid支持在数据摄取阶段可选地进行数据汇总，这种汇总会部分预先聚合您的数据，并可以节省大量成本并提高性能。

应用场景

数据插入频率比较高，但较少更新数据
大多数查询场景为聚合查询和分组查询（GroupBy），同时还有一定得检索与扫描查询
将数据查询延迟目标定位100毫秒到几秒钟之间
数据具有时间属性（Druid针对时间做了优化和设计）
在多表场景下，每次查询仅命中一个大的分布式表，查询又可能命中多个较小的lookup表
场景中包含高基维度数据列（例如URL，用户ID等），并且需要对其进行快速计数和排序
需要从Kafka、HDFS、对象存储（如Amazon S3）中加载数据

预备条件

Java 8(8u92+)
Linux, Mac OS X, 或者其他类UNIX系统（Windows不支持）

安装Druid

下载Druid最新0.22.1 release安装包

在终端中运行以下命令来提取Druid

tar -xzf apache-druid-0.22.1-bin.tar.gz
cd apache-druid-0.22.1

在安装包中有以下文件：

LICENSE和NOTICE文件
bin/* - 启停等脚本
conf/* - 用于单节点部署和集群部署的示例配置
extensions/* - Druid核心扩展
hadoop-dependencies/* - Druid Hadoop依赖
lib/* - Druid核心库和依赖
quickstart/* - 配置文件，样例数据，以及快速入门教材的其他文件

启动服务

单机

单机启动脚本：

nano-quickstart
micro-quickstart
small
medium
large
large
xlarge

启动命令：

bin/start-nano-quickstart

配置目录：

conf/druid/single-server/nano-quickstart
Nano-Quickstart: 1 CPU, 4GB 内存

集群

一个集群应具有以下特点，组织成三种服务器类型：Master、Query和Data：

Master：一个Master服务同时起Coordinator和Overlord进程，管理数据可用性和摄取
Data：两个可伸缩、容错的Data服务来运行Historical和MiddleManager进程，执行摄取负载和存储所有可查询的数据
Query：一个Query服务，运行Druid Broker和Router进程，处理来自外部客户端的请求

不同类型的进程：

Coordinator 进程管理集群中数据的可用性
Overlord 进程控制数据摄取负载的分配
Broker 进程处理来自外部客户端的查询请求
Router 进程是一个可选进程，可以将请求路由到Brokers、Coordinators和Overlords
Historical 进程存储可查询的数据
MiddleManager 进程负责摄取数据

1、启动Master服务

bin/start-cluster-master-no-zk-server

2、启动Data服务

bin/start-cluster-data-server

3、启动Query服务

bin/start-cluster-query-server

浏览器访问：

http://query节点ip:8888/

数据查询

Druid SQL是一个内置的SQL层，是Druid基于JSON的本地查询语言的替代品，它由基于 Apache Calcite 的解析器和规划器提供支持。Druid SQL将SQL转换为查询Broker(查询的第一个进程)上的原生Druid查询，然后作为原生Druid查询传递给数据进程。除了在Broker上转换SQL 的（轻微）开销之外，与原生查询相比，没有额外的性能损失。

1、按code分组返回最新值

SELECT code, LATEST(water_level) FROM "test_water_level_5"
GROUP BY code

2、时间过滤

__time >= CURRENT_TIMESTAMP - INTERVAL ‘8’ HOUR (最近8个小时)
__time >= CURRENT_TIMESTAMP - INTERVAL ‘1’ DAY (最近1天)