京东OLAP亿级查询高可用实践-轻识

OLAP（On-Line Analytical Processing）是联机分析处理，它主要用于支持企业决策和经营管理，是许多报表、商业智能和分析系统的底层支撑组件，支持从海量数据中快速获取数据指标。

京东OLAP的发展历经Druid、Kylin、Doris和ClickHouse，广泛服务于京东各个子集团和各类场景中，经历了数次大促的考验无事故，本文会重点以ClickHouse为主，介绍京东OLAP高可用实践情况，如业务场景和选型的考量，运维部署方案，高可用架构以及在使用过程中遇到的问题和未来改进计划。

业务场景和选型

支持交易为核心全场景

京东数据分析的场景非常多，零售集团主营业务是在线电商业务，既有电商交易数据又有用户流量数据，同时也有物流、健康、京喜等线下业务线。

1）交易数据的难点，就是业务复杂，需要关联多张表，SQL中逻辑多；另外就是数据会更新，比如交易状态和金额的变化，组织架构的变化会导致数据需要更新或删除重新导入。

2）流量数据有几个特点，一是只追加不修改；二是量大，因为包含用户的点击和浏览等各类行为数据，以及由此衍生的各种指标，比如UV计算；三是数据字段会经常变化。

3）实时大屏是618大促时常见一种数据展现形式，这种场景都是实时数据，一块大屏展现数据指标比较多并发大，涉及订单数据还需要更新，比如北京消费卷就有各种状态，可用性要求也非常高。实时写入、数据更新、高并发以及海量数据，这些条件综合在一起，对OLAP来说是一个不小的挑战。

ClickHouse为主Doris为辅双引擎选择

在大数据架构中，OLAP的上游是Spark/Flink等计算引擎，下游对接报表、分析系统或策略系统。通过实施OLAP组件，可以加快需求响应速度，简化计算过程降低IDC成本。京东大数据发展较早，大数据体系也比较成熟，陆续引入了很多OLAP组件，主流OLAP技术都正式使用过，目前形成了ClickHouse为主Doris为辅的实施策略。

Druid是实时预聚合的技术，用于计算广告领域比较多，面向广告主或内部产研的广告数据指标的计算；Kylin的技术特点是预聚合，Cube计算方式能够加快计算速度，内置存储逻辑，提供友好SQL查询接口；ElasticSearch本身基于Lucence改进，用到搜索引擎的索引技术，一般用于半结构化的数据如日志或文本分析。

如上图，选择合适的OLAP组件，需从海量、时效性、灵活性和适应性这几个层面来考虑。

海量则是指单一集群是否能够支撑百亿甚至千亿的数据分析，是否能够处理海量数据是衡量OLAP组件的一个基础指标，抛开海量去谈其他的没有意义；
时效性可以提升决策的效率，能快速迭代检验决策效果，比如是否支持分钟级或亚秒级端到端数据分析；
灵活性指能够快速响应业务需求，灵活调整指标计算方式和任意维度组合分析，而不用重新部署和预计算；
适应性指能否覆盖大部分的数据分析场景，还是只能满足特性场景，因为靠多个组件组合去满足需求会增加复杂度。

ClickHouse和Doris是分析型数据库，能够很好的满足以上四点，也非常好适应绝大部分场景，因而成为京东内部主流的OLAP引擎，他们能组成一个互补的搭配，因为ClickHouse性能强悍，扩展性好，但使用门槛和运维成本较高，在大数据量和极限场景下使用；Doris使用简单，运维也简单，适用于中小数据量业务场景。

部署运维方案

京东业务线多，数据需求旺盛，我们建立起一套小集群多租户的模式，部署多个百台左右的集群服务于大量业务；同时针对不同场景的特点定制化部署方案，比如存储量大、并发大或有大查询等不同情况。一个合理的集群规划是实施OLAP成功的关键，如果刚开始方案不合适，亦或没考虑到运维和运营成本，后面的麻烦事会接踵而来，所以我们花一些篇幅来说明这个问题。

分场景物理隔离提升利用率和可用性

如何配置集群和业务有多种方式，一个方案是部署一个超大的OLAP集群把所有业务放在一起，另一个方案是每个业务都独立部署一套集群。前者业务响应速度快，资源利用率高，但业务间互相影响，大集群运维难度大；后者完全隔离，但资源无法调配，数量庞大的集群运维投入大。因此，我们选择了分场景隔离和多租户的模式，能一定程度上兼顾业务高可用、资源利用率和运维的方便性。

离线和实时分离，因为离线大批量数据导入，消耗CPU和磁盘，会影响实时数据的写入；
报表和分析型分离，因为分析型有大查询，会占用较多资源，同时几个大查询会把CPU打满，影响其他业务；
高并发分离，因为高并发会大量占用集群CPU和内存，影响其他业务的查询和写入；低延时分离，低延时指数据需要秒级写入，势必会大量小文件写入，后台合并负担较重，影响其他业务的写入；

总体来说，就是回答是否实时、是否大查询、是否高并发等问题，如果回答“是”，则需要考虑独立一个集群来。

通过多租户和容器化提升实施效率

多租户来服务众多业务，因为集团内业务线众多，为了保证服务质量，及时响应需求，提升资源利用率，我们提供了共享集群多租户的运营方案，在一个集群中让数十个业务一起使用，每个业务分别建立一到多个账号，多个账号可以是不同的团队、产品或模块使用，为了避免资源抢占和互相影响，多账号通过配额来限制，也可以控制不同账号权限比如读、写和DDL权限，进行分级管理。我们在CH中主要通过查询量（并发数+Query次数）、查询大小（内存限制+超时时间）来控制，我们统称为用户配额。

1）查询量（并发数和Query次数）：并发数指同时执行的Query数量，设置为CPU核数的1-3倍，具体到每个账号，可以根据在线人数峰值来预估。Query次数，在CH的Quota设置中，计数窗口是可以自定义的，为了避免峰值波动以及能快速生效，我们定义的是10秒的时间窗口，10秒内的Query数量不能超过某个限制，同时我们修改了内核对读和写的Query分别统计。

2）查询大小（内存限制和超时时间）：为了避免执行时间过长的查询对集群的影响，限制查询内存大小和超时时间，单个查询内存限制为节点内存的1/4-1/2，达到超时时间的查询将会被终止。如果出现超过内存或时间的情况，需要降低查询范围以及Group By的数据量，另外看是否需要优化存储和SQL来提升单个查询的性能。

通过多租户和配额的机制，可以快速响应业务侧新申请账号或配额变更的需求，同时也对不符合最佳实践的使用进行约束，比如慢查询或穿透缓存的查询。同时这个方案对独占集群也是有效的，因为不同账号对应的模块之间也需要分别来控制。多租户方案的另一个好处在出现问题时，我们可以根据账号来缩小排查范围，快速定位问题。

通过上云让业务自主化使用，另一个支持业务方案是上云，通过K8S来部署集群，容器化的优势是标准化和资源隔离，我们通过标准化的资源搭配供用户去选择。我们自研了OLAP管控面，用户可以通过管控面申请资源，配置监控和报警以及查看查询情况。管理员也可以进行日常运维操作，集群部署、上下线、配额调整等，当集群故障时也可通过预设方案进行自愈。

机型选择：计算和存储的搭配

OLAP中既有存储又有计算，是计算和存储都密集型，资源选型和搭配合理性尤为重要。

资源类型配比要合理。不同场景资源类型的需求是不一样的。按照我们的经验，计算量大的业务，选择CPU核数多主频高的，比如分组和去重的计算；数据保留时间长的业务，磁盘空间则需要大；如果使用字典，数据需要加载到内存，则需要考虑大一点内存。一般来说CPU32核内存64-128G磁盘2-10T。

离线推荐HDD磁盘。在离线场景中，需要存储数年的数据，存储空间占用大，一般采用普通机械磁盘，数据在外部排序顺序写入，磁盘写入速度和IO都能满足要求。使用HDD磁盘时，需要坚持小批次大批量的原则，尽量降低小文件对系统的负担，采用大容量的磁盘，一个好处就是可以做一些物化视图，来提升查询性能，以空间换时间。而实时场景，我们一般选择SSD或NVME，随机写入能性能好，可以低延时高频写入小文件，能获得更低的数据延时，更低的IO繁忙率。

优先选择单机性能高。分组或去重计算，需要把全部或部分数据汇聚到少量实例中，然后在汇聚实例中计算，依赖单节点的计算性能，集群相同核数的情况下优先选择CPU核数多和主频高的，比如32核的10台和64核的5台，后者在某些场景下计算性能更优。

部署方案：支持灵活实例和副本

分片和副本数量，需要根据数据规模和并发量来确定。

如何确定分片数，计算单副本未压缩的数据量，然后除以单节点磁盘容量，除以压缩率，就是分片数。另一个计算方式是，一个分片一天写入条数为5亿条，一是兼顾了写入速度二是考虑到每个分区下的分片数据量不能过大。

如何确定副本数，通常可以按单副本100QPS来计算（和查询复杂度密切相关以实际压测为准），假如有500QPS，则需要5个副本来做负载均衡；另一个考虑是，数据的可靠性，所以我们一般推荐2副本以上，避免机器故障导致数据丢失。

流行的CH部署方是单实例的，比如5分片2副本，需要10台服务器，每台服务器部署一个节点，如果查询并发少，CPU和内存会有浪费。因此，我们采用多实例多副本的部署模式，如下图4台服务器，我们部署了4分片和2副本。

1）支持多实例：我们支持一台物理机部署1-N个实例，每个实例对应不同的网络端口和磁盘目录，单实例是多实例的一种特例。

2）支持多副本：通过配置不同的副本在不同的机器上，保证了数据可靠性，如上图，S指分片R指副本，相同分片的不同副本间互为主备。同时多副本也能充分利用多块磁盘减轻IO压力。

高可用性架构

从过往的使用经验来看，OLAP具有一定的高可用性，但是依然有一些情况会引发集群不稳定，如数据或查询不均衡、硬件故障等，我们一直在架构侧努力去弥补这些薄弱环节。

单集群的高可用

硬件故障是无法避免的，因此如何做到在硬件故障时使用上无感知是我们努力的方向。我们部署CH集群是三层结构：域名 + CHProxy + CH节点，域名转发请求到CHProxy，再由CHProxy根据集群节点状态来转发。CHProxy的引入是为了让Query均匀分布在每个节点上，自动感知集群节点的状态变化，我们对CHProxy做了一定的改进。当集群节点故障时，分为查询、写入和DDL操作来考虑如何规避其影响。

查询时，CHProxy会转发到健康节点，接收查询的节点对副本有Load_balancing策略，执行查询计划时会把子查询发给健康副本，故障节点不会收到查询请求。

写入时，情况稍微复杂，如通过域名来写分布式表或随机写本地表和查询的机制类似。如果指定分片写入本地表，可以在QUERY中指定分片序号，CHProxy会转发写入到指定分片的某个副本上，同样会跳过故障副本节点。

DDL操作，DDL指元数据的修改，在ZooKeeper中有一个DDL队列，如果故障节点短时间内修复后又上线了，会继续执行队列中的DDL操作。如果长时间未能修复，再次上线时，会导致该节点和其他节点的元数据不一致，因此需要手工去修复。我们开发了元数据一致性检查工具，去检测节点元数据、ZooKeeper元数据、数据之间的一致性。

假如CHProxy故障了，域名服务有探测机制，如果请求超时或失败不再转发请求到故障的CHProxy节点。

而Doris在这方面要强很多，因为他有一个完善的元数据管理功能，校验并修复元数据的一致性，有副本的校验和均衡机制，自动修复副本故障，所以，节点故障后下线以及修复后上线，业务侧几乎感知不到。

主备双流的高可用

如果是集群单节点故障，可以快速下线该节点，对业务影响较小；如果集群大面积故障，比如机房机架故障，或需要对集群进行停机维护，对于特别重要的报表，我们有主备双流的机房，能够快速切换到备用集群中。

双机房之间的数据同步，目前是通过外部双写双集群的方式来处理，写入程序需要检查双写的一致性。这种方式会增加外部写入的复杂度，同时带来不必要的资源消耗，有较大的优化空间。

故障发现和处理

我们有一套较为完备的故障发现和处理机制，比如定期的硬件检测、监控和报警系统和定期的冒烟测试。冒烟测试指对集群进行最常见的常规操作，比如建表、写入数据和删除表等操作，是集群健康度的最后一道防线。

在发现硬件故障时，能及时下线故障节点，待问题修复之后再重新上线，或者用备用机替换故障机；在程序崩溃时，能够自动拉起等，这些操作都在我们管控面中进行，可以做到分钟级处理。而针对这些故障，每次大促前都会进行演练以提升操作熟练度。在上层应用中，也有响应的缓存、限流和分流功能。

遇到的问题和未来规划

我们在ClickHouse的日常使用中，积累了较多的经验也遇到不少问题，部分问题通过某些手段进行了规避和优化，如上文的集群规划和高可用架构，但是依然存在一些从架构层面比较难以解决的问题。

ClickHouse并发能力，因为CH是MPP架构，分布式表的查询会分发到所有节点去执行，每个分片的节点都会参与计算，并发能力和单机是一样的，增加副本可以提升并发能力。另一方法是提升单个查询的查询性能，比如通过改写SQL、物化视图或者字典表的使用降低查询时间。在查询时间优化到几十毫秒以内，增加副本数可以让QPS达到数千甚至上万。

ClickHouse Join优化，CH的Optimizer不够自动化，很多SQL需要显式的指定执行顺序和优化参数。我们之前做过ClickHouse的TPC-DS的测试，大部分多表Join的SQL都需要改写，比如把Join改为子查询，改为本地表Join，设置distributed_group_by_no_merge去做分布式GroupBy等，改写之后的性能比较好，但大表和大表的Join在右表数据量达到千万级别之后，性能会急剧下降。

分布式的一系列问题。这个问题比较复杂，简单来说，CH中强依赖于ZK，而ZK的性能瓶颈和不可扩展性决定了CH的使用局限，另外一方面ClickHouse中的元数据管理很松散，缺乏统一的完整的解决方案。

1. ClickHouse把数据同步和DDL操作放在ZK中，产生两个问题，第一个问题是ZNode会随着节点和数据规模扩大，ZNode达到一定数量会引发访问ZK超时，第二个问题是没有保证ZK和CH之间元数据的一致性，经常出现ZK的元数据、节点的元数据、节点的本地数据之间不一致。

2. 不方便扩缩容，增加和减少副本是可以的，但是扩分片需要数据均衡，比如下图S1和S2两个分片，增加S3这个分片，需要把S1和S2的数据分发一部分到S3，这样就会涉及到数据在分片间移动，如何在线平滑的移动数据，是一个难解决的问题。

3. 导入事务和幂等性， ClickHouse可以支持100万内数据导入的原子性，这批数据要么都成功，要么都失败，但没有保证数据一致性和持久化，比如数据写入到某个副本中，写入后副本数据还没同步到其他副本，此时节点故障了，数据就丢失了。当开启了Spark的推测执行，或导数程序故障重启等问题时，会导入重复数据。也就是说CH的导数并未实现Exactly-once的语义。

未来规划

京东的OLAP的实践规划，大致上按照提升高可用性，降低使用门槛，提升需求响应速度等方面展开。

统一元数据管理：为了解决上面的问题，我们目前正在研究基于Raft的ZooKeeper替代方案，一方面是提升吞吐量和容量，另一方面是需要和ClickHouse结合更加紧密，保存更多元数据类型以增强CH的分布式能力，比如节点状态，元数据管理，副本、分区和文件信息，并在此基础上形成弹性扩缩容的能力，集群迁移和备份恢复能力，以及跨数据中心数据复制能力。

管控面产品化：在使用CH和Doris的过程中，特别是大促的经历，让我们积累了大量的运维和故障处置脚本，我们正在把这些脚本进行产品化，让用户自助式使用OLAP，如资源申请，创建用户和库，自助式的监控报警，异常处理和性能诊断，对管理员侧，做到集群部署和管控，以及故障自动诊断和治愈。

云原生的OLAP：在容器化部署的同时，进一步实现云原生，利用HDFS和对象存储的优势，把存储层放到外部，避免数据的重复存储，节省导入时间，计算节点可以弹性扩缩容。存储分离出来之后，存储如何扩缩容，以及计算节点和存储分片之间如何映射，都是新的问题，这块需要继续研究。

其他方面如查询优化、分布式缓存、易用性提升等也都在规划之中。京东数据中心的OLAP团队，已有几千台服务器，覆盖交易、流量、算法等场景，同时我们也积极参与和回馈社区