,写于2023年5月，请注意时效性。

简要介绍

ClickHouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(DBMS)，拥有着及其卓越的查询速度。OLAP是一种面向分析的处理，用于处理大量的数据并支持复杂的分析和查询操作。诸如BI系统等重数据分析的场景，都应重点考虑使用OLAP数据库，而其中ClickHouse又是OLAP数据库星海中最璀璨的一颗星。

ClickHouse的场景特点

纵使ClickHouse有千般万好，但是能真正契合系统需求的数据库，才是最合适的。因此，在我们正式迈进ClickHouse使用大门之前，我想有必要先识其长短。

clickhouse使用入门-LMLPHP

上图截自ClickHouse官方文档，与其说这是olap的场景，不妨说是ClickHouse的常见场景。其中我觉得有必要指出的是：

1.”查询相对较少”，这意味着ClickHouse并发查询能力不强（官方建议每秒最多查询100次），原因在于对于每条查询，ClickHouse都会尽可能动用服务器的CPU、内存资源等，而不同于MySQL单条SQL是单线程的，资源消耗更不可控（当然ClickHouse本身也有相关参数可以配置查询消耗的资源情况）。

2.”结果适合于单个服务器的RAM中”，结合上面所说，每条查询都会消耗ClickHouse不少的（内存）资源，因此不要无脑join大表，否则Memorylimitexceeded警告。

在开始更有意义的赞美之前，让我再对ClickHouse进行一些”自由的批评”：

1.尽管ClickHouse与mysql等数据库一样支持标准SQL语法（甚至兼容了mysql的\G语法）以及窗口函数等，但是相关子查询暂未支持，但将来会实现。

2.稀疏索引使得ClickHouse不适合通过其键检索单行的点查询。（稀疏索引只存储非零值，因此在进行点查询时需要遍历整个索引才能找到对应的行，这会导致点查询的性能较低）

ClickHouse基础

连接及数据格式

连接方式

ClickHouse提供了HTTP和TCP以及gRPC三种方式的接口，非常方便，其中ClickHouse-client是基于TCP方式的，不同的client和服务器版本彼此兼容。

以HTTP接口方式访问时，需注意使用GET方法请求时是默认readonly的。换句话说，若要作修改数据的查询，只能使用POST方法。

此外，除了上述的接口形式，ClickHouse甚至支持了MySQL wire通讯协议，生怕像我一样的MySQL boy难以上手。简单的配置之后，就能轻松使用mysqlclient连接ClickHouse服务器，颇有import pytorch as tf之感。不过也有一些限制，不支持prepared查询以及某些数据类型会以字符串形式发送。同样命运的还有PostgreSQL。

当然，更常见的使用方式还是各语言实现的client库。如今ClickHouse的生态早已成熟，无论是各类编程语言亦或是常见的InfrastructureProducts（如kafka、k8s、grafana等），都有现成的库将其结合起来使用。

数据格式

ClickHouse支持丰富的输入/输出格式，简单来说就是TSV、CSV、JSON、XML、Protobuf、二进制格式以及一些Hadoop生态下常见的数据格式。此外ClickHouse本身也有一些模式推断相关的函数，能从文件/hdfs等数据源推断出表的结构，算是个有趣的功能。

数据类型

flatten_nested设为0（非默认值）可以无限套娃Nested类型。Alter命令操作Nested类型会受限。

SQL语句

clickhouse使用入门-LMLPHP

ClickHouse支持的SQL语句如上所示，内容太多了。。只简单挑些重点看下，先留个坑。

SELECT

小技巧：

select取最终列时，可以使用COLUMNS表达式来以re2的正则表达式语法查找匹配的列，如COLUMNS(‘a’)可以匹配aa，ab列，效果类似python的re.search方法，查询大宽表的时，这个功能还是非常好用的。

此外，配合APPLY(<func>)，EXCEPT(col_name..)，REPLACE(<expr>ascol_name)这三个语法糖，有时能大大简化SQL，如：

SELECT COLUMNS(‘_w’) EXCEPT(‘test’) APPLY(max) from my_table

就能迅速找出带_w且不带test的列，并计算他们的最大值。

有时需要对单独某个查询设置特殊配置时，也可在语句最后直接加上SETTINGS xx，这样配置就只会对本次查询生效。

主键列不可指定。

当表的TTL过期时，过期行会被操作（删除或转移），还可通过WHERE和GROUP BY条件指定符合条件的行。GROUP BY表达式必须是表主键的前缀。

数据副本

MergeTree系列的引擎的表都支持数据副本，只需在引擎名前加上Replicated。

ReplacingMergeTree

该引擎和MergeTree的不同之处在于它会删除排序键值相同的重复项，适用于在后台清除重复的数据以节省空间。但只会在数据合并期间进行，而合并会在后台一个不确定的时间进行。虽然可以调用OPTIMIZE语句发起计划外的合并，但须知OPTIMIZE语句会引发对数据的大量读写。

SummingMergeTree

当合并SummingMergeTree表的数据片段时，ClickHouse会把所有具有相同主键的行合并为一行，该行包含了被合并的行中具有数值数据类型的列的sum值。即便如此，当需要聚合数据时仍应该使用sum函数来聚合，因为后台合并的时间是不确定的。

对于AggregateFunction 类型的列，ClickHouse 根据对应函数表现为AggregatingMergeTree引擎的聚合。

而对于Nested类型的列，ClickHouse会将第一列视作key，其他列视作values进行聚合。

AggregatingMergeTree

将一个数据片段内所有具有相同排序键的行替换成一行，这一行会存储一系列聚合函数的状态。引擎使用AggregateFunction和SimpleAggregateFunction类型来处理所有列。可以看做SummingMergeTree是AggregatingMergeTree的特化（表现上而言）。

可以使用AggregatingMergeTree表来做增量数据的聚合统计，包括物化视图的数据聚合。

要插入数据，需使用带有-State-聚合函数的INSERT SELECT语句。从AggregatingMergeTree表中查询数据时，需使用GROUP BY子句并且要使用与插入时相同的聚合函数，但后缀要改为-Merge。

CollapsingMergeTree

CollapsingMergeTree 会异步的删除（折叠）这些除了特定列 Sign 有 1 和 -1 的值以外，其余所有字段的值都相等的成对的行。没有成对的行将会被保留。

Sign为1和-1的行应按照一定的顺序写入，合并相当取决于记录的一致性，否则实现不了预期的折叠效果（即先Sign=1后Sign=-1），聚合统计时也应考虑上Sign字段对结果的影响。可以使用Final修饰符强制进行折叠而不聚合，但是效率低下。

此外，插入时Sign=1和Sign=-1的记录应该在两次insert语句中分别插入，以保证他们在不同的数据片段（part），否则也不会执行合并操作。

个人觉得，难用，或者是我没找到正确的打开方式。

VersionedCollapsingMergeTree

顾名思义，是上面那位的兄弟，只不过多了一个Version列，允许以多个线程的任何顺序插入数据。Version列有助于正确折叠行，即使它们以错误的顺序插入。

当ClickHouse合并数据部分时，它会删除具有相同主键和版本但Sign值不同的一对行。

当ClickHouse插入数据时，它会按主键对行进行排序。如果Version列不在主键中，ClickHouse将其隐式添加到主键作为最后一个字段并使用它进行排序。

由于ClickHouse具有不保证具有相同主键的所有行都将位于相同的结果数据片段中，甚至位于相同的物理服务器上的特性，以及上面说的数据合并时机的不确定性，所以想要最终的数据还是免不了group by等聚合操作。

GraphiteMergeTree

该引擎用来对Graphite类型数据进行瘦身及汇总。如果不需要对Graphite数据做汇总，那么可以使用任意的表引擎；但若需要，那就采用GraphiteMergeTree引擎。它能减少存储空间，同时能提高Graphite数据的查询效率。

Log引擎系列

共同特点：

数据存储在磁盘上。
写入时将数据追加在文件末尾。
支持并发访问数据时上锁。（执行insert语句时，表会被上写锁）
不支持突变操作。（参见alter）
不支持索引。（表明范围查询效率不高）
非原子地写入数据。

各引擎差异：

Log引擎为表中的每一列使用不同的文件。StripeLog将所有的数据存储在一个文件中。因此StripeLog引擎在操作系统中使用更少的描述符，但是Log引擎提供更高的读性能。两者都支持并发的数据读取。

TinyLog引擎是该系列中最简单的引擎并且提供了最少的功能和最低的性能。TinyLog引擎不支持并行读取和并发数据访问，并将每一列存储在不同的文件中。

Log

Log与TinyLog的不同之处在于，”标记” 的小文件与列文件存在一起。这些标记写在每个数据块上，并且包含偏移量，这些偏移量指示从哪里开始读取文件以便跳过指定的行数。这使得可以在多个线程中读取表数据。Log引擎适用于临时数据。

StripeLog

需要写入许多小数据量（小于一百万行）的表的场景下使用这个引擎。

在这种情况下，分布式表会跨服务器分发插入数据。为了写入分布式表，必须要配置分片键（最后一个参数）。当然，如果只有一个分片，则写操作在没有分片键的情况下也能工作，因为这种情况下分片键没有意义。

数据是异步写入的。对于分布式表的 INSERT，数据块只写本地文件系统。之后会尽快地在后台发送到远程服务器。

如果在 INSERT 到分布式表时服务器节点丢失或重启（如，设备故障），则插入的数据可能会丢失。如果在表目录中检测到损坏的数据分片，则会将其转移到broken子目录，并不再使用。

Merge

本身不存储数据，但可用于同时从任意多个其他的表中读取数据。读是自动并行的，不支持写入。读取时，那些被真正读取到数据的表的索引（如果有的话）会被使用。

创建语法：

如果tables_regexp命中了Merge 表本身，也不会真正引入，以免循环引用，但创建两个表递归读取对方数据是可行的。

Merge引擎的一个典型应用是可以像使用一张表一样使用大量的TinyLog表。

Executable和ExecutablePool

这两个引擎用于关联脚本和具体表，表中的数据将由执行脚本后生成。脚本被放在”users_scripts”目录下。创建表时不会立即调用脚本，脚本将在表被查询时调用。

刚开始感觉这个引擎没什么用，为什么我不直接单独跑脚本把数据收集好之后再将它们插入表呢？转念想到脚本代码仓库里的几百个（无名）脚本及对应的（无名）表，瞬间感觉这功能还怪有用的。（查找表对应的生成脚本）

应用及可能的坑点

应用

ClickHouse典型应用场景主要包括以下几个方面：

大数据存储和分析：ClickHouse能够高效地存储和处理海量数据，支持PB级别的数据存储和分析，可以快速地处理大规模数据分析和数据挖掘任务。
实时数据分析和查询：ClickHouse支持实时查询和分析，具有高速的数据读取和计算能力，可以在秒级别内返回查询结果，适用于需要快速响应数据查询和分析的业务场景。
日志处理和分析：ClickHouse能够高效地处理日志数据，支持实时的日志分析和查询，可以帮助企业快速地发现和解决问题。
业务智能分析：ClickHouse支持复杂的数据分析和计算，可以进行高级的数据挖掘和机器学习算法，帮助企业进行业务智能分析和决策。

总的来说，ClickHouse适用于需要处理大规模数据和实时查询的业务场景，例如数据报表、日志分析、业务智能分析、广告平台等。

其他要说的

。比如中文文档中说ClickHouse不支持窗口函数，但英文文档中表示已经支持；中文文档中没有projection的介绍；中文文档中表示ClickHouse使用ZooKeeper维护元数据，然而在英文文档中表示使用ClickHouse Keeper维护元数据；等等等等。同样的，你的生产环境的ClickHouse版本也许与ClickHouse最新版有不小差距，所以在你考虑使用某个功能时，记得先看下当前版本是否已经支持。

。

此外ClickHouse本身引擎对子查询的SQL优化效率不高，应尽量避免复杂的子查询语句。否则这些”cool cooler coolest”的SQL，在集群负载压力逐渐上来之后，可能会变成半夜里响个不停的业务告警通知。

后记

原本打算从头到尾细看一遍官方文档+搜索对应关键词的文章来完整系统地了解一下ClickHouse。但内容之多，懒癌晚期发作加上别的原因最后写得有些虎头蛇尾。后面有人看、有心情、，理解不到位之处，还请大佬『务必回复！』🐶，让我知道文章错哪了。

什么，对你有帮助，甚至你都忍不住点了收藏却不愿意点个赞？

clickhouse使用入门-LMLPHP

转载请注明出处(～￣▽￣)～严禁用于商业目的的转载～

yius

clickhouse使用入门

简要介绍

ClickHouse的场景特点

ClickHouse基础

连接及数据格式

连接方式

数据格式

数据类型

SQL语句

SELECT

数据副本

ReplacingMergeTree

SummingMergeTree

AggregatingMergeTree

CollapsingMergeTree

VersionedCollapsingMergeTree

GraphiteMergeTree

Log引擎系列

Log

StripeLog

Merge

Executable和ExecutablePool

应用及可能的坑点

应用

其他要说的

后记