ClickHouse对比其他分布式数据库


发布于 2024-08-04 / 93 阅读 / 0 评论 /
ClickHouse是一种列式存储的关系型数据库

ClickHouse官方的定义为:The real-time data warehouse for ML & GenAI, fraud & cybersecurity, gaming, analytics, observability, business intelligence, financial service

Unlock faster queries without skyrocketing costs

ClickHouse官方定位是一个实时数据仓库。查询快且成本低都是ClickHouse的突出特点。

1.ClickHouse vs BigQuery

参考官方文档https://clickhouse.com/comparison/bigquery

BigQuery是处理即席分析的分布式数据库,适用于更小的数据量,随着数据量的增加,成本和性能都会遇到明显的挑战。下表是两者的详细对比

对比项

ClickHouse

BigQuery

效率和速率

查询速率提升95%;存储空间降低60%

更慢的查询速率,需要更多的存储空间

成本效率

100倍的成本效率提升

消耗更多的分析负载

现代化SQL

支持标准的SQL,以及大量扩展和提升项(比如lambda函数、高级排序函数),让分析型任务对用户更友好

只支持标准的SQL

简单数据分析

150多个预置的聚合函数,加上强大的聚合联合算子,完全矢量化和并行化。

1300多个数据处理函数,包括math、geo、机器学习、时间等函数。

因为有限的聚合和处理函数,同样的任务功能,用户需要编写更复杂的SQL。

丰富数据类型支持

支持高级数据类型,比如JSON、maps、arrays。有80个array函数,可解决大量的问题,简单和直观。

支持有限的数据类型,array函数仅有8个。

世界范围的通用性

原生支持大部分数据源的90多种文件格式,使分析更加简单,不需要考虑文件类型和保存地址。

仅支持5种文件格式,19种数据源。

以上对比项来看,ClickHouse完胜。

2.ClickHouse vs PostgreSQL

参考官方文档https://clickhouse.com/comparison/postgresql

在PostgreSQL中,我们常常会遇到性能瓶颈、扩容挑战、以及操作性越来越困难。

ClickHouse在PostgreSQL的场景中有更好的表现,主要在以下几点:

(1)查询速率提升1000倍

(2)磁盘存储降低50%

(3)降低5倍的成本

3.ClickHouse vs Redshift

参考官方文档https://clickhouse.com/comparison/redshift

在Redshift上,客户一直在与并发限制和查询延迟做斗争,ClickHouse提供了成本效益更佳的方案,主要表现在以下三点:

(1)成本上降低75%

(2)查询性能提升5倍

(3)并发度提升20倍

4.ClickHouse vs Rockset

参考官方文档https://clickhouse.com/comparison/rockset

ClickHouse和Rockset都用于支持实时分析工作负载和面向客户的应用程序。但ClickHouse在可扩展性、摄取吞吐量、查询性能、成本效益等方面都超过了Rockset。

ClickHouse是真正在规模上大放异彩的实时数据库。当低延迟真的很重要时,可以依靠出色的性能。

目前Rockset正处于deprecated状态,将被弃用,大部分企业可以选择迁移到ClickHouse上。

5.ClickHouse vs Snowflake

参考官方文档https://clickhouse.com/comparison/snowflake

主要是在实时分析场景中,ClickHouse和Snowflake有竞争。

ClickHouse专为大规模实时数据分析和探索而设计。Snowflake是一个云数据仓库,针对执行长时间运行的报告和即席数据分析进行了很好的优化。在实时分析方面,ClickHouse以小成本获得更快的查询性能。

ClickHouse在实时分析解决方案中优于Snowflake的点在于:

(1)提升2倍的查询效率

(2)提升38%的压缩效率

(3)成本降低3~5倍