专家
白鳝(徐戟)PostgreSQL ACE Director、南京基石数据技术有限责任公司CTO
薛晓刚 行业资深数据库研究员、欧冶云商数据库总监
数据一哥 大数据资深人士,专注于MPP数据库研究、流处理计算、数据仓库架构等
韩锋 数据库技术领域资深专家,丰富的一线数据库架构、软件研发等经验
杨勇强 SelectDB联合创始人兼产品VP,Apache Doris Committer
用户
张杨 哔哩哔哩资深开发工程师
杨铮 快狗打车实时数据仓库负责人
周劲松 网易平台开发专家
厂商
合一 阿里云Hologres产品负责人
杨磊 滴普科技产品线总裁
张桦 国产数据库行业老兵,AntDB数据库运营管理中心总经理
雷涛 天云数据首席执行官
张立群 偶数科技售前总监
张常淳 星环科技高级研发经理
数仓架构经历了最初的传统数仓架构——离线数仓库——离线大数据架构、Lambda 架构、Kappa 架构以及 Flink 的火热带出的流批一体架构,数据架构技术不断演进,本质是在往流批一体的方向发展,让用户能以最自然、最小的成本完成实时计算。
随着互联网和大数据技术的发展,实时计算框架也在推陈出新,向着高吞吐、高可用、低延迟准实时的方向发展。具体而言,主流的计算引擎不外乎三个:Flink、Spark Streaming、Storm。Flink目前已经被各大互联网公司广泛使用,已经成为业界事实标准。Spark Streaming 在高吞吐复杂计算场景仍具优势。Storm 是最早流行的实时计算框架,但由于开发维护较复杂,功能简单,后逐渐被取代。Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快速迭代,以及一些环形的迭代任务。就框架本身与应用场景来说,Flink更相似于Storm。
针对于目前大数据业内非常流行的数个开源OLAP引擎:Hive、SparkSQL、FlinkSQL、Clickhouse、Elasticsearch、Druid、Kylin、Presto、Impala分别挑选了一些场景进行了对比,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美,用户需要根据自己的需求进行选型。impala 是 Cloudera 开发开源的,Impala 是 Cloudera 开发并开源的,能查询存储在 HDFS 和 HBase 中的数据。同 Hive 一样,也是一种 SQL on Hadoop 解决方案。但 Impala 抛弃了 MapReduce,使用更类似于传统的 MPP 数据库技术来提高查询速度。
产品/方案名称 | 技术路线 | 公司名称 | 应用场景 | 是否支持SQL | 数据处理能力 | 百亿数据响应能力 | 架构类型 |
Azure Synapse Analytics | 云数仓 | 微软 | 数据工程和流式传输数据科学和机器学习BI & AI分析 | 是 | PB级 | 秒级响应 | MPP架构 |
AntDB数据库 | 数据库(HTAP) | 湖南亚信安慧科技有限公司 | 流式分析引擎、实时物化视图 | 是 | PB级 | 百亿数据毫秒级响应 | 混合架构 |
ArgoDB+ Slipstream | 统一多模型实时数仓 | 星环科技 | 实时驾驶舱、行情分析、信贷反欺诈、搜索引擎、智能投研、精准推荐、资管 | 是 | PB级 | 现毫秒级响应及百万级吞吐 | 混合架构+统一计算引擎+统一存储管理 |
CDW Clickhouse | 云数仓 | 腾讯云 | 用户行为分析、企业经营分析、实时计算 | 是 | PB级 | 万亿级数据毫秒级响应 | MPP分布式,云原生实时数仓、流批一体 |
CirroData-RT | 传统实时数仓 | 东方国信 | 适用于业务变更频繁、业务灵活度高、大批量复杂有状态计算的流处理场景,以及大批量复杂多表关联的流分析场景、数据时效性高的边缘分析场景。 | 是 | 支持实时小批量更新/同步 | 实时数据分钟级延迟的OLAP分析 | 采用Lambda技术体系 |
Databend | 云数仓 | Datafuse Labs | 1、结构化与半结构化数据的存储与高效分析;2、替换 Hive 数据分析平台。 | 是,兼容MySQL/ClickHouse协议 | 支持高并发和低延时地分析处理PB级数据 | 百亿级数据毫秒级分析 | 存储、计算分离,Serverless架构 |
FastData DLink | 湖仓一体 | 滴普科技 | 1.先进制造2.车联网3.生物医药4.金融科技5.国央企 | 是 | 支持高并发和低延时地分析处理PB级数据 | 亿级用户级分析 | 标准分层体系+流计算+批量计算+数据湖 |
GBase 8a | 数据库(HTAP) | GBASE南大通用 | 用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统、BI系统和决策支持系统的承载数据库。 | 是 | 支持海量存储、高速加载、高并发、低延时查询分析PB级数据 | 在亿级数据规模下,实现查询秒级响应能力 | 基于列存储的完全并行的MPP+Shared Nothing的联邦架构 |
Hologres | 云数仓 | 阿里云 | 实时数仓(大屏数据展示);实时推荐(精细化运营\用户画像);实时ETL(数据中台);实时监控(监控预警) | 是 | 支持高并发和低延时地分析处理PB级数据 | 亿级用户万级标签亚秒级分析 | HybridServing/Analytics Processing(HSAP) |
Hubble数据库 | 数据库(HTAP) | 天云数据 | 实时数仓,实时营销,全量数据实时在线服务,解决TP、AP同时负载问题 | 是 | 支持高并发和低延时的分析处理PB级数据 | 千亿数据毫秒响应 | 谷歌Spanner架构 HTAP |
KDC+KCDE——实时湖仓 | 湖仓一体 | 金山云 | 实时营销/推荐、实时报表、实时监控、实时风控/反欺诈、实时零售、实时数据服务等 | 是 | PB级数据高并发低延迟处理 | 千亿数据秒级响应和处理能力 | 存算分离、无服务、云原生 |
MonographDB | 全实时分析+HTAP | 北京成章数据科技发展有限公司 | HTAP场景:MonographDB同时支持联机事务处理和联机分析处理 全实时分析场景:针对数据实效性敏感的场景 | 是 | PB级 | 秒级响应 | 基于数据基层架构 |
OushuDB | 湖仓一体 | 偶数科技 | 实时推荐、智能营销 | 是, ANSI SQL 标准 | PB级 | 在线秒级扩容 | Omega架构 |
PetaBase | 湖仓一体 | 亿信华辰 | 数据入湖共享(数据中台的数据底座)、实时数仓(金融风控数据分析)、准实时监控、预警、分析(安全生产预警与风险“一张图”)等场景应用 | 是 | 可轻松支持PB级以上数据处理 | 百亿级数据秒级计算 | 混合架构 |
SequoiaDB | 分布式数据库(湖仓一体) | 巨杉 | 实时数据湖、多模数据湖、湖仓一体 | 是,SequoiaDB具备引擎级多模特性,支持创建SQL、JSON、S3对象存储等计算实例 | ?持百PB级存储容量 | 数据从业务发?到提供访问的时延在秒级 | 基于标准分层+流计算+批量计算+数据湖 |
SelectDB | 云数仓 | 飞轮科技 | 点查询/复杂分析、多维报表、即席查询、用户画像、实时大屏、日志分析、数据湖查询加速 | 是 | PB级 | 亚秒级响应 | MPP架构 |
StarRocks | Lakehouse(湖仓) | StarRocks | 技术应用:进行数据湖分析、基于物化视图简化数据建模流程、资源隔离支持多租户、存算分离计算资源弹性伸缩;业务应用:自助数据分析、实时数仓、用户画像、实时风控、订单分析等。 | 是,兼容MySQL | PB级 | 亚秒级响应 | MPP架构/存算分离架构 |
Vertica | MPP数据库 | Vertica | 机器学习 | 是 | PB级 | 秒级响应 | MPP架构+无共享架构 |