编前语
实时数仓之所以成为数据架构现代化的典型标志,是因为它有效解决了传统数仓效率低下问题。尤其随着实时流技术、流批一体的发展,应用场景的不断丰富,领先企业在实时数仓建设方面做了大量的尝试和探索。那么,用户到底是如何使用实时数仓的?不同业务场景的需求点是什么?实时到什么级别?主要采用哪种技术架构?ITPUB特别策划栏目——实时数仓选型指南,将与您并肩前行,走进“灯塔”类用户实践!
大话实时数仓

畅聊业务数据实时化哪些事儿

实时数据仓库,是指企业从业务、数据和架构层面,为企业提供全面的数仓系统规划与实时的一套方案,可为企业业务分析与管理决策赋能。简单理解,实时数仓重点是“实时”。最典型特征是,数据展示能力不是T+1天的更新频率,而是可以做到T+1秒。实时数据仓库通过每天多次刷新其存储的数据,来满足企业对即时信息不断增长的需求。到底什么什么是实时数仓?

以下是ITPUB收集的业内具有代表性的观点:

专家

白鳝(徐戟)PostgreSQL ACE Director、南京基石数据技术有限责任公司CTO

实时数仓不是简单的一款产品,而是“数据存储+数据计算+数据管理”这样一套体系,主要通过内存计算、流式计算、分布式存储系统、分布式数据库等等技术来实现。至于,到底是秒级、分钟级,还是小时级数仓?要根据业务场景去构建,没必要做具体定义,企业最终目标是解决业务问题!

薛晓刚 行业资深数据库研究员、欧冶云商数据库总监

实时数仓是在线交易完成后,马上可以将这些数据进行分析和处理。快速结合交易得出一些判断,这种判断可以是用户画像(推荐),可以是报表分析(实时数据大盘),可以是辅助决策等等。我接触的一些用户基本上大家觉得秒级就可以了,这个秒不是说一定要1秒,3-5秒大家也可以接受。或者说,我只想看一下半小时前的数据分析,只要误差不是特别大,都可以接受。

数据一哥 大数据资深人士,专注于MPP数据库研究、流处理计算、数据仓库架构等

实时数仓和传统数仓相同,都是一个数据仓库,只是随着业务变化,针对对不同业务场景提供支持。过去,由于业务人员实时分析需求不迫切,且存在技术限制,企业会使用Hive、其他OLAP数据库离线跑批,业务分析只能做到T+1,即前一天的数据到第二天再进行分析展示。随着实时业务需求推动,实时数据增多,实时计算技术不断发展,Storm、Flink等实时流计算引擎逐渐发展起来,实时计算框架由原来的流批分离的Lambda架构,发展到流批一体的Kappa架构,且新的架构也在不断涌现。

韩锋 数据库技术领域资深专家,丰富的一线数据库架构、软件研发等经验

实时数仓是从另外一个角度去谈对数据仓库实时性部分的需求,做了一种特殊加强的技术平台,提供的是我们对数据仓库里面所需要数据的采集、计算、加工处理,时效性要求很高的一些特有的技术,所以也是一个技术名词。

杨勇强 SelectDB联合创始人兼产品VP,Apache Doris Committer

实时数仓的关键能力有两点:第一,确保数据在短的时间内进入数仓,数仓要有能够支持高并发、高吞吐的写入能力;第二,数据分析的性能要好,能够支持低延迟、高并发的数据分析和查询。

用户

张杨 哔哩哔哩资深开发工程师

其实,实时数仓是参考离线数仓这个概念提出来的,由于传统数仓T+1或者小时级别的延迟,很难满足数据的时效性诉求,包括消息中间件以及一些计算引擎,都是为了解决传统离线数仓的缺陷,实时数仓则有效解决了数据从生产到业务端的全生命周期问题。

杨铮 快狗打车实时数据仓库负责人

离线和实时的唯一区别就是数据的动态和静态。具体在落地的时候,一般有两种方式:一种是做云上的;一种是自建的。早期,我们采用开源技术自建,比如:Clickhouse、Doris等;现在,我们采用Hologres逐步过度到一个All-in-One的阶段。

周劲松 网易平台开发专家

实时数仓跟具体技术无关,主要是解决业务需求。一般来说,当大量数据存进来,一部分要做数据加工和数据分析,这时可以选择一体化解决方案。同时,企业也可以基于开源技术搭建出一个实时数仓。

厂商

合一 阿里云Hologres产品负责人

很多公司把实时数仓定义成一种解决方案,中间混合了像流式计算、消息中间件等,把很多个技术堆在一起,叫实时数仓解决方案,真正把这几个技术打磨成熟到变成一个产品的,绝大部分公司都还没做到这一点,可能只有一小部分技术已经把它凝化成一个数据仓库的这样一个形态了。

杨磊 滴普科技产品线总裁

实时数仓,可以基于一套架构,实现流批一体的集合,即通过不断优化计算引擎,大幅度降低对计算实时性对计算引擎的消耗,这也是湖仓一体成为未来发展趋势的最主要原因。

张桦 国产数据库行业老兵,AntDB数据库运营管理中心总经理

越来越多的业务场景要求数仓不断增强实时数据分析的能力,然而当前的数仓大多还处在通过预计算减少统计工作量达到“准实时”效果的阶段,还未做到“真实时”。流式实时数仓在数据进入的同时即开始进行数据的统计加工,能够做到真正意义上的“实时”,是“准实时数仓”的进一步进阶,也是真正面向未来场景的实时数仓。

雷涛 天云数据首席执行官

实时数仓这个词有点像一个延续概念,是对传统数据仓库进行优化。但其实本质上,它是基于一些新兴技术,比如HTAP,以及湖仓一体,提供实时的服务。同时,也有传统技术利用即席服务、预理操作来实现数据处理的实时化需求。所以不同路线,最后可能会是同一个概念。

张立群 偶数科技售前总监

实时数仓就是具备按需实时智能和离线按需智能处理能力的数据仓库,实时数仓的关键特征:存算分离、虚拟计算集群、高性能计算、高并发即席查询、支持行级数据更新的分布式表存储。

张常淳 星环科技高级研发经理

实时数据仓库业务是数据仓库业务为顺应智能数据时代的自然演进,其最大的挑战是如何利用统一的技术架构既能满足大规模传统数据仓库业务,又能保证对实时业务处理的稳定性和性能。简单的、一味的使用技术堆积,固然可以解决部分问题,但同时也会大大增加了业务开发和运维成本。
毫无疑问,存储在实时数据仓库中的信息,包括数据被请求和分析时的状态,在一定程度上代表了企业运营的实际情况,可以更准确地提供业务画像…… 在您看来,到底什么是实时数据仓库?请在评论区给出你的答案吧?
核心技术攻关

实时计算框架特点及对比

随着互联网和大数据技术的发展,实时计算框架也在推陈出新,向着高吞吐、高可用、低延迟准实时的方向发展。具体而言,主流的计算引擎不外乎三个:Flink、Spark Streaming、Storm。Flink目前已经被各大互联网公司广泛使用,已经成为业界事实标准。Spark Streaming 在高吞吐复杂计算场景仍具优势。Storm 是最早流行的实时计算框架,但由于开发维护较复杂,功能简单,后逐渐被取代。Flink 会把所有任务当成流来处理,这也是其最大的特点。Flink 可以支持本地的快速迭代,以及一些环形的迭代任务。就框架本身与应用场景来说,Flink更相似于Storm。

了解更多

开源OLAP引擎选型

针对于目前大数据业内非常流行的数个开源OLAP引擎:Hive、SparkSQL、FlinkSQL、Clickhouse、Elasticsearch、Druid、Kylin、Presto、Impala分别挑选了一些场景进行了对比,可以说目前没有一个引擎能在数据量,灵活程度和性能上做到完美,用户需要根据自己的需求进行选型。impala 是 Cloudera 开发开源的,Impala 是 Cloudera 开发并开源的,能查询存储在 HDFS 和 HBase 中的数据。同 Hive 一样,也是一种 SQL on Hadoop 解决方案。但 Impala 抛弃了 MapReduce,使用更类似于传统的 MPP 数据库技术来提高查询速度。

了解更多

主要应用场景

实时大屏

实时数仓主要应用在网站pv/uv统计、商品销量统计、交易数据统计等,其中大屏数据展示是典型应用场景。

了解更多

BI报表

实时推荐主要是根据用户喜好进行个性化推荐或者基于AI技术进行推荐,是一个主流的产品形态。

了解更多

用户画像

实时推荐主要是根据用户喜好进行个性化推荐或者基于AI技术进行推荐,是一个主流的产品形态。

了解更多

预警监控

实时监控常见于金融类或者交易类场景,针对行业特性进行反作弊监管,通过全盘短时间数据,监控业务稳定性。

了解更多

用户实践

光大银行实时流数据平台架构实践

光大银行大致从2017年,就开始了实时数据处理体系的探索与实践。首先回顾下过程中体系的演进过程,大致可分为两个阶段......

了解更多

美团广告平台拥抱数据实时化趋势

实时数据可视化,是指通过KPI实时看板查看数据,可视化核心点是可视化KPI实时数据,算法团队包括CTR、CPR数据......

了解更多

云音乐实时数仓建设以及任务治理实践

随着音乐流量越来越大,用户也越来越多,超大流量的消息队列对整体带宽资源、下游的消费任务的稳定性以及计算资源带来了挑战......

了解更多

Flink在B站的多元化探索与实践

在过去的一年里,B站围绕 Flink 主要做了三个方面的工作:平台建设、增量化和 AI on Flink,实时平台是实时业务的技术底座......

了解更多

数仓服务平台在唯品会的建设实践

在统一数仓数据服务之前,数仓提供的访问接入方式往往存在效率问题低、数据指标难统一等问题,具体有几个突出情况......

了解更多

Flink在小米的稳定性优化和实践

目前,我们集群上运行着3000多个作业,主力版本是1.12,1.14版本也已经合并上线,日均处理10万亿+条消息,PB级数据量......

了解更多

实时数仓厂商名录
产品/方案名称 技术路线 公司名称 应用场景 是否支持SQL 数据处理能力 百亿数据响应能力 架构类型
Azure Synapse Analytics 云数仓 微软 数据工程和流式传输数据科学和机器学习BI & AI分析 PB级 秒级响应 MPP架构
AntDB数据库 数据库(HTAP) 湖南亚信安慧科技有限公司 流式分析引擎、实时物化视图 PB级 百亿数据毫秒级响应 混合架构
ArgoDB+ Slipstream 统一多模型实时数仓 星环科技 实时驾驶舱、行情分析、信贷反欺诈、搜索引擎、智能投研、精准推荐、资管 PB级 现毫秒级响应及百万级吞吐 混合架构+统一计算引擎+统一存储管理
CDW Clickhouse 云数仓 腾讯云 用户行为分析、企业经营分析、实时计算 PB级 万亿级数据毫秒级响应 MPP分布式,云原生实时数仓、流批一体
CirroData-RT 传统实时数仓 东方国信 适用于业务变更频繁、业务灵活度高、大批量复杂有状态计算的流处理场景,以及大批量复杂多表关联的流分析场景、数据时效性高的边缘分析场景。 支持实时小批量更新/同步 实时数据分钟级延迟的OLAP分析 采用Lambda技术体系
Databend 云数仓 Datafuse Labs 1、结构化与半结构化数据的存储与高效分析;2、替换 Hive 数据分析平台。 是,兼容MySQL/ClickHouse协议 支持高并发和低延时地分析处理PB级数据 百亿级数据毫秒级分析 存储、计算分离,Serverless架构
FastData DLink 湖仓一体 滴普科技 1.先进制造2.车联网3.生物医药4.金融科技5.国央企 支持高并发和低延时地分析处理PB级数据 亿级用户级分析 标准分层体系+流计算+批量计算+数据湖
GBase 8a 数据库(HTAP) GBASE南大通用 用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统、BI系统和决策支持系统的承载数据库。 支持海量存储、高速加载、高并发、低延时查询分析PB级数据 在亿级数据规模下,实现查询秒级响应能力 基于列存储的完全并行的MPP+Shared Nothing的联邦架构
Hologres 云数仓 阿里云 实时数仓(大屏数据展示);实时推荐(精细化运营\用户画像);实时ETL(数据中台);实时监控(监控预警) 支持高并发和低延时地分析处理PB级数据 亿级用户万级标签亚秒级分析 HybridServing/Analytics Processing(HSAP)
Hubble数据库 数据库(HTAP) 天云数据 实时数仓,实时营销,全量数据实时在线服务,解决TP、AP同时负载问题 支持高并发和低延时的分析处理PB级数据 千亿数据毫秒响应 谷歌Spanner架构 HTAP
KDC+KCDE——实时湖仓 湖仓一体 金山云 实时营销/推荐、实时报表、实时监控、实时风控/反欺诈、实时零售、实时数据服务等 PB级数据高并发低延迟处理 千亿数据秒级响应和处理能力 存算分离、无服务、云原生
MonographDB 全实时分析+HTAP 北京成章数据科技发展有限公司 HTAP场景:MonographDB同时支持联机事务处理和联机分析处理 全实时分析场景:针对数据实效性敏感的场景 PB级 秒级响应 基于数据基层架构
OushuDB 湖仓一体 偶数科技 实时推荐、智能营销 是, ANSI SQL 标准 PB级 在线秒级扩容 Omega架构
PetaBase 湖仓一体 亿信华辰 数据入湖共享(数据中台的数据底座)、实时数仓(金融风控数据分析)、准实时监控、预警、分析(安全生产预警与风险“一张图”)等场景应用 可轻松支持PB级以上数据处理 百亿级数据秒级计算 混合架构
SequoiaDB 分布式数据库(湖仓一体) 巨杉 实时数据湖、多模数据湖、湖仓一体 是,SequoiaDB具备引擎级多模特性,支持创建SQL、JSON、S3对象存储等计算实例 ?持百PB级存储容量 数据从业务发?到提供访问的时延在秒级 基于标准分层+流计算+批量计算+数据湖
SelectDB 云数仓 飞轮科技 点查询/复杂分析、多维报表、即席查询、用户画像、实时大屏、日志分析、数据湖查询加速 PB级 亚秒级响应 MPP架构
StarRocks Lakehouse(湖仓) StarRocks 技术应用:进行数据湖分析、基于物化视图简化数据建模流程、资源隔离支持多租户、存算分离计算资源弹性伸缩;业务应用:自助数据分析、实时数仓、用户画像、实时风控、订单分析等。 是,兼容MySQL PB级 亚秒级响应 MPP架构/存算分离架构
Vertica MPP数据库 Vertica 机器学习 PB级 秒级响应 MPP架构+无共享架构
赏帮赚
无障碍浏览