Flink Batch SQL Improvements on Lakehouse
1. Flink Batch on Paimon 挑战 2. Flink Batch 核心优化 3. 后续规划
因为不懂 Flink on K8S 类加载机制,引发了线上事故。(建议收藏)
给大家讲解一下 Flink on Yarn 和 Flink on K8S 的类加载机制的区别及应用。
B站大数据系统诊断实践-SQLSCAN篇
在本篇文章中,我们主要介绍了B站大数据系统诊断在SQLScan所做的改造和阶段性成果,主要关注任务的事前治理,对于事中和事后的治理诊断,请关注后续文章《BMR大数据元仓》以及《大数据任务诊断系统-数据智囊》
幸福里基于 Flink & Paimon 的流式数仓实践
本文整理自字节跳动基础架构工程师李国君,在 Streaming Lakehouse Meetup 的分享。幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未来规划方面进行介绍。
SmartNews 基于 Flink 的 Iceberg 实时数据湖实践
本文整理自 SmartNews 数据平台架构师 Apache Iceberg Contributor 戢清雨,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为五个部分:
什么让 Apache Kafka 如此快速?
Kafka 支持高吞吐量、高度分布式、容错性强的平台,能够以低延迟传递消息。
大数据实时链路备战——数据双流高保真压测
在企业的业务经营中,实时数据是营销、运维、决策的重要支撑,实时数据链路基本是所有大公司所拥有的,无论是否采用了中台模式,本文从如何建设实时数据双流、数据双流的建设标准,以及数据双流的压测备战三方面进行了详细的论述。
ClickHouse 存算分离改造:小红书自研云原生数据仓库实践
ClickHouse 作为业界性能最强大的 OLAP 系统,在小红书内部被广泛应用于广告、社区、直播和电商等多个业务领域。然而,原生 ClickHouse 的 MPP 架构在运维成本、弹性扩展和故障恢复方面存在较大局限性。为应对挑战,小红书数据流团队基于开源 ClickHouse 自主研发了云原生实时数据仓库 RED ClickHouse(以下简称“REDck”)。
Elasticsearch 8.X 可以按照数组下标取数据吗?
有人遇到过这个问题么,索引中有一个 integer 数组字段,然后通过脚本获取数组下标为1的值作为运行时字段,发现返回的值是乱的,并不是下标为1的值, 具体如下:
Paimon+StarRocks 湖仓一体数据分析方案
本文整理自阿里云高级开发工程师曾庆栋(曦乐)在 Streaming Lakehouse Meetup 的分享。
大数据SQL数据倾斜与数据膨胀的优化与经验总结
本文主要涉及业务SQL执行层面的优化,暂不涉及参数优化。若设置参数,首先确定执行层面哪个阶段(Map/Reduce/Join)任务执行时间较长,从而设置对应参数。 本文主要分为以下三个部分: 第一部分,会引入数据倾斜与数据膨胀问题; 第二部分,介绍当数据倾斜与数据膨胀发生时,如何排查与定位; 第三部分,会从系统层面给出常见优化思路。
从源码角度剖析 Elasticserach 段合并调优策略
作为 ES 使用的段策略,它的核心思想是将索引段分成多个层次(tier),每个层次的段大小会有一个预设的上限。 当某一层的段数量超过阈值或者某个段的大小达到阈值时,就会触发合并操作,将多个小段合并成一个较大的段。
美团 Flink 资源调度优化实践
本文整理自美团数据平台计算引擎组工程师冯斐,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分:
实时数仓混沌演练实践|得物技术
目前实时数仓提供的投放实时指标优先级别越来越重要,不再是单独的报表展示等功能,特别是提供给下游规则引擎的相关数据,直接对投放运营的广告投放产生直接影响,数据延迟或者异常均可能产生直接或者间接的资产损失。
Flink_state 的优化与 remote_state 的探索
本文整理自 bilibili 资深开发工程师张杨,在 Flink Forward Asia 2022 核心技术专场的分享。
美团增量数仓建设新进展
本文整理自美团系统研发工程师汤楚熙,在 Flink Forward Asia 2022 实时湖仓专场的分享。
怎么去选消息队列? Kafka vs. RabbitMQ
如今,在项目中需要使用消息队列时,Apache Kafka似乎是首选产品。然而,考虑到特定需求时,它并不总是最佳选择。
Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座
本文整理自阿里云开源大数据表存储团队负责人,阿里巴巴高级技术专家李劲松(之信),在 Streaming Lakehouse Meetup 的分享。
基于阿里云 Flink+Hologres 搭建实时数仓
本文作者阿里云 Hologres 高级研发工程师张高迪&阿里云 Flink 技术内容工程师张英男,本篇内容将为您介绍如何通过实时计算 Flink 版和实时数仓 Hologres 搭建实时数仓。
Apache Paimon 在同程旅行的实践进展
本文整理自同程旅行大数据计算组负责人吴祥平,在 Apache Paimon Meetup 的分享。