全托管 StarRocks 在七猫的应用和实践
七猫数仓团队主要的职责是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。现在七猫有多套全托管 StarRocks 集群在生产环境投入了使用,部分 StarRocks 集群从 EMR StarRocks 集群逐步升级成为全托管 StarRocks 集群。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那数仓团队是如何管理这些数据,支持各条业务线的用数需求的呢?…
七猫数仓团队主要的职责是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。现在七猫有多套全托管 StarRocks 集群在生产环境投入了使用,部分 StarRocks 集群从 EMR StarRocks 集群逐步升级成为全托管 StarRocks 集群。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那数仓团队是如何管理这些数据,支持各条业务线的用数需求的呢?…
StarRocks提供了高效查询和数据处理的功能。为了方便用户进行复杂的查询操作,StarRocks引入了视图和物化视图技术,在 StarRocks在七猫的应用(二)中也提到视图与物化视图的作用。…
伴随着七猫的发展,大数据团队针对不同业务场景和不同数据功能,调研和运用多种技术栈和数据库来来解决了各类数据存放和使用的问题。本文将七猫大数据团队在实践过程中的一些开发技巧和代码示例进行整理,一是用于技术的沉淀记录,二是希望通过该文章能帮助大家对各种数据库同步场景所有启发。…
当前有两类实时任务需要频繁重启:第一类任务是,实时报表新增维度,此类任务中,Flink 消费 Kafka 实时数据,处理后按照维度聚合,使用聚合函数计算出指标后写入 StarRocks ;第二类任务是实时 ETL 任务,此类任务中,Flink 消费 Kafka 实时数据,经过字段提取、数据过滤再将结果回写 Kafka。这两类实时任务加字段(维度)需求较频繁、需求重复度高、需要重启程序,影响数据的准确性、及时性以及迭代速度较慢。因此,我们实现了基于配置化的方式,在不重启作业的情况下,快速满足新增字段(维度)的需求。…
当前七猫大数据在多云环境下的数据开发过程中,库表信息依赖各个云平台进行管理,缺乏统一的元数据查询工具入口,导致了寻表困难的问题。在早期的快速开发阶段,我们追求高效率,忽视了元数据的管理和维护,这给后续的数据治理带来了一定的"技术债务"。为了解决这个问题,七猫大数据团队已经开始着手多云环境下的元数据管理解决方案。该解决方案旨在提供一个统一的元数据管理平台,使用户能够方便地查找和访问各个云平台中的库表信息。通过该平台,用户可以快速搜索和浏览库表的元数据,包括表结构、字段信息、数据来源等关键信息。这将大大简化数据开发过程中的寻表工作,提高开发效率和准确性。…
Apache Kylin5 是一个 OLAP 分析引擎,他通过构建引擎来读取数据源数据生成预计算索引数据。他通过查询引擎来查询预计算好的索引数据,也可以通过 Pushdown 能力,将查询下压给数据源引擎。StarRocks 是一款 MPP 架构的分析型数据库,可以高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景。…
七猫正处于一个高速发展的阶段,数据分析和业务的发展方向非常注重数据的正确性。为了保证数据质量,我们之前的做法为在相关任务中加上自定义逻辑来检查数据是否正确。但是随着业务的快速迭代,数据量的高速增长和数据链路的复杂化,这种纯人工开发逻辑的方式已经难以跟上迭代速度,所以需要找到一个工具来帮助解决现状。…
Apache Kylin™ 是一个开源的分析型数据仓库,为 Hadoop 等大型分布式分析平台之上的超大规模数据集(PB 级)通过标准 SQL 查询及多维分析 ( OLAP ) 功能,提供亚秒级的交互式分析能力。…
之前,我们会采用多种架构来满足业务需要,比如数据报表结果存储在Clickhouse、OLAP查询使用Trino、业务数据的实时同步采用Hudi等。随着业务的迅速发展,已经越来越难满足业务的需要,为了解决这些问题,我们调研了很多款技术组件,结合我们目前的使用场景,综合考虑,我们选择了StarRocks。…
目前各业务团队的产品经理、产品运营、数据分析师都在使用 Apache Superset 来查询数据仓库中的数据。Superset 能够基于 Hive、ClickHouse、Trino、StarRocks 中的数据进行数据探索和自助制作报表。…
随着商业化业务的快速发张,业务人员对 ADX 后台系统的使用要求也提高了,ADX 的技术架构进行了一轮重构来满足新的业务需求,其中也包括 ADX 数据架构的升级。本文从业务需求出发,结合七猫数据现状,进行技术选型,升级到了新一代流批一体的数据架构。…
Flink 在七猫大数据发展过程中,一直扮演着重要角色。Flink 作为实时计算引擎,经历了多个发展阶段,实时计算平台也在不断地迭代完善。在七猫内部,主要以 Flink Jar 包任务为主,并逐步引入 Flink Sql ,不断的降低了使用门槛和提高了任务的开发效率;从起初基础的 Flink 任务开发,发展到跨网络、跨云厂商的任务多版本任务开发,满足了业务发展的需求。…
之前七猫采用的是clickhouse用于存储明细和聚合数据。随着业务的快速发展,已经越来越不满足用户的需求,主要表现为以下几点:1、使用门槛高,不支持标准sql,做分片后关联需要注意sql写法。2、并发能力差,join性能不理想。3、运维成本高,故障恢复难度高。4、数据快速膨胀,查询性能达到瓶颈。5、clickhouse去重效果差。为了解决以上问题,我们研究了StarRocks,使用下来,较好的解决了以上一些问题,整体较满意。…
消除重复数据是我们在实际业务中经常遇到的一类问题。在大数据领域,重复数据的删除有助于减少存储所需要的存储容量。而且在一些特定的业务场景中,重复数据是不可接受的。这篇文章主要介绍两种千亿级别历史增量去重的解决方案。…
大数据应用像一条工业流水线,它一般会有数据采集、数据加工、数据存储、数据计算及可视化这几个环节。数据采集,顾名思义采集相应的数据,是整个数据流的起点,采集的全不全、对不对,直接决定数据广度和质量,影响后续所有的环节。而埋点作为一种重要的采集手段,可以将用户行为信息转化为数据资产,为产品分析、业务决策、数据推荐、商业化应用等提供可靠的数据支持。…