大数据 - 七猫技术团队

StarRocks 在七猫的应用(四)-探索 StarRocks 读取 Paimon 优势及物化视图加速能力

罗锋发表于 2025/03/04

一、背景随着公司业务的发展，海量小说数据激增，构建高效数据管理与分析平台刻不容缓，OpenLake（开放数据湖，一种致力于打破数据孤岛，实现各类数据自由流通与协同处理的理念）理念及 Paimon 湖格式因此备受关注。然而，传统数据处理手段在应对海量小说数据时，性能瓶颈与低效率问题突出。StarRocks 作为先进的 MPP（大规模并行处理，Massively Parallel Processing）数据库，其物化视图等特性，为解决这一困境提供了创新思路，也为公司自研分析平台提供了技术支持。二、收益（一）极致查询性能提升基础查询加速：在直接查询 Paimon Append Only（仅追加写）表格式的大规模小说数据集（如：paimon 中的dwd.paimon_dwd_filted_flattened_log_inc_h表），StarRocks 展现出惊人的速度，总耗时仅 148.92…

StarRocks 在七猫的应用(三)-实时数据写入与查询性能优化

罗嗣挺发表于 2025/02/20

为何选择 StarRocks 处理实时数据？在选择 StarRocks 前，我们在开发实时任务时基本只依靠 Flink 内部计算来实现各种场景。但是随着业务的发展，数据繁多、场景越发复杂、大家对数据的准确性要求越来越高，这种开发模式暴露出不少痛点，一起来看下我们的优化方案吧。…

全托管 StarRocks 在七猫的应用和实践

蒋乾发表于 2024/09/14

七猫数仓团队主要的职责是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。现在七猫有多套全托管 StarRocks 集群在生产环境投入了使用，部分 StarRocks 集群从 EMR StarRocks 集群逐步升级成为全托管 StarRocks 集群。据不完全统计，数据治理前离线数据加实时数据，总数据量大约在 20PB 左右。那数仓团队是如何管理这些数据，支持各条业务线的用数需求的呢？…

StarRocks之视图及物化视图的实践

罗锋发表于 2023/11/06

StarRocks提供了高效查询和数据处理的功能。为了方便用户进行复杂的查询操作，StarRocks引入了视图和物化视图技术，在 StarRocks在七猫的应用(二)中也提到视图与物化视图的作用。…

多种数据同步方案在七猫的实践

罗嗣挺发表于 2023/10/09

伴随着七猫的发展，大数据团队针对不同业务场景和不同数据功能，调研和运用多种技术栈和数据库来来解决了各类数据存放和使用的问题。本文将七猫大数据团队在实践过程中的一些开发技巧和代码示例进行整理，一是用于技术的沉淀记录，二是希望通过该文章能帮助大家对各种数据库同步场景所有启发。…

flink 规则引擎技术实现

王龙江发表于 2023/09/27

当前有两类实时任务需要频繁重启：第一类任务是，实时报表新增维度，此类任务中，Flink 消费 Kafka 实时数据，处理后按照维度聚合，使用聚合函数计算出指标后写入 StarRocks ；第二类任务是实时 ETL 任务，此类任务中，Flink 消费 Kafka 实时数据，经过字段提取、数据过滤再将结果回写 Kafka。这两类实时任务加字段（维度）需求较频繁、需求重复度高、需要重启程序，影响数据的准确性、及时性以及迭代速度较慢。因此，我们实现了基于配置化的方式，在不重启作业的情况下，快速满足新增字段（维度）的需求。…

七猫多云元数据管理应用实践

谭正强发表于 2023/09/25

当前七猫大数据在多云环境下的数据开发过程中，库表信息依赖各个云平台进行管理，缺乏统一的元数据查询工具入口，导致了寻表困难的问题。在早期的快速开发阶段，我们追求高效率，忽视了元数据的管理和维护，这给后续的数据治理带来了一定的"技术债务"。为了解决这个问题，七猫大数据团队已经开始着手多云环境下的元数据管理解决方案。该解决方案旨在提供一个统一的元数据管理平台，使用户能够方便地查找和访问各个云平台中的库表信息。通过该平台，用户可以快速搜索和浏览库表的元数据，包括表结构、字段信息、数据来源等关键信息。这将大大简化数据开发过程中的寻表工作，提高开发效率和准确性。…

Kylin5 对接 Starrocks 数据源

何家乐发表于 2023/09/22

Apache Kylin5 是一个 OLAP 分析引擎，他通过构建引擎来读取数据源数据生成预计算索引数据。他通过查询引擎来查询预计算好的索引数据，也可以通过 Pushdown 能力，将查询下压给数据源引擎。StarRocks 是一款 MPP 架构的分析型数据库，可以高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景。…

基于 DolphinScheduler 的数据质量监控在七猫的实践

罗嗣挺发表于 2023/06/29

七猫正处于一个高速发展的阶段，数据分析和业务的发展方向非常注重数据的正确性。为了保证数据质量，我们之前的做法为在相关任务中加上自定义逻辑来检查数据是否正确。但是随着业务的快速迭代，数据量的高速增长和数据链路的复杂化，这种纯人工开发逻辑的方式已经难以跟上迭代速度，所以需要找到一个工具来帮助解决现状。…

Kylin 5 在七猫的实践及其技术原理

何家乐发表于 2023/06/28

Apache Kylin™ 是一个开源的分析型数据仓库，为 Hadoop 等大型分布式分析平台之上的超大规模数据集（PB 级）通过标准 SQL 查询及多维分析（ OLAP ）功能，提供亚秒级的交互式分析能力。…

StarRocks在七猫的应用(二)

朱亦天发表于 2023/06/26

之前，我们会采用多种架构来满足业务需要，比如数据报表结果存储在Clickhouse、OLAP查询使用Trino、业务数据的实时同步采用Hudi等。随着业务的迅速发展，已经越来越难满足业务的需要,为了解决这些问题，我们调研了很多款技术组件，结合我们目前的使用场景，综合考虑，我们选择了StarRocks。…

Apache Superset 数据安全管理

蒋乾发表于 2023/03/29

目前各业务团队的产品经理、产品运营、数据分析师都在使用 Apache Superset 来查询数据仓库中的数据。Superset 能够基于 Hive、ClickHouse、Trino、StarRocks 中的数据进行数据探索和自助制作报表。…

ADX 流批一体架构的演进

蒋乾发表于 2023/03/29

随着商业化业务的快速发张，业务人员对 ADX 后台系统的使用要求也提高了，ADX 的技术架构进行了一轮重构来满足新的业务需求，其中也包括 ADX 数据架构的升级。本文从业务需求出发，结合七猫数据现状，进行技术选型，升级到了新一代流批一体的数据架构。…

Flink 数据处理通用代码开发

王龙江发表于 2023/03/28

Flink 在七猫大数据发展过程中，一直扮演着重要角色。Flink 作为实时计算引擎，经历了多个发展阶段，实时计算平台也在不断地迭代完善。在七猫内部，主要以 Flink Jar 包任务为主，并逐步引入 Flink Sql ，不断的降低了使用门槛和提高了任务的开发效率；从起初基础的 Flink 任务开发，发展到跨网络、跨云厂商的任务多版本任务开发，满足了业务发展的需求。…

StarRocks在七猫的应用（一）

宋振兴发表于 2023/03/27

之前七猫采用的是clickhouse用于存储明细和聚合数据。随着业务的快速发展，已经越来越不满足用户的需求，主要表现为以下几点：1、使用门槛高，不支持标准sql，做分片后关联需要注意sql写法。2、并发能力差，join性能不理想。3、运维成本高，故障恢复难度高。4、数据快速膨胀，查询性能达到瓶颈。5、clickhouse去重效果差。为了解决以上问题，我们研究了StarRocks，使用下来，较好的解决了以上一些问题，整体较满意。…

千亿级别历史增量去重方案

朱亦天发表于 2021/08/06

消除重复数据是我们在实际业务中经常遇到的一类问题。在大数据领域，重复数据的删除有助于减少存储所需要的存储容量。而且在一些特定的业务场景中，重复数据是不可接受的。这篇文章主要介绍两种千亿级别历史增量去重的解决方案。…

七猫统计埋点实践

Keeping 发表于 2021/06/02

大数据应用像一条工业流水线，它一般会有数据采集、数据加工、数据存储、数据计算及可视化这几个环节。数据采集，顾名思义采集相应的数据，是整个数据流的起点，采集的全不全、对不对，直接决定数据广度和质量，影响后续所有的环节。而埋点作为一种重要的采集手段，可以将用户行为信息转化为数据资产，为产品分析、业务决策、数据推荐、商业化应用等提供可靠的数据支持。…

主题