提升自然语言转换为 SQL 查询(NL2SQL)准确度的探索-- LLaMA-Factory 蒸馏 DeepSeek 模型的方法介绍

提升自然语言转换为 SQL 查询可能的3个方向有:1. Prompt 工程,以用户角色提供充足的上下文信息;2. 建设知识库,以系统角色提供上下文信息;3. 增强模型的NL2SQL能力 。 在第3个方向上,我们发现:本地部署的 deepseek-r1:32b 的 NL2SQL 的准确度与满血版的在线 deepseek-r1:671b 存在较大差距。这说明模型能力会影响 NL2SQL 准确性。 本文通过蒸馏 DeepSeek 模型,探索:通过提升模型专业能力,能够提高 NL2SQL 的准确度…

全托管 StarRocks 在七猫的应用和实践

七猫数仓团队主要的职责是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。现在七猫有多套全托管 StarRocks 集群在生产环境投入了使用,部分 StarRocks 集群从 EMR StarRocks 集群逐步升级成为全托管 StarRocks 集群。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那数仓团队是如何管理这些数据,支持各条业务线的用数需求的呢?…

Apache Superset 数据安全管理

目前各业务团队的产品经理、产品运营、数据分析师都在使用 Apache Superset 来查询数据仓库中的数据。Superset 能够基于 Hive、ClickHouse、Trino、StarRocks 中的数据进行数据探索和自助制作报表。…

ADX 流批一体架构的演进

随着商业化业务的快速发张,业务人员对 ADX 后台系统的使用要求也提高了,ADX 的技术架构进行了一轮重构来满足新的业务需求,其中也包括 ADX 数据架构的升级。本文从业务需求出发,结合七猫数据现状,进行技术选型,升级到了新一代流批一体的数据架构。…