七猫自研机器学习平台
一、摘要
七猫小说APP内容推荐的精准度,依赖策略算法的持续迭代,预估模型是算法的核心能力。此前,七猫各项推荐业务接入模型需要一定的学习成本,且各项业务模型独立开发,不同业务间的模型能力不能快速协作和复用,无法形成合力,造成一定的人力浪费。针对这些痛点,我们基于开源框架,自主建设了一个机器学习平台,从特征、训练、部署等方面简化模型接入流程,将通用的数据、基建进行统一,提升模块的复用能力,减少重复开发和人力资源浪费。
经过一段时间的迭代,自研平台可基本对标业界通用的算法平台,赋能业务初见成效:底层通用算法技术各业务可低成本复用,算法以有限人力同时支撑内容成长/内容分发/商业化等多个方向的提效,将新业务的接入周期从一周缩短到一天,大幅减少人力投入,提升迭代效率。
二、现状和挑战
通常,一个完整的模型接入流程形如:
以之前模型接入流程为例,用户需要:准备训练数据、配置特征、配置模型参数、部署训练环境、模型训练、打包部署到线上,才能真正服务于线上业务。其中训练环境与模型无关,理论上不影响模型训练效果,但需要用户手动操作部署。比如,当前k8s训练集群,用户需要打包tensorflow和其他配置到镜像,需要了解docker和镜像的一些概念,需要熟悉打包操作,需要熟悉kubectl查询日志命令等,这些都会带来额外的学习成本。此外,由用户自行操作的打包,可能造成不同模型的训练环境不一致,还可能带来一些权限问题。这些都是应当避免的。线上部署,需要配置线上特征和模型的在线环境,阿里云/华为云服务通常会提供一些部署操作说明,但也需要一定的入手成本。
可以看到,模型要实际作用于业务,一般涉及诸多配置项和手动操作。这些配置绝大多数与模型效果无关,但需要用户对其内在含义有一定的了解。这些额外的学习成本,制约了模型的接入速度,对于业务本身没有价值。
针对这些问题,自建平台从训练框架和在线推理两方面解决:
- 训练框架方面:封装部署流程,全程自动化,让用户对前置链路的部署操作无感;模型代码模块化,降低模型配置和开发难度。
- 在线推理方面:训练完成后自动部署到线上,简化在线特征配置,用户无须关心后置链路的部署问题。
优化之后,在自建平台上接入模型,用户只需要:准备训练数据、配置特征(简化)、配置模型参数(简化)、模型训练。
三、训练框架
训练框架由主模块(AICat)和辅助SDK(mlengine)组成,其中mlengine负责训练无关流程的串联(环境部署、监控等),AICat负责实际训练。整体流程如下:
3.1 mlengine
mlengine是训练辅助库,封装为SDK,其作用可以从模型生产的三个阶段来阐述:
- 训练前,用户手动设置了特征和模型的参数,需要将改动上传至AICat库。mlengine辅助AICat统一管理模型代码,可以及时捕捉用户的改动。
- 训练时,mlengine提供一个基础镜像,安装了原生的tensorflow和一些必要的训练依赖库,用户只需要指定AICat库的分支名和模型名称,mlengine会自动为模型分配唯一的训练环境(拷贝基础镜像,并安装AICat库指定分支的代码)。这样,所有模型的tensorflow环境统一,而不同模型的结构代码各自独立。mlengine还会实时监控模型训练状态,提供了统一的api查询训练日志,用户无须额外学习集群的一些查询命令了(比如kubectl)。
- 训练完成后,mlengine还会为每个模型自动分配模型保存路径和训练日志路径等,自动从相关路径拉取模型部署到线上。
这些自动化操作,大大降低了平台的使用难度。
3.2 AICat
AICat是模型训练库,基于原生tensorflow,旨在提供一个简单的的模型开发范式,主要包含五部分:特征工程、模型构建、分布式训练、监控、Debug工具。
3.2.1 特征工程
特征即属性,特征值通常是字符明文,而模型的输入必须是数值,因此需要对特征值进行处理。模型特征根据类型不同,一般可分为两大类,离散特征(取值是字符串,如书籍分类)和连续特征(取值是数值,比书籍点击率)。
连续特征处理即归一化。一般,不同连续特征取值量级有差异(比如点击率一般小于1,曝光一般成千上万),简单放在一起可能造成模型训练失败,因此需要将量级约束到同一尺度下。
- 业界常用归一化方法有,最大最小值归一化、高斯归一化等,可能的问题有两个:需要事先统计连续值的分布;这些分布如果不同天有差异,则同一个连续值在不同天,归一化之后的值不一样,影响模型的稳定性。
- AICat采用log归一化,保证了连续值归一化之后的稳定性和单调性,同时log归一化不需要统计连续值的分布,操作更便捷。
离散特征处理即ID化。一般,需要为每一个字符明文值分配一个ID,该ID关联一个唯一的embedding(模型可学习的多维参数)。
- 简单的ID化方法是,为当前所有特征取值构建一个词表,每个取值在词表中的位置即为ID。可能的问题有两个:如果词表与模型绑定,则词表在建立之后无法更改,对于新增离散特征,无法分配新的ID;如果词表与模型独立,当有新增离散特征时,词表随之更新,但要单独维护词表,且保证更新前后的兼容性(旧特征位置不可变,新增特征只能追加到词表末尾),处理较为复杂。
- AICat采用了另一种业界流行的处理方法,直接对于每一个值经过hash映射为一个数字ID,大大简化了流程。当hash空间设置得当,hash冲突率很低,对于每个新增特征也能分配唯一的ID。
此外,AICat还针对复杂特征提供了适配的算子,比如序列特征离散、序列特征归一化、序列特征分桶后离散等。这些算子基本涵盖了模型训练所需的常用特征处理。
综上,AICat的特征处理,结合一些文档示例说明,可以让用户很方便了解算子的实际处理过程,快速构建模型训练所需的特征配置。
3.2.2 模型构建
AICat已涵盖了多种业界常用模型结构,用户可直接调用。如果用户有开发模型结构的需求,AICat基于Keras进行一定的封装优化,降低了开发难度:
- 定义了多种业界常用可嵌入的模型子结构(比如MLP、SeNet等),用户可直接组装,减少重复开发;
- 定义了一个兼容性强的Base模型,用户可直接继承,复用Base模型的属性和方法;
- 提供多种embedding拼接方法,拼接时使用tensorflow式矩阵调用,尽量避免python式循环操作,可降低embedding的获取耗时。
综上,AICat提供了一些模型开发的范式,用户往往只需要自定义子结构的组装方式、loss计算函数,减少了开发量。
3.2.3 分布式训练
分布式训练,即多台机器协同,加快模型训练,一般分为同步训练和异步训练,两种方式的优缺点:
- 同步训练,所有机器都在同一个时刻更新模型参数,模型的协调性更好,训练出来的模型往往效果更好,但训练速度慢。
- 异步训练,各机器独立更新参数,协调性稍差,但训练速度快。
目前训练机器往往是同型号同规格,异步训练的方式不会对模型效果有很大的负面影响。对于大参数量的模型,一台机器存储不下,同步训练方式不能正常训练,但异步训练方式,多台机器共同储存一套模型参数,可以正常训练。
综上所述,AICat采用异步训练方式,兼顾了训练速度和训练效果。
3.2.4 监控
AICat监控系统齐全:
- Grafana实时查看训练机器的CPU、内存等使用情况,方便资源调优。
- Kibana实时打印训练日志,方便查看训练进度和模型效果。
3.2.5 Debug工具
AICat还提供了一些辅助工具,比如本地测试、本地预估、本地算子耗时分析等,方便用户自定义模型时排查可能出现的问题。
四、在线推理
当模型训练完成后,mlengine模块会自动将保存的模型上传到线上。模型保存时,封装了特征处理算子,保证了离线在线预估一致性。要使模型真正生效,还需要传给模型线上特征。平台采用了特征组管理模式,将特征按需分类,用户选择特征组,模型即可正常推理了。
除了便捷性,在线推理还从成本和管理方面进行了优化,包括:
- 模型推理服务:基于Triton和特征平台统一承接在线模型接入需求(与业务解耦),支持多种训练框架,包含RPC服务框架、业务调度框架、模型的管理更新框架、模型计算引擎、监控数据采集、样本采集框架等。
- 用户画像服务:基于MongoDB构建用户画像服务,通过拆分冷热存储方案提高用户数据覆盖率的同时降低存储成本,为各业务提供统一用户画像数据,支持策略和模型的快速迭代。
简而言之,用户可默认模型训练完成后线上即刻部署了模型,此时,用户只需要简单勾选模型关联的特征组,模型就可以实际服务于业务了。
五、总结和展望
自研机器学习平台当前已具备了快速接入模型业务,且稳定迭代的能力,但仍然有很多不足,主要表现在:
- 平台缺少模型效果分析工具。比如当前模型的auc,大致是什么水平,是否还有提升空间,以及怎么改进,平台缺少相关工具,指导用户进行下一步的迭代优化。
- 平台对于大模型的支持不足。比如,百亿参数模型,虽然离线可以训练,但线上不支持分布式部署,单机部署可能内存不足,使得大模型无法真正服务于线上业务。
对于这些不足之处,后续已有一定的规划。比如大模型的分布式部署,分析了常见的大模型结构,可以拆分出embedding参数和网络参数部分,其中embedding参数采用分布式部署,网络参数单机部署,可以解决内存不足问题。
未来,平台将持续收集用户需求,进行针对性优化,以期更好地服务各类模型。