生成式强化学习在七猫小说内容扶持业务的实践

一、背景


内容生态是平台核心护城河,优质新书冷启、生态培育与爆款孵化,直接决定平台长期内容竞争力与商业化天花板,对于七猫原创优质小说,推荐系统会通过扶持系数提高书籍的曝光,助力优质内容前期成长;扶持总流量有限,如何高效的利用有限流量扶持尽可能多的书籍,是扶持策略需要解决的重点问题。

七猫生态扶持策略经过长期迭代,升级多个版本,从V1基础扶持策略,到V2PID控制策略, 到目前的V3强化学习策略版本,依托时序强化学习全局序列决策能力,可实现扶持权重智能动态调配,兼顾短期分发指标与长期内容生态价值,构建更精细化、长效化的智能内容扶持体系。

本文重点讲述基于生成式强化学习的动态调权策略。在总扶持流量受限的前提下,策略将内容扶持力度建模为时序序列优化问题,通过价值函数引导探索,利用Transformer架构对全天48个时间步的全局状态进行建模,生成适配不同书籍的最优扶持系数序列。设计的复合奖励函数确保模型在提升新增阅读量的同时,兼顾转化效率与扶持系数约束。

实验表明,该策略在固定流量下显著提升了书籍曝光效率,尤其在30-100万字的优质连载书中效果突出,为内容平台的资源分配提供了新的技术范式。

二、强化学习与生成式强化学习核心介绍


强化学习(Reinforcement Learning, RL)是机器学习的重要分支,核心是通过智能体(Agent)与环境(Environment)的持续交互,学习最优的序列决策策略,以最大化长期累积奖励。

强化学习与监督学习、无监督学习是机器学习的三大范式:

学习方式类比典型应用
监督学习做题册+标准答案,反复练习,参加考试图像识别、语音识别
无监督学习没有答案,自己归纳规律大模型预训练、聚类
强化学习写作文,老师打分,自己总结哪里好哪里差游戏AI、机器人


与监督学习依赖标注数据、无监督学习侧重数据聚类不同,强化学习无需提前提供“正确答案”,而是通过“试错”机制,让智能体在动态环境中不断调整动作,逐步掌握适配场景的决策逻辑,其核心特征是“时序性”与“目标导向性”。

强化学习的核心框架由状态(State)、动作(Action)、奖励(Reward)三大要素构成:状态是智能体感知到的环境信息,动作是智能体做出的决策行为,奖励是环境对动作的反馈信号,智能体的核心目标就是通过调整动作序列,实现长期奖励的最大化。近年来,强化学习的应用已从游戏领域(如AlphaGo击败人类棋手),蔓延到所有需要序列决策的行业,包括内容分发、广告出价、机器人控制、金融交易等,成为解决动态环境下多目标优化问题的核心技术。

强化学习的几个关键概念,用"出租车司机开车"来理解:

  • 状态(State):当前所在位置、油量、时间——即"当下处境"
  • 动作(Action):往左走、往右走、等待——即"可以做什么"
  • 奖励(Reward):送到乘客得到车费,走错路扣时间——即"这次做得好不好"
  • 策略(Policy):司机的驾驶经验——即"在什么情况下做什么"
  • 价值函数:评估"当前这条路长远来看能不能多赚钱"——即"这个决策的长期价值"强化学习要解决的问题就是:如何让司机通过不断跑单,总结出一套"长期总收入最大化"的接单、行驶策略。

生成式强化学习(Generative Reinforcement Learning)是强化学习与生成式模型的结合体,是当前RL领域的前沿方向。它在传统强化学习的基础上,融入了生成式模型(如Transformer、GAN等)的序列生成能力,打破了传统RL对动作空间的限制,能够生成更具灵活性、多样性的最优动作序列,同时具备更强的全局视野和探索能力。

与传统强化学习相比,生成式强化学习的核心优势体现在两方面:

  • 序列生成能力,能够基于历史轨迹数据,生成适配全局场景的连续动作序列,而非单一时间步的局部最优动作.
  • 探索-利用的平衡能力,通过生成式模型的引导,既能够利用历史经验保证决策的稳定性,又能主动探索未出现过的更优策略,突破历史数据的局限.

其中,基于决策Transformer(DT)的生成式RL模型最为典型,它将“状态-动作-奖励”序列视为文本序列,通过Transformer架构预测下一个最优动作,类似大模型生成文本的逻辑,兼具稳定性与灵活性。

传统强化学习多适用于简单、静态的决策场景,而生成式强化学习则更适配复杂、动态、多目标的工业场景,能够有效解决传统RL在长时序决策、动作空间复杂、多目标平衡等方面的短板,为工业级序列决策问题提供了更高效的解决方案。

三、强化学习在七猫内容扶持的实践应用

在七猫小说的内容分发场景中,优质新内容的启动扶持是核心业务痛点,而这一场景恰好是强化学习(尤其是生成式强化学习)的核心应用场景。七猫的内容扶持策略,本质是在总曝光流量有限的前提下,给特定书籍叠加扶持系数,提升其展示竞争力,进而实现新增阅读量、转化效率、扶持成本的多目标优化,这是一个典型的多目标、长时序、动态环境的序列决策问题,与强化学习的核心适配度极高。

七猫内容扶持的核心难点有:

  • 预算有限:总曝光流量固定
  • 扶持系数需控制:避免干扰整体推荐效果
  • 流量时变性强:早晚高峰流量价值差异大
  • 书籍转化能力不均:不同书籍的曝光-新增阅读转化效率差异显著

传统规则系统通过“打补丁”的方式平衡多目标,易出现策略冲突、效果不稳定等问题,而强化学习的全局决策能力能够有效解决这一痛点。

针对上述核心痛点,我们自主研发了基于生成式强化学习的自适应时序调权框架,突破传统规则系统在内容分发场景的适配瓶颈,实现扶持策略的全流程自主优化。

3.1 七猫内容扶持业务的强化学习建模

在系统设计上,我们构造七猫内容扶持业务场景的强化学习三要素:

🕐 时间切分

将一天划分为 48 个时间步(每步30分钟),模型在每个时间步输出每本扶持书的扶持系数。

📊 状态(State):模型"看到"什么?

每个时间步,模型能看到的信息包含三个层次:

  • 时间维度:当前是第几个时间步(感知"时间紧迫感")
  • 书籍维度:

a 当天已累计的PV、展现、点击、新增阅读数

b 近3个时间步的滑动窗口特征(短期趋势)

c 扶持目标:今天这本书要拉多少新读者(目标感知)

d 书籍静态特征:类别、字数、评级等

  • 大盘维度:整体平台的实时流量和转化情况

🎮 动作(Action):模型"做"什么?

模型输出的是一个连续数值——当前时间步的扶持权重系数。

🏆 奖励(Reward):如何衡量"做得好不好"?

这是整个设计最核心也最难的部分。单一奖励无法覆盖多目标,我们设计了一个乘积形式的复合奖励

最终得分 = 新增阅读完成度 × 效率惩罚系数 × 扶持系数惩罚系数

奖励分量含义效果
新增阅读完成度当前完成了多少比例的拉新目标驱动模型"必须完成任务"
效率惩罚如果转化率低于底线,进行非线性惩罚(可配置惩罚强度)防止模型"花大钱办小事"
扶持系数惩罚系数扶持系数越高,惩罚越大防止模型出太高扶持系数干扰大盘


为什么用乘积而不是加权求和?

乘积的含义是:任何一个维度接近0,总分就接近0。这迫使模型必须同时把三个维度都做好,而不是用某一个高分来掩盖另一个的失败。类比:一个员工绩效 = 工作量完成度 × 质量达标系数 × 成本控制系数。任何一项不及格,综合绩效都会大幅下滑。

至此,我们将内容扶持业务建模为强化学习模型, 三要素状态、动作、奖励中,状态层面创新性融入书籍语义特征嵌入模块,将书籍类别、字数、评级等静态特征与实时流量反馈特征深度融合,解决了传统模型“重时序、轻内容”的弊端,让调权策略更贴合书籍本身的转化潜力;动作层面,设计连续型动态调权输出机制,结合书籍转化潜力动态调整扶持系数的波动范围,避免单一系数过高或过低导致的效果失衡;奖励层面,采用乘积式复合奖励函数,确保扶持调权既兼顾量、效率、成本三大目标,又能贴合用户阅读偏好,进一步提升转化质量;

3.2 模型结构及如何学习

模型采用离线生成式强化学习模型

离线强化学习:为何选取离线强化学习? 在线的强化学习需要在真实环境中不断“试错”,在真实生产系统中风险极高,会造成大量流量损失和用户体验下降;离线强化学习接从历史日志数据(轨迹数据)中学习,安全性极高;

扶持轨迹数据:就是扶持书籍历史的状态、动作、奖励三元组序列,序列长度是48,对应每一天的48个时间步;如:(目标奖励-r1, 状态-s1,扶持系数-a1,目标奖励-r2, 状态-s2,扶持系数-a2,...,目标奖励-r48, 扶持系数-a48,奖励-r48)

奖励我们使用 RTG (Reward-to-Go):它不是告诉模型“你现在得到了多少奖励”,而是告诉模型“为了达成全天目标,你接下来还需要获得多少奖励” ,模型从“被动响应”到“目标驱动”;

生成式强化学习:以决策Transformer为基础架构,我们知道Transformer是大模型的基础结构,输入一段文字,模型自动生成后续的文字;DT(Decision Transformer)是把文字替换为"状态-动作-奖励"序列, 即如上的扶持轨迹数据

模型结构:

  • 目标奖励、状态、扶持系数经过向量层后依次进入transformer结构中;
  • t时间步状态之前的轨迹输入模型后, 生成模型预估的扶持系数、当前状态的价值;
  • t时间步扶持系数之前轨迹输入模型后,生成模型预估的目标奖励;引入基于状态价值的探索,让模型有机会尝试历史数据中未出现过的探索扶持系数
  • 根据模型生成的扶持系数、价值函数、目标奖励、探索扶持系数和真实的扶持系数、目标奖励、价值函数等差异训练模型

模型优点:

  1. 设计了可定制的综合评分作为目标奖励,同时兼顾扶持完成度、效率约束、扶持系数约束,三个目标权重可按需调整.
  2. 模型的动作选择上引入受控的探索,让模型有机会尝试历史数据中未出现过的更优扶持策略.
  3. 价值函数约束探索边界:探索不能漫无目的,训练的价值函数来评估"这次探索方向是否有价值";高价值方向:继续探索;低价值方向(可能带来亏损):拒绝.
  4. 普通算法只看"现在",Transformer 架构可以看到整天 48 个时间步的全局视野, 全天整体规划扶持策略.
  5. 高安全性,可直接工业落地, 基于历史数据训练,比在线试错的崩溃风险低得多.
  6. 动态响应运营干预,运营人员临时修改某本书的扶持目标,模型能通过 State 中的目标参数自动感知并调整策略,无需重新训练

3.3、策略效果

目前推荐榜、生成信息流主要场景已升级为强化学习扶持策略,对比之前策略,在固定扶持流量下,扶持书整体新增阅读增加5%,30-100w四五星原创连载书新增阅读增加6%,头部优质扶持书新增阅读增加20%;

展示评论