首发于炼丹笔记

搜索推荐系统实战：起始篇

朱翔宇

算法竞赛退役选手、《阿里云天池大赛赛题解析》作者

在电商搜索中，例如淘宝，拼多多，京东等的搜索的场景往往是：用户A通过搜索框Query找到他/她想要购买的东西，然后搜索引擎通过某些算法策略返回一系列商品，用户再决定是否进行点击购买。

要做好这样一个问题，我们需要抓住问题的核心。那么搜索引擎的核心是什么呢？至少有两点。

从上面看，我们的核心至少有两个，一个是构建Query与Item的关系(保证Query下返回的商品至少是强相关的)，第二个就是构建User和Item的关系（在强相关的商品中，找到用户大概率会点击购买的商品）。

上面两点是很多电商搜索引擎需要做到的，依据平台的不同，可能还会有些许不一致。

在电商搜索背景下，我们的目标依据大佬们对于平台当前的发展定位以及未来规划达到的目标往往会有些许不同，优化的指标也会有较大的不同，常见的一些热门指标如下：

UV价值：店铺转化率越高同时客单价也较高的话，店铺的UV价值就会很不错；如果平台上店铺的uv价值不错，那么商家就只需要通过相关策略提升店铺的uv，往往就可以带来不错的收益。该指标可以从一定程度反映平台的性质，如果转化率很高，但是UV价值很低，那么大家的定位可能就是卖便宜商品的；如果转化高，UV价值也高，这个一般就是非常完美的了。

上面几个指标是电商平时较为关注的，当然还有非常多其它重要的评估指标，例如：总体运营指标，网站流量指标，销售转化指标，客户价值指标，商品及供应链指标，营销活动指标，风险控制指标，市场竞争指标等等，想要深入理解的话可以阅读参考文献[7]。

本文我们重点关注精排侧提升曝光到转化的优化问题，即从曝光到被购买的概率优化问题。

和许多数据建模问题类似，在我们的问题初步确定之后，接下来需要考虑的问题就是设计评估指标并针对问题进行指标的优化。

1. AUC(采样/不采样)

在很多情况下，我们一开始会选用AUC（Area Under Curve）指标来对线下模型进行评估。ROCAUC被定义为ROC曲线下与坐标轴围成的面积，一般我们以TPR为y轴，以FPR为x轴，就可以得到ROC曲线。

在数据量非常大的情况下计算AUC是比较耗时的，有时为了快速迭代，我们会对验证样本进行随机采样然后计算AUC的值进行比较，这在KDD2020 Best Paper中也有讨论，采样之后的AUC一般是没有问题的，所以还是相对稳定的。

AUC指标在诸多问题中是一个非常不错的指标，但是在电商搜索的问题上可能会有些许不一致。举个简单的例子，假设我们每次曝光3个商品，

这个时候，场景1得到的AUC是0.75，而场景2得到的AUC则是1；这么看这个指标好像并不是非常合理，同样的购买情况，但是得到的结果却是不一样的，因而AUC指标把所有的预测结果都放在了一起考虑，所以对于电商搜索等场景该指标有些粗犷了，我们需要一些更加精细的评估指标。

## 场景2
pred_A  = [0.8,0.7,0.6]
pred_B  = [0.8,0.7,0.6]

label_A = [1,0,0]
label_B = [1,0,0]
roc_auc_score(y_score=pred_A + pred_B, y_true=label_A + label_B)

1.0

一些特征对于某些特定任务是非常易于学习的,但是对于另外一个任务A可能却很难学,而这种难学可能是由于特征和任务A的关系较为复杂等原因造成的，通过多任务学习，我们可以令任务B去学习，而最简单的方式就是通过hints去做这件事。还常见于一些图像问题中,单独分出一个任务识别小的物体信息;

经典的工作有：

第一篇文章通过预测输入句中是否含有积极或消极的情绪词，作为情绪分析的辅助任务; 第二篇则通过模型输出前面任务的预测结果作为Hints信息传递给后续的模型当中。

4. 用于决策过程,缓解SSB/DS,调优中间结果or利用前一决策信息

此处说的决策过程最典型的例子就是在电商的购物流程中, 消费者购物需要经历:exposure -> click -> pay的过程。

1. 缓解SSB/DS,调优中间结果

这在电商搜索和广告问题里面最为经典的就是CVR预估问题，CVR预估在整个决策的中间阶段，直接使用中间阶段的数据则会出现较多的问题，例如SSB(Sample Selection Bias),DS(Data Sparsity)等，那么怎么办呢？用多任务学习将整个决策过程串联起来。最为典型的工作就是：

这样我们建模的时候就可以利用到丰富的点击数据，从而使得我们神经网络中的Embedding得到更为充分的训练，缓解Data Sparsity的问题，此外，我们的建模目前是直接基于曝光建模的，也可以缓解SSB问题。

那为什么我们说还可以修正中间结果呢？我们以第一篇ESMM为例，我们看用户的购物过程是下面这样一个过程：用户先进行了搜索，然后得到了搜索引擎的反馈X1, 用户对自己相对感兴趣的商品进行点击, 进入了详情页X2, 然后通过在X1看到的信息并结合X2的信息以及自身的需求确定是不是购买。如下图所示, 此处我们先不考虑加购收藏等情况,

2. 利用前一决策的信息

在用户决策的过程中,存在先后顺序,在后续的决策过程中,我们可以通过利用前一阶段的信息来辅助后续的建模。典型的案例有：

这几个工作都会将前一阶段的信息作为特征输入输入到后续的模块当中,而且都取得了不错的效果。我们在实践中也验证了这一点。

5. 模型集成

一个模型,中间多次相同任务的优化,中间表示层拼接然后做CF,可以做到类似集成效果;典型的工作有:

Improving One-class Recommendation with Multi-tasking on Various Preference Intensities,RecSys2020

6. 赋能添加其他功能,例如可解释性等

多任务学习用于多个不同任务的建模也就意味着模型会拥有这些不同任务的功能。除了能辅助提升模型效果之外, 还可以扩展模型的功能性。达到一个模型多个功能的效果。典型的作品有：

这两个工作将原任务和知识图谱等信息结合并利用知识图谱部分的任务对原模型赋能，使得模型还具有了一定的可解释性。

从我们关于DeepMTL有效性的调研情况来看，电商搜索中采用DeepMTL模型建模能带来收益的原因主要有下面几点：

在明确了DeepMTL的建模有效性之后，下一步要做的就是去细化它。

虽然确立了DeepMTL的建模框架，但其实还存在非常多需要细化的地方，和一些做该方向的朋友交流之后，我们发现目前大家采用的DeepMTL框架大致可以按照对于数据流的使用方式不同而划分为两类。当然不管是哪种方式，都是有很多可以提升的地方的，下面我们将两种建模策略的诸多问题以及可能潜在的提升策略进行汇总。

1. CTR数据流+CVR数据流

CTR数据流+CVR数据流的大致流程如下图所示：

下面我们介绍这种策略的几个问题，以及对应的处理策略；

1.CTR/CVR数据流浪费问题：

实验小结：对于网络侧的batch_size以及数据集的使用对于此类建模策略影响还是非常大的，是非常建议尝试的，算是一种没太多技术含量，但是实践价值却很大的操作，我们经常可以在调整之后得到稳定的增长（多天验证）；

2.CTR&CVR网络数据层面的关联性丢失：

实验小结：设计辅助Loss，在使用CTR数据流+CVR数据流建模的情况下，可以稳定提升曝光到转化的预估准确率；

3.CTR&CVR网络数据Cotrain的问题：

发现：在模型的过程中，我们发现先对CTR网络先进行单独训练，固定住CTR网络再对CVR网络进行训练，相较于CTR网络和CVR网络共同训练带来的效果要好很多，但是训练的成本也会大一些，这个发现应该是通用的，也较容易理解，我们先对CTR网络进行训练完成之后，我们的embedding会获得一个不错的中间结果，这个时候我们再在此基础上训练CVR网络，肯定会比一起训练来的要好一些。

2. 纯CTR数据流

基于对CTR数据流和CVR数据流Cotrain的讨论，我们发现既然CVR的数据是全部被包含在CTR数据中的，分开训练又浪费数据又没法直接关联关系，既然所有的CVR数据流都来源于CTR数据流，那为什么不只使用CTR数据流呢？于是便有了基于CTR数据流的建模。

1.CTR&CVR网络数据层面的优点：

2. 可待继续改进的地方：

加入辅助Loss，这边也较为简单，直接使用曝光到购买的信息构建Binary Cross Entropy Loss即可；

利用exposure -> click -> pay的序列关系进行建模。

实验小结：基于DeepBayesian MTL的框架在曝光到转化率的预估过程中能带来较大的收益，和论文中阐述的相差不大，这种对过程建模的方式可以从这套框架中获得非常大的帮助。

在上面小节的讨论中，我们确定了我们模型大致框架，即使用单CTR数据流的DBMTL形式的建模策略，其实本质还是DeepMTL，所以关于DeepMTL中的挑战的处理往往可以为我们的模型带来不错的提升。

1. 相关任务的寻找&辅助Loss的设计

2. 不同任务之间特征层信息的共享问题(如何避免负迁移);

这块最具代表性的工作就是MMOE,RecSys2020的Best Paper提出的PLE等算法了。不同任务的共享不可避免要讨论的就是共享层特征的公用问题，目前看PLE算法已经较好地解决了多任务特征层信息共享出现的跷跷板现象。但是有没有其他更好的策略仍然值得研究。

MMOE之前在CTR+CVR Cotrain的框架下得到了不错的提升，这块是非常值得参考的。

3. 不同任务之间的loss权重设计;

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

4. 模型优化,不同任务共同优化;

在实践中,我们发现,对于不同的任务使用不同的优化方式进行优化可以给模型带来一定的帮助。在Taboola工程师的实践经验分享中也发现了这样的问题，如何对不同的任务进行优化也是一个值得探索的问题。

It’s a common convention that learning rate is one of the most important hyperparameters for tuning neural networks. So we tried tuning, and found a learning rate that looked really good for task A, and another one that was really good for task B. -- By Zohar Komarovsky