共计 651 个字符,预计需要花费 2 分钟才能阅读完成。
前言
第二讲也是拖了蛮久的,现在也开始缓缓登场了,接这上一次的第一讲这一篇会讲粗排样本的生成,今天这一篇会讲一个常规的生成方法,如果你去看论文会有很其他的trick,举个例子就像以前做pairwise的时候,样本的生成就有很多trick。
其实要知道粗排要干的事情的话,在样本生成这块就自然而言就萌生一个想法。
粗排的目的就是要学习精排的序
既然在上面提到精排的序,那么接下来如何学习它的序?
数据来源
序反应的是数据的先后顺序,对于精排日志而言就是推理完之后出来的物料的排序,那么我们想要学习的序不就是精排的排序结果?
ok,至此我们就确定了数据的来源:精排的排序日志
这就要求大家的工程要把精排的排序日志要记录下来哦,不然后面的数据处理就没法进行下去了。
正负样本构造
精排一般会处理几百甚至上千的物料,所以精排的日志输出也是这个量级,接下来面临的问题就是正负样本的选择。
上图中举例是精排日志输出500条物料的排序结果,那我们的做法是这样子
- 从top 100 里随机选取 M 个作为正样本
- 从top 400-500 里随机选取 N 个作为负样本
这里其实是有三个超参数
- 选取的数据的截止点,比如上面举例说明的是 100,可以缩小,也可以直接选取top M作为正样本输出
- M,N的值大小都是可调的
所以经过正负样本的构造是会生成M+N条样本,这只是一次推理日志得到的结果,那么最终的样本量就是 推理日志数*(M+N)
总结
这样来看其实粗排的目的很明确就是要学习精排的序,样本的生成方式也是从精排的排序日志里处理得来,真的是“取之于精排,用之于精排”
正文完
请博主喝杯咖啡吧!