粗排第二讲–样本的构造

3,354次阅读

共计 651 个字符，预计需要花费 2 分钟才能阅读完成。

粗排第二讲--样本的构造

第二讲也是拖了蛮久的，现在也开始缓缓登场了，接这上一次的第一讲这一篇会讲粗排样本的生成，今天这一篇会讲一个常规的生成方法，如果你去看论文会有很其他的trick，举个例子就像以前做pairwise的时候，样本的生成就有很多trick。

其实要知道粗排要干的事情的话，在样本生成这块就自然而言就萌生一个想法。

粗排的目的就是要学习精排的序

既然在上面提到精排的序，那么接下来如何学习它的序？

序反应的是数据的先后顺序，对于精排日志而言就是推理完之后出来的物料的排序，那么我们想要学习的序不就是精排的排序结果？

ok，至此我们就确定了数据的来源：精排的排序日志

这就要求大家的工程要把精排的排序日志要记录下来哦，不然后面的数据处理就没法进行下去了。

精排一般会处理几百甚至上千的物料，所以精排的日志输出也是这个量级，接下来面临的问题就是正负样本的选择。

粗排第二讲--样本的构造

上图中举例是精排日志输出500条物料的排序结果，那我们的做法是这样子

这里其实是有三个超参数

所以经过正负样本的构造是会生成M+N条样本，这只是一次推理日志得到的结果，那么最终的样本量就是 $推理日志数*（M+N）$

这样来看其实粗排的目的很明确就是要学习精排的序，样本的生成方式也是从精排的排序日志里处理得来，真的是“取之于精排，用之于精排”

正文完

请博主喝杯咖啡吧！

发表至： Alg

2022-05-16

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

粗排第一讲–基本概念

前言