粗排第二讲–样本的构造

2,982次阅读
没有评论

共计 651 个字符,预计需要花费 2 分钟才能阅读完成。

粗排第二讲--样本的构造

前言

第二讲也是拖了蛮久的,现在也开始缓缓登场了,接这上一次的第一讲这一篇会讲粗排样本的生成,今天这一篇会讲一个常规的生成方法,如果你去看论文会有很其他的trick,举个例子就像以前做pairwise的时候,样本的生成就有很多trick。

其实要知道粗排要干的事情的话,在样本生成这块就自然而言就萌生一个想法。

粗排的目的就是要学习精排的序

既然在上面提到精排的序,那么接下来如何学习它的序?

数据来源

序反应的是数据的先后顺序,对于精排日志而言就是推理完之后出来的物料的排序,那么我们想要学习的序不就是精排的排序结果?

ok,至此我们就确定了数据的来源:精排的排序日志

这就要求大家的工程要把精排的排序日志要记录下来哦,不然后面的数据处理就没法进行下去了。

正负样本构造

精排一般会处理几百甚至上千的物料,所以精排的日志输出也是这个量级,接下来面临的问题就是正负样本的选择。

粗排第二讲--样本的构造

上图中举例是精排日志输出500条物料的排序结果,那我们的做法是这样子

  1. 从top 100 里随机选取 M 个作为正样本
  2. 从top 400-500 里随机选取 N 个作为负样本

这里其实是有三个超参数

  1. 选取的数据的截止点,比如上面举例说明的是 100,可以缩小,也可以直接选取top M作为正样本输出
  2. M,N的值大小都是可调的

所以经过正负样本的构造是会生成M+N条样本,这只是一次推理日志得到的结果,那么最终的样本量就是 推理日志数*(M+N)

总结

这样来看其实粗排的目的很明确就是要学习精排的序,样本的生成方式也是从精排的排序日志里处理得来,真的是“取之于精排,用之于精排”

正文完
请博主喝杯咖啡吧!
post-qrcode
 
admin
版权声明:本站原创文章,由 admin 2022-05-16发表,共计651字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码