共计 644 个字符,预计需要花费 2 分钟才能阅读完成。
背景
延迟转化应该是很多 cvr 预估场景都会遇到的问题,这个也是用户的行为有很大的关心,本身用户的深层行为是一个漏斗,越往深层行为越稀疏。这就衍生一个问题,使用实时的数据去更新模型就会遇到label标签不准的问题,最近看到阿里的es-dfm这里列举了多个延迟归因模型,我也看了一段时间的延迟归因相关的,就此慢慢的说下当前看到的一些方法或者思路。
基于回流概率样本加权
目前模型是增量训练方式进行更新的,深度转化行为延迟比较大,如果不做特殊处理容易一个点击行为先发生,作为负样本进入模型进行训练,过了几天用户付费了,再以正样本进入模型训练。一方面是训练不准确,另一方面对于新上线广告而言容易出现较大转化率低估的情况。这个延迟问题对于Ctr模型来说会更加大。
这里我们认为7天是转化行为回流最大窗口(能覆盖95%+的情况),首先会增量训练一个T-7的模型,因为这个时候转化数据已经回流完全,因此这个模型没有延迟转化问题。
然后每天会刷新最近7天的正负样本数据,并且根据每天转化回流比例来调整样本权重来打平正负样本比。接着我们会base T-7的模型,以最近7天的调权样本数据进行增量训练,得到T-0的模型,这样T-0模型在样本比例上打平了延迟转化问题。
总结
上面的这种方式需要计算 t-7 内每天的回流比,以此来实现样本的加权,我自己的理解是不同的转化目标回流的比例也是不一样的,针对不同的目标要分别计算作为样本的权值。
这种没有改变现有的模型,只是调节了权重,后续还会有很多是通过模型的方式来实现ubias 估计。