共计 758 个字符,预计需要花费 2 分钟才能阅读完成。
好久没更新了,最近经常加班时间上也跟不上,但是每天晚上回来坚持看点书,但是自己也没动手写过,现在回头想想之前看过啥感觉有点茫然,还是得自己动手写点东西,虽然现在很晚了。。。开始步入正题
概念
讲到贝叶斯瞬间想到先验概率、后验概率和联合概率分布等相关概率概念,当然贝叶斯分类器也是基于概率的模型来分类,之前写过的混合高斯模型,就是用指定M个子高斯模型去表征当前的样本特征的分布,每个高斯子模型都有一个权重概率,权重概率之和为1
假设当前样本X有N个分类类别{y1,…..yN},K(i,j)表示属于yj的样本被误分类为yi的损失,那么根据后验概率可以推断出样本x被分类为yi的期望损失
Risk(yi|x)=K(i,j)p(yi|x) j=1:N
如果上述的期望值越大表示被误分类的风险越大,因此需要最小化当前的风险,上述只是描述了一个样本的期望损失,对于整个样本集而言的话需要所有的样本都满足那个条件,因此衍生了贝叶斯判定准则:在每个样本上选择使损失最小的类别标记,也就是后验概率估计
min Risk(yi|x)
上述优化问题就是贝叶斯最优分类器
假设当前的k(i,j)在i=j时为0,其余为1,Risk(yi|x)=1-p(yi|x),公式的推导可以这么想,就是对x样本正确分类的对立事件错误分类,所以直接使用1减去相应的正确分类就得到错误分类的概率,这就是公式的理解。
所以min Risk(yi|x)最优化问题可以变化为max p(yi|x),最大化后验概率问题了
后验概率在现实生活中难以直接得到,因此需要想法计算,一种直接建模,另外一种利用贝叶斯公式,考虑联合概率等
这个涉及到对样本和分类结果进行建模,然后估计参数,这就会用到最大似然估计方法,最大似然估计可以见https://www.deeplearn.me/704.html