共计 622 个字符,预计需要花费 2 分钟才能阅读完成。
其实吧这篇文章可写可不写,因为这个偏差和方差的问题在机器学习中算是经常遇到,大家根据不同的业务场景来做相应的取舍。说道这个也是昨天晚上看深度学习课程的时候,吴恩达大大提到了传统的机器学习方法一般情况下很难固定其中一个减小另外一个,但是深度学习可以做得到,当然深度学习的调参依赖于一定的手段,最佳的参数也是在不断的尝试中得到。从这一点来说,深度学习可以占据一定的优势。
既然都写到这里了,干脆说一下这两个概念吧!有兴趣的可以看看。。。。
一般情况下我们对于收集到的数据划分为三个部分:
- 训练集
- 训练验证集
- 测试集
训练集就是用来训练模型的呗,训练验证集就是拿来测试训练好的模型好不好,测试集就是实际训练使用时的效果啦!很多时候你只会接触到两个也就是前两个,依赖于前两个数据集就可以训练出较好的模型,当然你的数据量要足够。
下面给出一组图,当然这个图在网上到处可见了
每幅图的下面都给出了结果,我在此简单的说明下。你看第一幅图线性分割线分错了不少样本,在训练集上表现的效果不好,就在训练集上得到的误差应该比较大,但是它有一定的泛化能力,说不定在训练验证集上取得的效果还可以,这时我们对当前的模型定义为高偏差。再来看最后一幅图,模型是超级复杂的模型,在训练集上一个错误都没有,也就是说明这个模型学习的东西太多了,把一些极端的特性都学会了,这些极端的特性说不定由哪几个特殊的数据样本导致的,那么他在训练验证集就不一定产生较好的效果了,这时我们对此的定义是高方差的情况。
写的不错