林轩田老师-机器学习基石学习笔记4

2017/11/09 learning note 共 2030 字,约 6 分钟

本次的这节课,开篇讲的是,我们如何透过已知的数据(样例)得到未知数据的方法的限制条件。也就是是否针对问题进行机器学习。说白了就是讲解机器学习的可行性


这幅图说明了对于同一组数据,评判标准不一样,学习的结果就不一样,对于新数据的分析就不一定一样。

再说透彻一点就看下面这个例子,灰色的数据是我们可以用来学习的D的部分:


我们可能学习到了8个假设,这8个假设在D所涉及的数据中给出的大难都是对的,但是对于D以外的,不同的假设给出的答案不一样,效果注定也就不一样。

而我们学习的目的,是希望我们选择的假设能在未知数据上的预测与真实结果是一样的。

这就是D中f=g,但是D外呢?

这个例子恰恰说明了依靠D以外的数据获得理想的解释函数是几乎不可能的,同时,就算D中的数据得到的假设,也很难保证D外的数据也符合,所以这个NFL(No Free Lunch)的理论说明的问题就是这么个事——我们找不到满足D内D外的,只有机会找到最优的。


尽管貌似,真的找不到最优的,那能不能用D内的结果说明些什么呢?

比如一个罐子里有橘色和绿色的珠子:

抽样调查:

实际的:assume 橘色:u,绿色1-u

但是给的例子sample 橘色:v,绿色1-v

现在想要知道v和u的关系?

u为out-sample

v为in-sample

这里要引入一个hoeffding不等式:


这个不等式的证明是给大伙感兴趣的去学习的~(可能要用到马尔科夫)

这个不等式说明的问题就是:

当N很大时,u和v很接近,是PAC的(probably approximately correct)

这里的伊普西龙是一个被称为“容忍度”的变量,这个式子再详细的看会发现:

实际上,决定值应该是N和E(伊普西龙),这里会发现名N芬达或者E很大都可以满足v和u很接近

知道了这个之后,把他和我们的机器学习联系起来:

当橘色是代表着h(x)!=f(x),绿色是h(x)=f(x),我们可以通过刚才的不等式可以知道:

如果数据集够大,且每个假设都是独立的,那么在D内的h(x)!=f(x)可以说明D外h(x)!=f(x)。

只要我们保证前者小(Ein),后者也就小了(Eout)。


这幅图是,本章的核心三图之一,也是第一幅。

我们从unKnown的数据集中以P的概率选取了N个数据进入训练集,得出的一个又一个假设,对于任何一个这样的固定假设,会说明:

unKnown和Known有如下的关系:

N很大的时候,Ein(h)≈Eout(h),但是并不意味着g≈f。因为h是固定的,不能保证Ein(h)足够小,即使Ein(h)≈Eout(h),也可能使Eout(h)偏大。所以,一般会通过演算法A,选择最好的h,使Ein(h)足够小,从而保证Eout(h)很小。固定的h,使用新数据进行测试,验证其错误率是多少。

结论:一个好的演算法A应该在若干个h中进行选择,而不是被迫选择某个固定的h

得出来下面这个图:


多了个历史数据集,与原训练集并为核实后的数据样本。

下面就要说下这个数据集,这个数据集自然有好样本和坏样本,课堂上老师局的例子个人以为是用概率的方式证明了坏样本的存在概率还是蛮大的,因此,花了蛮多的篇幅。


自然有很多的数据对于一些假设而言是BAD的,像上图,D1126是最好的例子,但是现实中,难免会拿到D5678这样的数据,那么怎么办呢?这边需要引入一个不好的数据的上限要求:


这里的上限要求是结合霍夫丁不等式的,浅显易懂,这里直接将整个的上限要求交给了M和N和E(伊普西龙)来决定。

其中,M是hypothesis的个数,N是样本D的数量,ϵ是参数。该union bound表明,当M有限,且N足够大的时候,Bad Data出现的概率就更低了,即能保证D对于所有的h都有Ein≈Eout,满足PAC,演算法A的选择不受限制。那么满足这种union bound的情况,我们就可以和之前一样,选取一个合理的演算法(PLA/pocket),选择使Ein最小的hm作为矩g,一般能够保证g≈f,即有不错的泛化能力。(应用一起学习的某大神的原话)

而我自己总结一下,就是最理想的算法可以从M个h中选择一个最理想的h,有着最低的Ein作为g

所以M要有限、N要足够大,这样A有机会找到Eout(g)  Ein(g)的g

当Ein近似等于0时,学习便成为了可能。

但是,M真的无穷多怎么办呢(之后的课会说到


于是,核心三图的最后一张也就出来了,这个就是最终的学习蓝图

在未知数据集中,以以一个概率选择N个数据作为训练集,学习到了很多的假设存在了H的假设集中,学习算法A可以从中选出一个合适的进行最后的利用未知数据集的测试,从而选择最后的那个最接近g的映射f出来。

总结,其实就四句话,

1、不要指望只对样本分析就可以出最后的学习结果

2、Ein和Eout在N很大的时候很接近

3、当假设h的数量够选的时候,A有机会选出最好的。

4、N要足够大,M要有大小且有限,就可以保证Ein足够小。

文档信息

Search

    Table of Contents