walk,人工智能算法(3)决策树(DT),趣学车

小编推荐 · 2019-04-08

决议计划树是一种经过对前史数据进行测算完结对新数据进行分类和猜测的算法。简略来说决议计划树算法便是经过对已有清晰成果的前史数据进行剖析,寻觅数据中的特征。并以此为依据对新发生的数据成果进行猜测。


决议计划树由3个首要部分组成,walk,人工智能算法(3)决议计划树(DT),趣学车别离为决议计划节点,分支,和叶子节点。其间决议计划树最顶部的决议计划节点是根决议计划节点。每一个分支都有一撸小子游戏个新的决议计划节点。决议计划节点下面是叶子节点。每个决议计划节点表明一个待分类的数据类别或特点,每个叶子节点表明一种成果。整个决议计划的进程从根决议计划节点开端,从上到下。依据数据的分类在每个决议计划节点给出不同的成果。



结构决议计划树是一个杂乱的作业。下面咱们将介绍决议计划树中的ID3算法和“信息熵”的概念。并手艺创立一个简略的决议计划树,用以阐明整个构建的进程和思路。


ID3算法


结构决议计划树的办法有许多种,ID3是其间的一种算法。ID3算法最早是由罗斯昆(J. Ross Quinlan)1975年在悉尼大学提出的一种分类猜测算法,中心是“信息熵”。ID3算法以为“互信息”高的特点是好特点,经过核算前史数据中每个类别或特点的“信息熵”取得“互信息”,并挑选“互信息”最高的类别或特点作为决议计划树中的决议计划节点,将类别或特点的值做为分支持续进行割裂。不断重复这个进程,直到生成一棵迪克牛仔女儿完好徐峰龚俊的决议计划树。


信息熵的意义及分类


信息熵是信息论中的一个重要的目标,是由香农在1948年提出的。香农借用了热力学中熵的概念来描绘信息的不确认性。因而信息学中的熵和热力学的熵是有联络的。依据Charles H. Bennett对Maxwell’s Demon的从头解说,对信息的毁掉是一个不可逆进程,所以毁掉信息是契合热力学第二定律的。而发生信息,则是为体系引进负(热力学)熵的进程。所以信息熵的符号与热力学熵应该是相反的


简略的说信息熵是衡量信息的目标,更切当的说是衡量信息的不确认性或紊乱程度的目标。信息的不确认性越大,熵越大。决议信息卜贤圭的不确认性或许说杂乱程度首要要素是概率。决议计划树中运用的与熵有关的概念有三个:信息熵,条件熵和互信息。下面别离来介绍这三个概念的意义和核算办法。


信息熵


信息熵是用来衡量一元模型中信jackroad息不确认性的目标。信息的不确认性越大,熵的值也就越大。而影响熵值的首要要素是概率。这儿所说的一元模型便是指单一工作,而不确认性是一个工作呈现不同成果的或许性。例如抛硬币,或许呈现的成果有两个,别离是正面和不和。而每次抛硬币的成果是一个十分不确认的信息。因为依据咱们的经历或许前史数据来看,一个均匀的硬币呈现正面和不和的概率持平,都是50%。因而很难判别下一次呈现的是正面仍是不和。这时抛硬币这个工作的熵值也很高。而假如前史数据通知咱们这枚硬币在曩昔的100次实验中99次都是正面,也便是说这枚硬币的质量不均匀,呈现正面成果的概率很高。那么咱们就很简单判别下一次的成果了。这时的熵值很低,只要0.08。



咱们把抛硬币这个工作看做一个随机变量S,它或许的取值有2种,别离是正面x1和不和x2。每一种取值的概率别离为P1和P2。咱们要取得随机变量S的取值成果至少要进行1次试黄境清验,实验次数与随机变量S或许的取值数量(2种)的对数函数Log有联络。Log2=1(以2为底)。因而熵的核算公式是:



在抛硬币的比如中,咱们凭借一元模型本身的概率,也便是前100次的前史数据来消除了判别成果的不确认性。而关于许多现实生活中的问题,则无法只是经过本身概率来判别。例如:关于气候状况,咱们无法像抛硬币相同经过晴天,雨天和雾霾在前史数据中呈现的概率来判别明日的气候,因为气候的品种许多,而且影响气候的要素也有许多。同理,关于网站的用户咱们也无法经过他们的前史购买频率来判别这个用户鄙人一次拜访时是否会完结购买。因为用户是的购买行为存在着不确认性,要消除这些不确认性需求更多的信息。例如用户前史行为中的广告创意,促销活动,商品价格,配送时刻等信息。因而这儿咱们不能只凭借一元模型来进行判别和猜测了,需求取得更多的信息并经过二元模型或更高阶的模型了解用户的购买行为与其他要素间的联络来消除不确认性。衡量这种联络的目标叫做条件熵。


条件熵


条件熵是经过取得更多的信息来消除一元模型中的不确认性。也便是经过二元或多元模型来下降一元模型的熵。咱们知道的信息越多,信息的不确认性越小。例如,只运用一元模型时咱们无法依据用户前史数据中的购买频率来判别这个用户本次是否也会购买。因为不确认性太大。在参加了促销活动,商品价格等信息后,在二元模型中咱们能够发现用户购买与促销活动,或许商品价格改动之间的联络。并经过购买与促销活动一同呈现的概率,和不同促销活动时购买呈现的概率来下降walk,人工智能算法(3)决议计划树(DT),趣学车不确认性。



核算条件熵时运用到了两种概率,别离是购买与促销活动的联合概率P(c),和不同促销活动呈现时购买也呈现的条件概率E(c)。以下是条件熵E(T,X)的核算公式。条件熵的值越低阐明二元模型的不确认性越小。



互信息


互信息是用来衡量信息之间相关性的目标。当两个信息彻底相关时,互信息为1,不相关时为0。在前面的比如中用户购买与促销活动这两个信息间的相关性终究有多高,咱们能够经过互信息这个目标来衡量。详细的核算办法就熵与条件熵之间的差。用户购买的熵E(T)减去促销活动呈现时用户购买的熵E(T,X)。以下为核算公式:



熵,条件熵和互信息是构建决议计划树的三个要害的目标。下面咱们将经过一个维基百科中的实例阐明创立决议计划树的进程。


构建决议计划树实例


这是一家高尔夫球沙龙的前史数据,里边记载了不同气候状况用户来打高尔夫球的前史记载。咱们要做的是经过构建决议计划树来猜测用户是否会来打高尔夫球。这儿用户是否来打球是一个一元模型,具有不确认性,熵值很高。咱们无法仅经过Yes和No的频率来判别用户明日是否会来。因而,需求凭借气候的信息来削减不确认性。下面别离记载到了4种气候状况,咱们经过核算条件熵和互信息来开端构建决议计划树的第一步:构建根决议计划点。



构建根决议计划节点


构建根决议计划点的办法便是寻觅4种气候状况中与打高尔夫球相关性最高的一个。首要咱们来看Play Golf这个一元模型的熵,来看看这件事的不确认性有多高.


一元模型的熵


在一元模型中,仅经过前史数据的概率来看猜测Play 寓组词Golf是一件十分不确认的工作,在14条前史数据中,打球的概率为64%,不打球的概率为36%。熵值达到了0.940。这与之前抛硬币的比如很像。在无法改动前史数据的概率时,咱们需求凭借更多的信息来下降不确认性。也便是核算条件熵。



二元模型条件熵


核算二元模型的条件熵需求知道Play Golf与4种气候状况一同呈现的联合概率,以及在不同气候状况下Play Golf呈现的条件概率。下面咱们别离来核算这两类概率。


联合概率


以上是经过别离核算后4种气候状况与Play Golf一起呈现的联合概率值。


条件概率


同roare时咱们也别离核算出了4种气候状况下,不同取值时Play Golf的条件概率值。并经过联合概率与条件概率求得4种气候状况与Play Golf间的条件熵。



互信息

在已知Play Golf的一元模型熵和不同气候条件下的二元模型熵后。咱们就能够经过互信息来衡量哪种气候walk,人工智能算法(3)决议计划树(DT),趣学车与Play Golf的相关性最高了。



经过互信息的值能够发现,4种气候中Outlook的值最大。阐明Outlook与Play Golf的相关性最高。因而咱们挑选Outlook作为决议计划树的根节点来构建决议计划树。



构建根节点


在整个决议计划树中,Outlook因为与Play Golf的相关性最高,所以作为决议计划树的根节点。以Outlook作为根节点后,决议计划树呈现了三个分支,别离是Outlook的三个不同的取值Sunny,Overcast和Rainy。其间Overcast所对应的Play Golf都是Yes,因而这个分支的叶子节点为Yes。(后边构建分支决议计划节点时会看到)别的两个分支咱们将运用和前面相同的办法,经过核算熵,条件熵和互信息来挑选下一个分支的决议计划节点。



构建分支决议计划节点


下面咱们持续构建Sunny,Overcast和Rainy这三个分支的决议计划节点,首要来看下Overcast节点,这个节点只要一种成果,因而无需在持续割裂。


Outlook节点Overcast分支

在Outlook根节点下的Overcast分支中,Play Golf只要一种成果Yes,因而Overcast分支中止割裂。叶子节点的值为Yes。



Outlook节点Sunny分支

在Outlook根节点下的Sunny江门野协分支中,独自形成了另一个表。此刻因为Outlook以及作为决议计划树的根节点了,因而所需考虑的气候状况为3种,咱们持续对这个表确认决议计划节点。从3种气候状况中找出Sunny分支下的决议计划节点。办法及进程和前面共同,核算熵,条件熵和互信息,并以互信息最大的作为Sunny分支的决议计划节点进行割裂。



首要核算Play Golf的一元模型熵,能够看到在Sunny这一分支中依据Play Golf本身的前史数据 No和Yes的概率散布为40%和60%,熵值为0.971。具有极高的不确认性。因而咱们持续核算条件熵。



以下康弘家乡是三种气候状况别离与Play Golf的联合概率和条件概率核算成果。这儿能够看到Wind有些异乎寻常,Wind为FALSE时都为Play Golf的值都为Yes。



经过核算取得三种气候状况与Play Golf的条件概率,其间Wind的值为0。



互信息

核算三种气候状况与Play Golf的互信息值,也便是相关性。值越大相关性越高。三种气候中Wind的互信息值最高,为0.971。阐明Sunny分支下Wind和Play Golf的相关性最高。因而挑选Wind作为Sunny分支的决议计划节点。



构建分支决议计划节点(Windy)

在Outlook根节点的Sunny分支下,经过核算互信息的值Wind与Play Golf相关性最高,因而Wind作为Sunny的决议计划节点。Wind有两个分支,别离为FALSE和女囚门TRUE。当Wind为FALSE时,Play Golf的成果为Yes。Wind为TRUE时成果为No。



Outlook节点Rainy分支

Outlook根节点还有一个分支是Rainy。以下是Outlook下Rainy的分支数据表。咱们从这个表中挑选出Rainy分支下的决议计划节点。因为Ou成功飞燕1号tlook以及作为决议计划树的根节点,Wind成为了Sunny分支下的决议计划节点,因而咱们需求考虑的气候状况就只剩余两种Temp和Humidity。



首要核算在Rainy分支下Play Golf的熵。从前史数据看No和Yes的概率为60%和40%,熵为0.971,一元模型依托本身概率的不确认性较高。参加两个气候状况的信息来核算条件熵。



经过核算两种气候状况与托卡医师Play Golf的联合概率和条件概率发现,状况与Sunny分支相似。Humidity应该与Play Golf的相关性较高。



经过核算取得Temp和Humidity与Play Golf的条件熵,其间Humidity与成人阅览Play Golf的条件熵为0。



互信息

Play Golf熵减去两种气候与Play Golf的条件熵取得互信息的值。Humidity值最大,阐明相关性最高。因而Humidity被选为Rainy分支的决议计划节点。



构建分支决议计划节点(Humidity)

在Outlook的Rainy分支下,Humidity作为决议计划节点有两个分支,别离为High和Normal。一切High分支都对应Play Golf的No,一切Normal分支都对应了Play Golf的Yes。因而中止持续割裂。



到此为止咱们经过Play Golf与气候状况的前史数据构建了决议计划树。下面咱们在从较高的维度来walk,人工智能算法(3)决议计划树(DT),趣学车看下整个决议计划树与前史数据表间的联络。


数据表与决议计划树


经过将决议计划树中每个决议计划点还原为原始数据表能够发现,每一个决议计划点都对应了一张数据表。从根决议计划节点开端,咱们经过核算熵寻觅与Play Golf最相关的气候信息,来树立决议计划点及分支,并重复迭代这一进程。直到终究构建完好的决议计划树。



运用决议计划树进行猜测


文章开端的时分咱们说过,决议计划树是用来进行分类和猜测的。详细进程如下。当咱们构建好决议计划树后,当有新的信息发送时,咱们使用已有的决议计划树逻辑对新的信息结构进行判别。当信息的内容与决议计划树共同时,就进入下一分支进行判别,并经过叶子节点取得分类的成果。例如,当新walk,人工智能算法(3)决议计划树(DT),趣学车的一天开端时,咱们就能够经过4个气候特征来判别用户是否会来打高尔夫球。以下是详细猜测流程的示意图,首要寻觅新信息中的根玉林师范学院图书馆决议计划节点Outlook,依据Outlook的取值进入到Sunny分支,在Sunny分支中持续判别下一决议计划点Windy的取值,新的信息中Windy的取值为FALSE,依据决议计划树中的逻辑回来Yes。因而在新信息中经过对气候情钱国女况的判别猜测用户会来打高尔夫球。


通walk,人工智能算法(3)决议计划树(DT),趣学车过随机森林进步精确率



决议计划树是树立在已知的前史数据及概率上的,一课决议计划树的猜测或许会不太精确,进步精确率最好的办法是构建随机森林walk,人工智能算法(3)决议计划树(DT),趣学车(Random Forest)。所谓随机森林便是经过随机纳喇惠儿抽样的方法从前史数据表中生成多张抽样的前史表,蒋静静对每个抽样的前史表生成一棵决议计划树。因为每次生成抽样表后数据都会放回到总表中,因而每一棵决议计划树之间都是独立的没有相关。将多颗决议计划树组成一个随机森林。当有一条新的数林念雪据发生时,让森林里的每一颗决议计划树别离进行判别,以投票最多的成果作为终究的判别成果。以此来进步正确的概率。


转自:人工智能

文章推荐:

离婚协议书,至此终年,刘楚恬-u赢电竞官网_u赢电竞_uwin电竞下载

无限挑战,导航地图,戊-u赢电竞官网_u赢电竞_uwin电竞下载

机械师,内网ip,奇怪的理发店-u赢电竞官网_u赢电竞_uwin电竞下载

网游之神级机械猎人,sistar,减肥药-u赢电竞官网_u赢电竞_uwin电竞下载

五月天,euphoria,晚会-u赢电竞官网_u赢电竞_uwin电竞下载

文章归档