发现叮宕递归构建决策树

递归构建决策树

2016-12-14 10'19''

主播：叮宕

137 11

分享到:

介绍:

工作原理:得到原始数据集,基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分.第一次划分后,数据将被向下传递到树分支的下一个节点,在这个节点上,我们可以再次划分数据.因此可以采用递归的原则处理数据集. 递归结束的条件是:程序遍历完所有划分数据集的属性,或者每个分支下的所有实例都具有相同的分类.如果所有实例具有相同的分类,则得到一个叶子节点或者终止块.任何到达叶子节点的数据必然属于叶子节点的分类. def majorityCnt(classList): classCount={} for vote in classList: if vote not in classCount.keys(): classCount[vote] = 0 classCount[vote] += 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] 复制代码 def createTree(dataSet,labels): classList = [example[-1] for example in dataSet] if classList.count(classList[0]) == len(classList): return classList[0]#stop splitting when all of the classes are equal if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet return majorityCnt(classList) bestFeat = chooseBestFeatureToSplit(dataSet) bestFeatLabel = labels[bestFeat] myTree = {bestFeatLabel:{}} del(labels[bestFeat]) featValues = [example[bestFeat] for example in dataSet] uniqueVals = set(featValues) for value in uniqueVals: subLabels = labels[:] #copy all of labels, so trees don't mess up existing labels myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels) return myTree

上一期：市场经济，岂能无契
下一期： 3.2.1 matplotlib注解 3.2.1 扎

大家还在听

关注我们

工信部APP备案号:粤ICP备12026999号-31A
粤网文[2022]1888-146号粤ICP备12026999号
增值电信业务经营许可证粤B2-20120522
穗公网安备44010650010105号
网信算备440106359615002220011号网信算备440106359615004220013号
互联网宗教信息服务许可证粤(2023）0000133
荔枝微信客服：关注公众号“荔枝APP服务”直接输入您的问题（工作时间：10:00~12:00、14:00~20:00）
荔枝全国公开举报电话：020—38057619 扰乱网络传播秩序及违法违规信息举报邮箱： jubao@lizhi.fm
荔枝未成年人权益受理邮箱：advise@lizhi.fm
广州荔支网络技术有限公司 2010-至今© All Rights Reserved. 本平台为信息网络存储空间网络服务平台

自审制度精选专题关于我们加入我们联系我们荔枝服务协议隐私政策版权投诉指引