python决策树算法_决策树算法及python实现

决策树算法是机器学习中的经典算法

1.决策树(decision tree)

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

假设小明去看电影，影响看电影的外部因素有时间电影类型评分三个情况，目前已知的样本数据如下

63517e8aa4bd

根据以上样本数据，整理成tree形结构如下

63517e8aa4bd

2.决策树算法中熵的概念

1948年香农提出了“信息熵(entropy)”的概念

一条信息的信息量大小和它的不确定性有直接，信息量的度量就等于不确定性的多少，我们用bit(比特)来衡量信息量的多少

信息熵的计算公式如下，以log2为底，取对数，然后把每一种情况相加，当每种情况下概率相等时，取最大值，为n/2 -1 ，即变量的不确定性越大，则信息熵也越大

63517e8aa4bd

3.决策树归纳算法

策树归纳算法是J.Ross.Quinian在19世纪70年代提出的的ID3算法.

上面小明看电影实例中，总的信息量（单位为bit）为

63517e8aa4bd

同理，我们可以计算不同电影类型的信息熵，结果为0.65bits

63517e8aa4bd

此处解释下为什么根节点从电影类型开始划分，判断应该用哪个类型划分节点，可以依据如下公式判定

Gain(A) = info(D) - Info_A(D)

即总的信息量减除以特定节点的信息获取量，如果此值越大，说明获取的信息量越多，据此可以作为根节点

以type为节点的信息获取量:

Gain(type) = 0.991 - 0.65 = 0.341 (bits)

依次类推，也可以计算出以time 和 grade获取的信息量，在此不一一计算了。因为此处以type为节点获取的信息量最大，所以根节点以type区分

其它算法

c4.5: (Quinlan)

cart: Classification and Regression Trees (L.Breiman, J.Friedman, R.Olshen, C.Stone)

以上两个算法c4.5和cart以及前面介绍的entropy都是贪心算法，主要区别在于属性的度量方法不同.

tips

决策树算法，直观，便于理解，试用于小规模的数据，对连续型变量处理不好，如果要处理，需要做到离散化。如果类型分得太细，可能会造成train较好，但是predict不好，为避免此种情况的overfitting,一般采取减枝

代码实现

本文以python为例，讲解代码的实现，本文会用到机器学习中常用的python库sklearn

下面直接看代码

其中用到了sklearn库中的DictVectorizer（转换成sklearn所能接受的类型用）, csv（处理csv格式文件用）, preprocessing(预处理数据,只能是数值类型)，tree（决策树）, StringIO(sklearn中的IO处理)

from sklearn.feature_extraction import DictVectorizer

import csv

from sklearn import preprocessing

from sklearn import tree

from sklearn.externals.six import StringIO

接下来，首先读取本读的csv数据，数据样本如第一张图片

allFilmsData = open(r'/Users/max/Desktop/seeFilm.csv', 'rb')

reader = csv.reader(allFilmsData)

headers = reader.next()

接着，我们对数据进行处理

# 特征数组

featureList = []

# 标签数组

labelList = []

for row in reader:

labelList.append(row[len(row) - 1])

rowDict = {}

for i in range(1, len(row) - 1):

rowDict[headers[i]] = row[i]

featureList.append(rowDict)

# vetoarize feature

vec = DictVectorizer()

#DictVectorizer实例化

dummyX = vec.fit_transform(featureList).toarray()

#转化成dummy viable格式的

通过以上转化，得到的数据结构如下

dumyX:[

[ 1. 0. 0. 0. 1. 0. 0. 1. 0.]

[ 0. 0. 1. 1. 0. 0. 0. 0. 1.]

[ 0. 0. 1. 1. 0. 0. 1. 0. 0.]

[ 1. 0. 0. 1. 0. 1. 0. 0. 0.]

[ 1. 0. 0. 0. 1. 0. 0. 0. 1.]

[ 0. 1. 0. 1. 0. 0. 1. 0. 0.]

[ 0. 1. 0. 0. 1. 0. 0. 0. 1.]

[ 1. 0. 0. 0. 1. 0. 1. 0. 0.]

[ 0. 0. 1. 1. 0. 0. 0. 1. 0.]

]

同时，我们可以查看feature_names和labelList

feature_names格式如下：

['grade=high', 'grade=low', 'grade=middle', 'time=weekend', 'time=workday_night', 'type=art', 'type=crime', 'type=love', 'type=science_fiction']

labelList格式如下:

labelList:['see', 'no', 'see', 'see', 'no', 'no', 'no', 'see', 'see']

把labelList转化，代码如下

# vectorize class labels

lb = preprocessing.LabelBinarizer()

dummyY = lb.fit_transform(labelList)

print("dummy:" + str(dummyY))

接下来，我们可以查看树结构

clf = tree.DecisionTreeClassifier(criterion='entropy')

'''

上述采用的信息熵的差作为度量标准，即ID3

如果此处不传，默认采用的是gini，即是cart算法

'''

clf = clf.fit(dummyX, dummyY)

print("clf:" + str(clf))

with open("/Users/max/Desktop/allFilmInfoGainOri.dot", 'w') as f:

f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)

我们把上面结果存储为allFilmInfoGainOri.dot的文件，可以看到文档信息如下，打开本地文件，可以看到文件结构如下

63517e8aa4bd

当然为了更加直观的查看以上部分数据结构，我们可以用Graphviz工具转换成树形结构的形式便于阅读，转换后的属性结构如下

63517e8aa4bd

最后，我们用代码预测

例如：我们修改第一行的数据,预测代码如下

oneRowX = dummyX[0, :]

newRowX = oneRowX

newRowX[0] = 0

newRowX[7] = 1

['grade=high', 'grade=low', 'grade=middle', 'time=weekend', 'time=workday_night', 'type=art', 'type=crime', 'type=love', 'type=science_fiction']

labelList:['see', 'no', 'see', 'see', 'no', 'no', 'no', 'see', 'see']

newRowX[0] = 0, 表示评分高为0

newRowX[7] = 1，表示是love类型电影

predictedY = clf.predict([newRowX])

以上代码执行后，我们会得到predictedY为[1], 即说明此中情况下，小明会去看电影

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/338963.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python决策树算法_决策树算法及python实现

相关文章

mysql 远程服务器返回错误404_远程服务器返回异常: (404) 未找到

长见识：你真的知道C语言里extern quot;Cquot; 的作用吗？

python自动批量发邮件脚本_Python实现自动发送邮件功能

aem 渲染_AEM中的单元测试（大声思考）

C语言中#if,#if defined ,#ifdef,extern的用法描述

java 排序性能_Java8排序–性能陷阱

delphi报列表索引越界怎么处理_图解Elasticsearch索引机制，此篇带你领悟新世界...

为什么C语言函数不能返回数组，却可以返回结构体

oracle迁移mysql_从自建Oracle迁移至RDS MySQL

2015年传智播客java_2015年Java 8强势开始

python文件运行哪一个_如何使一个python文件运行另一个？

C语言printf()函数具体解释和安全隐患

brew search mysql_brew mysql

spring 请求转码_Spring请求级备忘录

java map 如何根据key获得对象_ThreadLocal：Java中的影分身

【C语言】你可能对 sizeof() 有点误解。。。

mysql cluster 设置单向复制_mysql单向主从配置

java处理注释_如何处理Java注释

nginx tcp转发_Nginx学习（九）：负载均衡服务

控制台发送get命令_.NET Core使用命令行参数库构建控制台应用程序