python决策树算法_决策树算法及python实现

决策树算法是机器学习中的经典算法

1.决策树(decision tree)

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

假设小明去看电影,影响看电影的外部因素有 时间 电影类型 评分 三个情况,目前已知的样本数据如下

63517e8aa4bd

根据以上样本数据,整理成tree形结构如下

63517e8aa4bd

2.决策树算法中熵的概念

1948年香农提出了“信息熵(entropy)”的概念

一条信息的信息量大小和它的不确定性有直接,信息量的度量就等于不确定性的多少,我们用bit(比特)来衡量信息量的多少

信息熵的计算公式如下,以log2为底,取对数,然后把每一种情况相加,当每种情况下概率相等时,取最大值,为n/2 -1 ,即变量的不确定性越大,则信息熵也越大

63517e8aa4bd

3.决策树归纳算法

策树归纳算法是J.Ross.Quinian在19世纪70年代提出的的ID3算法.

上面小明看电影实例中,总的信息量(单位为bit)为

63517e8aa4bd

同理,我们可以计算不同电影类型的信息熵,结果为0.65bits

63517e8aa4bd

此处解释下为什么根节点从电影类型开始划分,判断应该用哪个类型划分节点,可以依据如下公式判定

Gain(A) = info(D) - Info_A(D)

即总的信息量减除以特定节点的信息获取量,如果此值越大,说明获取的信息量越多,据此可以作为根节点

以type为节点的信息获取量:

Gain(type) = 0.991 - 0.65 = 0.341 (bits)

依次类推,也可以计算出以time 和 grade获取的信息量,在此不一一计算了。因为此处以type为节点获取的信息量最大,所以根节点以type区分

其它算法

c4.5: (Quinlan)

cart: Classification and Regression Trees (L.Breiman, J.Friedman, R.Olshen, C.Stone)

以上两个算法c4.5和cart以及前面介绍的entropy都是贪心算法,主要区别在于属性的度量方法不同.

tips

决策树算法,直观,便于理解,试用于小规模的数据,对连续型变量处理不好,如果要处理,需要做到离散化。如果类型分得太细,可能会造成train较好,但是predict不好,为避免此种情况的overfitting,一般采取减枝

代码实现

本文以python为例,讲解代码的实现,本文会用到机器学习中常用的python库sklearn

下面直接看代码

其中用到了sklearn库中的DictVectorizer(转换成sklearn所能接受的类型用), csv(处理csv格式文件用), preprocessing(预处理数据,只能是数值类型),tree(决策树), StringIO(sklearn中的IO处理)

from sklearn.feature_extraction import DictVectorizer

import csv

from sklearn import preprocessing

from sklearn import tree

from sklearn.externals.six import StringIO

接下来,首先读取本读的csv数据,数据样本如第一张图片

allFilmsData = open(r'/Users/max/Desktop/seeFilm.csv', 'rb')

reader = csv.reader(allFilmsData)

headers = reader.next()

接着,我们对数据进行处理

# 特征数组

featureList = []

# 标签数组

labelList = []

for row in reader:

labelList.append(row[len(row) - 1])

rowDict = {}

for i in range(1, len(row) - 1):

rowDict[headers[i]] = row[i]

featureList.append(rowDict)

# vetoarize feature

vec = DictVectorizer()

#DictVectorizer实例化

dummyX = vec.fit_transform(featureList).toarray()

#转化成dummy viable格式的

通过以上转化,得到的数据结构如下

dumyX:[

[ 1. 0. 0. 0. 1. 0. 0. 1. 0.]

[ 0. 0. 1. 1. 0. 0. 0. 0. 1.]

[ 0. 0. 1. 1. 0. 0. 1. 0. 0.]

[ 1. 0. 0. 1. 0. 1. 0. 0. 0.]

[ 1. 0. 0. 0. 1. 0. 0. 0. 1.]

[ 0. 1. 0. 1. 0. 0. 1. 0. 0.]

[ 0. 1. 0. 0. 1. 0. 0. 0. 1.]

[ 1. 0. 0. 0. 1. 0. 1. 0. 0.]

[ 0. 0. 1. 1. 0. 0. 0. 1. 0.]

]

同时,我们可以查看feature_names和labelList

feature_names格式如下:

['grade=high', 'grade=low', 'grade=middle', 'time=weekend', 'time=workday_night', 'type=art', 'type=crime', 'type=love', 'type=science_fiction']

labelList格式如下:

labelList:['see', 'no', 'see', 'see', 'no', 'no', 'no', 'see', 'see']

把labelList转化,代码如下

# vectorize class labels

lb = preprocessing.LabelBinarizer()

dummyY = lb.fit_transform(labelList)

print("dummy:" + str(dummyY))

接下来,我们可以查看树结构

clf = tree.DecisionTreeClassifier(criterion='entropy')

'''

上述采用的信息熵的差作为度量标准,即ID3

如果此处不传,默认采用的是gini,即是cart算法

'''

clf = clf.fit(dummyX, dummyY)

print("clf:" + str(clf))

with open("/Users/max/Desktop/allFilmInfoGainOri.dot", 'w') as f:

f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)

我们把上面结果存储为allFilmInfoGainOri.dot的文件,可以看到文档信息如下,打开本地文件,可以看到文件结构如下

63517e8aa4bd

当然为了更加直观的查看以上部分数据结构,我们可以用Graphviz工具转换成树形结构的形式便于阅读,转换后的属性结构如下

63517e8aa4bd

最后,我们用代码预测

例如:我们修改第一行的数据,预测代码如下

oneRowX = dummyX[0, :]

newRowX = oneRowX

newRowX[0] = 0

newRowX[7] = 1

['grade=high', 'grade=low', 'grade=middle', 'time=weekend', 'time=workday_night', 'type=art', 'type=crime', 'type=love', 'type=science_fiction']

labelList:['see', 'no', 'see', 'see', 'no', 'no', 'no', 'see', 'see']

newRowX[0] = 0, 表示评分高为0

newRowX[7] = 1, 表示是love类型电影

predictedY = clf.predict([newRowX])

以上代码执行后,我们会得到predictedY为[1], 即说明此中情况下,小明会去看电影

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/338963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 远程服务器返回错误404_远程服务器返回异常: (404) 未找到

代码如下,res 赋不了值,为什么?private HttpWebResponse GetData(string url, string agent null, string prod_id null, string oauth_consumerKey "C16207CBF5444A5BB2499189D1E526D5", string oauth_consumerSecret "8…

长见识:你真的知道C语言里extern quot;Cquot; 的作用吗?

经常在C语言的头文件中看到下面的代码:#ifdef __cplusplus extern "C" { #endif// all of your legacy C code here#ifdef __cplusplus } #endif这通常用于C 和C混合编程的时候,为了防止C 的编译器在编译C文件的时候出现错误;众所周…

python自动批量发邮件脚本_Python实现自动发送邮件功能

简单邮件传输协议(SMTP)是一种协议,用于在邮件服务器之间发送电子邮件和路由电子邮件。Python提供smtplib模块,该模块定义了一个SMTP客户端会话对象,可用于使用SMTP或ESMTP侦听器守护程序向任何互联网机器发送邮件。 SMTP通讯的基本流程可以概…

aem 渲染_AEM中的单元测试(大声思考)

aem 渲染如果要在AEM中进行单元测试,这不是任何建议,而是各种思想的总结和一些可供选择的选项。 一段时间之前,我已经为客户进行了一些研究,这篇文章在很大程度上受到了这项工作的影响,但是很多上下文相关的东西已经被…

C语言中#if,#if defined ,#ifdef,extern的用法描述

1、#if 和#ifdef当asd_eee表达式存在而且,值为ture的时候接续向下执行例如#define TARGET_LITTLE_ENDINA 1 #define TARGET_BIG_ENDINA 0 #ifdef TARGET_LITTLE_ENDINA call little endina function #else call big endina function #endif上面的今天写的代码&…

java 排序性能_Java8排序–性能陷阱

java 排序性能Java 8带来了lambda的所有优点,使我们能够使用声明式样式进行编程。 但这真的免费吗? 我们是否应该担心必须为新的编程功能付出的代价? 这是一个我们可能要担心的例子。 考虑对这个简单类的实例进行排序: private…

delphi报列表索引越界怎么处理_图解Elasticsearch索引机制,此篇带你领悟新世界...

前言随着Elastic的上市,ELK不仅在互联网大公司得到长足的发展,而且在各个中小公司都得到非常广泛的应用,甚至连"婚庆网站"都开始使用Elasticsearch了。随之而来的是 Elasticsearch 相关部署、框架、性能优化的文章早已铺天盖地。因…

为什么C语言函数不能返回数组,却可以返回结构体

C语言函数为什么不能返回数组?在C语言程序开发中,我们不可以编写下面这样的代码:char f(void[8]{ char ret;// ...fill... return ret; }int main(int argc, char ** argv) {char obj_a[10];obj_a f(); }不可以编写这样的代码这其实就是不能…

oracle迁移mysql_从自建Oracle迁移至RDS MySQL

#本示例以名称为dtstest的数据库账号为例介绍授权命令,需要对PDB和CDB同时授权#PDB授权示例:create user dtstest IDENTIFIED BY rdsdt_dtsacct;grant create session to dtstest;grant connect to dtstest;grant resource to dtstest;grant select on a…

2015年传智播客java_2015年Java 8强势开始

2015年传智播客javaJDK 8从2015年开始,其博客文章和文章的受欢迎程度将激增。 这与本月将 Java 自动升级到JDK 8恰好吻合。 在这篇文章中,我列出并简要描述了2015年已经发布的许多有关JDK 8的文章和帖子。 JDK 8 Streams在最近的帖子中理所当然地受欢迎…

python文件运行哪一个_如何使一个python文件运行另一个?

本问题已经有最佳答案,请猛点这里访问。 如何创建一个python文件来运行另一个? 例如,我有两个.py文件。我想运行一个文件,然后让它运行另一个.py文件。 docs.python.org / / modules.html教程 所以我execfile()模块通常是更好的。…

C语言printf()函数具体解释和安全隐患

程序员都知道,也都会使用printf函数,但你知道它也有“安全隐患”吗?下面就来举例我说说:嵌入式专栏1问题描述打印输出的数据并不是理论值,如下图(右边):嵌入式专栏2进一步描述问题请…

brew search mysql_brew mysql

1、homebrew安装/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"2、命令使用安装软件:brew install 软件名,例:brew install wget搜索软件:brew search 软件名&a…

spring 请求转码_Spring请求级备忘录

spring 请求转码介绍 备注化是一种方法级别的缓存技术,用于加快连续调用的速度。 这篇文章将演示如何仅使用Spring AOP实现任何数据源的请求级可重复读取。 Spring缓存 Spring提供了非常有用的缓存抽象 ,允许您将应用程序逻辑与缓存实现细节分离。 Sp…

java map 如何根据key获得对象_ThreadLocal:Java中的影分身

关于ThreadLocal,你有哪些疑问?ThreadLocal是用来解决什么问题的?如何使用ThreadLocal?ThreadLocal的实现原理是什么?可否举几个实际项目中使用ThreadLocal的案例?基础知识ThreadLocal是线程局部变量&#…

【C语言】你可能对 sizeof() 有点误解。。。

各位,今天还是按照惯例给大家分享一个C语言容易出现的小错误,这也是跟sizeof有关的,问题虽小,却可管中窥豹,话不多说,代码先行:#include int main() { int i; i 8; printf("%d\…

mysql cluster 设置单向复制_mysql单向主从配置

1.环境要求操作系统:centOS6.5或以上Mysql版本:mysql5.5主机配置:4核CPU、4G内存2.主从复制的方式mysql5.6开始主从复制有两种方式:基于日志(binlog)、基于GTID(全局十事务标示符),下面主要介绍基于日志(binlog)的复制…

java处理注释_如何处理Java注释

java处理注释Java 8的一项很酷的新功能是对lambda表达式的支持。 Lambda表达式在很大程度上依赖于FunctionalInterface 注释 。 在本文中,我们将介绍注释以及如何处理它们,以便您可以实现自己的出色功能。 注解 Java 5中添加了注释 。Java语言附带了一…

nginx tcp转发_Nginx学习(九):负载均衡服务

介绍对于请求而言,负载均衡能很好的均摊请求,提高服务端吞吐率和整体性能,多个服务节点部署的方式,也提高了容灾和服务高可用。一、负载均衡分类负载均衡分为:GSLB和SLB。1. GDLB全局负载均衡,往往按照国家…

控制台发送get命令_.NET Core使用命令行参数库构建控制台应用程序

前言在我们开发中可能需要设计一次性应用程序,这些实用程序可以利用接近原始源代码的优势,但可以在与主Web应用程序完全独立的安全性上下文中启动。具体在 [管理过程](https://12factor.net/admin-processes)中也已经列出了原因。创建控制台应用打开命令…