决策树之三国争霸

决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树。最近著名的C4.5决策树算法的升级版本C5.0已经可以在官网下载到。对于这三种决策树算法，本文来做一个预测效果的简单对比。

对比用的数据集是C50包中自带的churn数据，它是用来预测顾客流失的数据集，其中样本量为3333个，变量数为20个。为不平衡数据，没有缺失值存在。对比基本步骤是用10重交叉检验，将数据随机分为10份，用9份训练决策树，用1份来检验结果。循环后求出10个预测准确度的均值。然后在外面再套一个100次大循环，产生三个决策树算法各100个准确率。最后绘制为提琴图，从图中可以观察到C5.0的表现最好，而party次之，rpart的效果最差。在本例实验中最大的差距虽然不过0.02，但如果放在kaggle的数据挖掘比赛中，就相当于是一百位名次的差距了。

Image may be NSFW.
Clik here to view.

生成代码如下：

library(C50)
library(rpart)
library(party)
library(reshape2)
library(ggplot2)
data(churn)
rate.c <- rate.r <-rate.p<-  rep(0,100)
for(j in1:100){
    num <- sample(1:10,nrow(churnTrain),replace=T)
    res.c <- res.r  <-res.p<- array(0,dim=c(2,2,10))
for( i in1:10){
        train <- churnTrain[num!=i,]
        test <- churnTrain[num==i,]
 
        model.c <- C5.0(churn~.,data=train)
        pre <- predict(model.c,test[,-20])
        res.c[,,i]<- as.matrix(table(pre,test[,20]))
 
        model.p <-ctree(churn~.,data=train)
        pre <- predict(model.p,test[,-20])
        res.p[,,i]<- as.matrix(table(pre,test[,20]))
 
        model.r <- rpart(churn~.,data=train)
        pre <- predict(model.r,test[,-20],type='class')
        res.r[,,i]<- as.matrix(table(pre,test[,20]))
}
    table.c <- apply(res.c,MARGIN=c(1,2),sum)
    rate.c[j]<- sum(diag(table.c))/sum(table.c)
 
    table.p <- apply(res.p,MARGIN=c(1,2),sum)
    rate.p[j]<- sum(diag(table.p))/sum(table.p)
 
    table.r <- apply(res.r,MARGIN=c(1,2),sum)
    rate.r[j]<- sum(diag(table.r))/sum(table.r)
}
data<- data.frame(c50=rate.c,rpart=rate.r,party=rate.p)
data.melt <- melt(data)
 
p <- ggplot(data.melt,aes(variable,value,color=variable))
p + geom_point(position='jitter')+
    geom_violin(alpha=0.4)

C5.0算法相对于C4.5有如下几点改进：

速度显著加快
内存使用减少
生成树模型更为简洁
支持boosting方法
支持加权和成本矩阵
支持变量筛选

此外C50包中也有丰富的设置参数：包括设置boost次数、全局剪枝和模糊阀值设置。有兴趣的朋友不妨一试。

决策树之三国争霸

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本