Quantcast
Channel: 数据科学中的R和Python
Viewing all articles
Browse latest Browse all 85

来玩玩QQ群的数据

$
0
0
上周COS论坛上有位老兄发布了一个关于QQ群的数据,正好拿来玩玩。这批数据并不复杂,只有两列,一列是用户名,一列是用户发言时间,不过从这批数据中仍然可以得出一些好玩的东西,且让本人一一道来。



先对数据进行整理,然后以时间维度进行数据汇集,观察各周的发言分布情况。可以看到周一和周日聊天不多,难道说是周一大家都比较安心上班?下图是对不同的时间段进行数据汇集,观察是白天上班的时间聊天比较多,下午4、5点下班前形成高峰。

然后还可以根据用户名来汇集发言频数,获得发言最多前十大用户
用户频数
7cha181498
6cha43761209
4cha38751079
8cha083691
4cha698528
1cha65314438
acha@vip.qq.com372
2cha1350
5cha80296
3cha4233294


此外,若用户在一天之内有发言,则视为活跃,下面是计算出来的活跃天数的十大用户。


6cha4376160
4cha3875147
7cha18109
acha@vip.qq.com89
4cha69887
2cha177
8cha08374
1cha45758
1cha5900253
8cha0850


再来观察每天的发言次数变化,可见QQ群在2012年初讨论热烈,而在最近几个月则趋于平淡,末日准备中?
观察每天活跃用户变化,最多一次达到40人,而一般都是在10人左右。
当某天活跃人数增加的话,发言数也会增加吗?  是的,是有这个情况。
前十大发言最多用户我们暂称为十大话唠,这十大的日内发言情况如何?平行坐标图可以观察到他们的QQ群发言习性。
之前的时间划分是按天来计算,下面将时间窗口划分得更细一些,如果两个发言间相隔30分钟,则认为一次群讨论结束,另一次新的群讨论开始(这个思路是听R会议上肖嘉敏说的)。下面按照群讨论来观察数据。将数据按讨论来分组,得到719次群讨论。然后可以根据一次群讨论为时间单位为观察发言次数和参与用户,这和前面的计算是差不多的,就不再重复。好玩的地方在于,可以根据用户是否参与同一次群讨论来建立他们之间的关联程度。从下面社交图可看到,6cha4376和4cha3875的关系最为密切,有基情?(我用igraph画图总是不如人家好看啊,唉,有没人教教我)
代码如下,请多批评

# 数据读入
data<- read.csv('qq.csv',T,stringsAsFactors=F)
data<- data[-nrow(data),]# 最后一行有问题,删除
 
library(stringr)
library(plyr)
library(lubridate)
library(ggplot2)
library(reshape2)
library(igraph)
 
# 数据整理
# 将字符串中的日期和时间划分为不同变量
temp1 <- str_split(data$time,' ')
result1 <- ldply(temp1,.fun=NULL)
names(result1)<- c('date','clock')
 
#分离年月日
temp2 <- str_split(result1$date,'/')
result2 <- ldply(temp2,.fun=NULL)
names(result2)<- c('year','month','day')
 
# 分离小时分钟
temp3 <- str_split(result1$clock,':')
result3 <- ldply(temp3,.fun=NULL)
names(result3)<- c('hour','minutes')
 
# 合并数据
newdata <- cbind(data,result1,result2,result3)
 
# 转换日期为时间格式
newdata$date <- ymd(newdata$date)
 
# 提取星期数据
newdata$wday <- wday(newdata$date)
 
# 转换数据格式
newdata$month <- ordered(as.numeric(newdata$month))
newdata$year <- ordered(newdata$year)
newdata$day <- ordered(as.numeric(newdata$day))
newdata$hour <- ordered(as.numeric(newdata$hour))
newdata$wday <- ordered(newdata$wday)
 
# 关于时间的一元描述
# 观察时间相关各变量的频数分布
# 周一和周日聊天不多,难道说是周一要安心上班?
qplot(wday,data=newdata,geom='bar')
# 白天上班的时间聊天比较多嘛,下午形成高峰。
qplot(hour,data=newdata,geom='bar')
 
# 关于用户的频度描述
# 前十大发言最多用户
user <- as.data.frame(table(newdata$id))
user <- user[order(user$Freq,decreasing=T),]
user[1:10,]
topuser <- user[1:10,]$Var1
 
# 活跃天数计算
# 将数据展开为宽表,每一行为用户,每一列为日期,对应数值为发言次数
flat.day <- dcast(newdata,id~date,length,value.var='date')
flat.mat <- as.matrix(flat.day[-1])#转为矩阵
# 转为0-1值,以观察是否活跃
flat.mat <- ifelse(flat.mat>0,1,0)
# 根据上线天数求和
topday <- data.frame(flat.day[,1],apply(flat.mat,1,sum))
names(topday)<- c('id','days')
topday <- topday[order(topday$days,decreasing=T),]
# 获得前十大活跃用户
topday[1:10,]
 
# 观察每天的发言次数
# online.day为每天的发言次数
online.day <- sapply(flat.day[,-1],sum)
tempdf <- data.frame(time=ymd(names(online.day )),online.day )
qplot(x=time,y=online.day ,ymin=0,ymax=online.day ,
data=tempdf,geom='linerange')
ggsave('2.png')
# 观察到有少数峰值日,看超过200次发言以上是哪几天
names(which(online.day>200)
 
#根据flat.day数据观察每天活跃用户变化
# numday为每天发言人数
numday <- apply(flat.mat,2,sum)
tempdf <- data.frame(time=ymd(names(numday)),numday)
qplot(x=time,y=numday,ymin=0,ymax=numday,
data=tempdf,geom='linerange')
ggsave('3.png')
#直方图观察
qplot(x=numday,data=tempdf,geom='histogram')
 
# 当某天登录人数增加的话,发言数也会增加吗?
tempdf <- data.frame(time=ymd(names(online.day )),people=numday,
speech=online.day)
 
qplot(x=people,y=speech ,
data=tempdf,geom=c('point','smooth'))
 
# 再观察十强选手的日内情况
flat.hour <- dcast(newdata,id~hour,length,value.var='hour',
subset=.(id %in% topuser))
# 平行坐标图
hour.melt <- melt(flat.hour)
p <- ggplot(data=hour.melt,aes(x=variable,y=value))
p + geom_line(aes(group=id,color=id))+
theme_bw()+
opts(legend.position = "none")
 
# 连续对话的次数,以三十分钟为间隔
newdata$realtime <- strptime(newdata$time,'%Y/%m/%d %H:%M')
# 时间排序有问题,按时间重排数据
newdata2 <- newdata[order(newdata$realtime),]
# 将数据按讨论来分组
group<- rep(1,11279)
for(i in2:11279){
d <- as.numeric(difftime(newdata2$realtime[i],
newdata2$realtime[i-1],
units='mins'))
if( d <30){
group[i]<- group[i-1]
}else{group[i]<- group[i-1]+1}
}
barplot(table(group))
 
# 得到719多组对话
newdata2$group <- group
 
# igraph进行十强之间的网络分析
# 建立关系矩阵,如果两个用户同时在一次群讨论中出现,则计数+1
newdata3 <- dcast(newdata2, id~group,sum,
value.var='group',
subset=.(id %in% topuser))
newdata4 <- ifelse(newdata3[,-1]> 0,1,0)
rownames(newdata4)<- newdata3[,1]
relmatrix <- newdata4 %*% t(newdata4)
# 很容易看出哪两个人聊得最多,6cha4376和4cha3875,有基情?
deldiag <- relmatrix-diag(diag(relmatrix))
which(deldiag==max(deldiag),arr.ind=T)
 
# 根据关系矩阵画社交网络画
g <- graph.adjacency(relmatrix,weighted=T,mode='undirected')
g <-simplify(g)
V(g)$label<-rownames(relmatrix)
V(g)$degree<- degree(g)
layout1 <- layout.fruchterman.reingold(g)
egam <- 10*E(g)$weight/max(E(g)$weight)
egam <- (log(E(g)$weight)+1) / max(log(E(g)$weight)+1)
V(g)$label.cex <- V(g)$degree / max(V(g)$degree)+ .2
V(g)$label.color <- rgb(0,0,.2,.8)
V(g)$frame.color <- NA
E(g)$width <- egam
E(g)$color <- rgb(0,0,1, egam)
plot(g,layout=layout1)

Viewing all articles
Browse latest Browse all 85

Trending Articles