如何批量处理文本文件

最近数据堂为了弄数据挖掘比赛提供了一批用户行为日志数据。对于以前没玩过的数据，我是特别的好奇。处理这批文本文件确实花了不少时间。数据以不同的日期作文件夹分别存放，每个文件夹中又有近一千个文本文件，每个文件都是一个用户的行为日志。为了分析这些数据，首先需要将这两万个文本文件读入R中，再用字符串函数进行处理成结构化的数据。处理方法如下：

library(stringr)
setwd('D:\\kaggle\\tang\\data')
data<- read.table('data.csv',T,sep=',')
 
# 读入文档地址
path <- 'D:\\kaggle\\tang\\data\\behavior'
dir.name <- dir('D:\\kaggle\\tang\\data\\behavior')
doc.name <- list()
fre <- numeric()
for(i in1:length(dir.name)){
    doc.name[[i]]<- dir(paste(path,dir.name[i],sep='\\'))
    fre[i]<- length(doc.name[[i]])
}
dir<- rep(dir.name,fre)
doc.name <-unlist(doc.name)
file.name <- character()
for( i in1:length(dir)){
    file.name[i]<-  paste(path,dir[i],doc.name[i],sep='\\')
}
 
# 建立抽取主函数，返回列表
data.get <- function(file.name){
#获取文本
    temp <- readLines(file.name,encoding='UTF-8')
if(length(temp)<=2)return(NA)
# 用户编号
    id <- str_match(file.name,"[A-Z0-9]{32}")
# 调查日期
    day <- str_match(file.name,"\\d+-\\d+-\\d+")
# 开机时点
    clock <-str_sub(str_match(file.name,'_\\d{2}-'),2,3)
# 切分转换文本函数
        trans <- function(x){
            res <- unlist(str_split(x,"\\[=\\]|<=>"))
#     res <- str_extract(x, "[^<=>]+\\.[a-z]+")
return(res)
}
# 将文本切开转为列表
    result <- lapply(temp,trans)
 
# 开机时长
    opentime <- as.numeric(result[[1]][2])
# 先进行时间分析，由于有的信息不是按顺序排列，所以要按时点重排
# 时点抽取
time<- unlist(lapply(result[-c(1:2)],function(x) x[2]))
time<- as.numeric(time)
# 时点排序，然后重排result列表
    new.res <- result[-c(1:2)][order(time)]
 
# 返回用户使用的程序向量
    prog <- unlist(lapply(new.res,function(x) x[4]))
# 各程序使用时间
time<- unlist(lapply(new.res,function(x) x[2]))
time<- as.numeric(time)
time[length(time)+1]<- opentime
time<- diff(time)
 
    prog.time <- data.frame(prog=prog,time=time)
    progtime <- dcast(prog.time,prog~.,sum,value.var='time')
names(progtime)<- c('program','time')
 
# 使用的软件个数
    numofsoft <- nrow(progtime)
# 真实使用时长
    realtime <- sum(progtime$time,na.rm=T)
return(list(id=as.character(id),day=as.character(day),
                clock = as.numeric(clock),opentime=opentime,
                numofsoft = numofsoft,
                realtime= realtime,progtime=progtime))
}
所有的文件名都已经存在file.name变量中，用上面建立好的函数data.get来提取第一份文件中的信息 
> data.get(file.name[[1]])
$id
[1]"0143692D264FD906F10B8ECAB0F139D1"
 
$day
[1]"2012-05-07"
 
$clock
[1]12
 
$opentime
[1]7771
 
$numofsoft
[1]9
 
$realtime
[1]7610
 
$progtime
           program time
1    360chrome.exe 1237
2 360leakfixer.exe    3
3      360Safe.exe   12
4        360sd.exe   20
5     explorer.exe  510
6     iexplore.exe 5473
7   liveupdate.exe    6
8     popup_QQ.exe   44
9           QQ.exe  305

如何批量处理文本文件

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本