数据科学中的R和Python

↧

前几天在twitter上感言：新的一年，继续hard模式的人生。这个hard模式有两个意思。一个意思是说在墙内的生活很hard。这年月在大局域网内搞什么事都不容易。写博客，发电邮，看电影，搜资料，这些大小事情都被GFW拦住。未来之中国，真是猪栏之中国！另一个意思是说学习的状态很hard。不断的把自己往非舒适区推，不断的学一些新的东西。很有意思。有人说，把兴趣和工作合二为一，才能真正的做到极致，我深以...

View Article

theano玩转卷积神经网络

January 6, 2015, 8:49 pm

View Article

基于opencpu构建R语言的RESTful API

January 31, 2015, 5:48 am

一个R语言模型的落地应用有几种方式：可能是一个简单的分析报告，可能是将预测结果输出到数据库，即离线模型，也可能需要实时读入数据进行实时预测输出。第三种情况是最有用，也最难处理的情况。因为要把R和其它通用型语言进行整合并不容易。例如使用Rserve在java中整合R代码就需要开发人员即懂java也懂R，开发量会比较高。一种比较好的思路是将R计算部分作为一个API，其它语言时通过API来调用R的部分。下...

View Article

python数据挖掘模型的API部署

February 1, 2015, 6:25 am

前文谈到了如何把一个R语言的挖掘模型进行在线部署，也就是生成一个API。本文则是同样的思路，只不过是来尝试将python的数据挖掘模型部署成一个API。由于python是通用型的编程语言，部署起来方便一些。下面的例子仍是一个简单的模型，用来预测iris种类。在mac系统中完成，使用了python的几个包：flask 一个轻量级的web框架flask.ext.restful 快速生成restful...

View Article

在ipython notebook上运行spark

February 7, 2015, 8:00 pm

周末无事，看到了这篇文章。于是照猫画虎尝试了一番，顺便把官网上的文档看了一些。记录以下以备忘。（目前只尝试了spark在单机上的运行）安装spark只需要去官网下载预编译好的最新版本即可，然后回来解压tar -xzf spark-1.2.0-bin-hadoop2.4.tgz放到自己选定的目录中，加一个软链接ln -s /srv/spark-1.2.0...

View Article

树莓派折腾第一季：建立私人NAS

March 12, 2015, 7:27 am

1、实验条件：- 树莓派B+- micro SD卡- 读卡器- 无线网卡- 5V2A电源- 移动硬盘- USB hub- HDMI转VGA- 显示器- 键盘- 鼠标- Mac book air2、实验步骤：- 烧录系统到SD上。参考官网步骤，但注意读卡器有时会出问题，选择高质量的设备。- 启动设置Raspbian系统(raspi-config)设置各种参数，例如ssh...

View Article

中国政治坐标系数据的一点分析

April 4, 2015, 4:31 am

清明节有点空闲，凑巧又看到一份很有趣的数据，下文是对这份数据的一点点分析结果。1、数据整理整体数据并不大，读到R里面首先做了点处理。- 将选项("强烈同意","同意","反对","强烈反对") 映射为分值(2,1,-1,-2)- 对出生年份进行转换，计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)-...

View Article

R和python的整合

April 16, 2015, 6:47 pm

以前写的一个东西，贴上来给需要的朋友看看。

View Article

用非负矩阵分解对文本词项矩阵降维

April 17, 2015, 8:13 pm

在前年的一个贴子中，谈到了使用奇异值分解来对一个文本词项矩阵进行降维。本文是使用同样的数据，但是使用不同的工具来处理，也就是非负矩阵分解。nmf的好处在于比svd更容易解释，而且自带正则功能。

View Article

用spark进行数据挖掘

April 21, 2015, 5:46 am

View Article

用代码来理解boosting方法

May 21, 2015, 6:31 pm

提升方法是集成学习中预测能力最强的一种方法。在R和Python中都有相应的扩展库和丰富的函数。不过对于初学者来讲，理解这种方法不是很容易。本文基于R的决策树包实现两种基本的提升树，即回归提升树和分类提升树。有助于理解提升方法的原理，以及各项参数的作用。

View Article

使用word2vec进行文本分类

May 21, 2015, 6:35 pm

View Article

基于深度学习的中文分词尝试

August 27, 2015, 7:30 am

最近折腾deeplearning和NLP比较多，其实就是在看Stanford的cs224d课程啦。抽空尝试了一下使用词向量和神经网络做中文分词。使用的数据是参考资料中的中文分词资源，即Bakeoff中微软研究院的中文语料库，它的训练文本带有每个字的标注（BEMS），同时带有测试文本和测试脚本。此外使用了补充的语料库，即sogou新闻语料库，不带字标注，但可用来学习字向量。使用的工具是python中的...

View Article

如何搭建一台深度学习服务器

October 16, 2015, 8:41 pm

在计算机时代的早期，一名极客的满足感很大程度上来源于能DIY一台机器。到了深度学习的时代，前面那句话仍然是对的。缘起在2013年，MIT科技评论将深度学习列为当年十大科技突破之首。其原因在于，模型有其为庞大的网络结构，参数够多，学习能力够强，能配合大数据达到惊人的效果。而且，能自动学习特征，避免了“特征工程”这种繁琐的手工劳动。对于图像、音频和文字处理领域有极大的意义。因为最近在尝试用深度学习做文本...

View Article

使用深度学习库keras做文本分类

November 19, 2015, 6:26 am

View Article

深度学习入门资源索引

November 21, 2015, 1:03 am

深度学习（Deep...

View Article

Image may be NSFW.
Clik here to view.

自夸

November 23, 2015, 5:21 pm

李舰和我合写的一本书在2015年的7月份上市了，今天来自推一下这本书。此书是面向于初学者，提供宽而浅的导论性质读物。http://book.douban.com/subject/26576631/数据科学是将数据转化为行动的艺术，是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其为应用而生，因此本书一切从实际应用出发，以R语言为核心工具，介绍了各类分析方法的实现及...

View Article

基于深度LSTM的中文分词

November 24, 2015, 6:58 pm

本例尝试的用多层LSTM来玩中文分词，大部分代码和之前的文章是一样的。不一样的就是使用了更复杂的模型，用了多个LSTM叠加在一起。这对于句子这种有时序特征的数据更有帮助。在前面部分的代码是计算了字向量，但是发现是没有太大必要。除了用多层LSTM，后面还尝试了双向LSTM，效果也还可以。

View Article

用word2vec找评论同义词

用gemsim包做LSA和LDA

2014年的回顾

theano玩转卷积神经网络

基于opencpu构建R语言的RESTful API

python数据挖掘模型的API部署

在ipython notebook上运行spark

树莓派折腾第一季：建立私人NAS

中国政治坐标系数据的一点分析

R和python的整合

用非负矩阵分解对文本词项矩阵降维

用spark进行数据挖掘

用代码来理解boosting方法

使用word2vec进行文本分类

基于深度学习的中文分词尝试

如何搭建一台深度学习服务器

使用深度学习库keras做文本分类

深度学习入门资源索引

自夸

基于深度LSTM的中文分词