2014年的回顾
前几天在twitter上感言:新的一年,继续hard模式的人生。这个hard模式有两个意思。一个意思是说在墙内的生活很hard。这年月在大局域网内搞什么事都不容易。写博客,发电邮,看电影,搜资料,这些大小事情都被GFW拦住。未来之中国,真是猪栏之中国!另一个意思是说学习的状态很hard。不断的把自己往非舒适区推,不断的学一些新的东西。很有意思。有人说,把兴趣和工作合二为一,才能真正的做到极致,我深以...
View Article基于opencpu构建R语言的RESTful API
一个R语言模型的落地应用有几种方式:可能是一个简单的分析报告,可能是将预测结果输出到数据库,即离线模型,也可能需要实时读入数据进行实时预测输出。第三种情况是最有用,也最难处理的情况。因为要把R和其它通用型语言进行整合并不容易。例如使用Rserve在java中整合R代码就需要开发人员即懂java也懂R,开发量会比较高。一种比较好的思路是将R计算部分作为一个API,其它语言时通过API来调用R的部分。下...
View Articlepython数据挖掘模型的API部署
前文谈到了如何把一个R语言的挖掘模型进行在线部署,也就是生成一个API。本文则是同样的思路,只不过是来尝试将python的数据挖掘模型部署成一个API。由于python是通用型的编程语言,部署起来方便一些。下面的例子仍是一个简单的模型,用来预测iris种类。在mac系统中完成,使用了python的几个包:flask 一个轻量级的web框架flask.ext.restful 快速生成restful...
View Article在ipython notebook上运行spark
周末无事,看到了这篇文章。于是照猫画虎尝试了一番,顺便把官网上的文档看了一些。记录以下以备忘。(目前只尝试了spark在单机上的运行)安装spark只需要去官网下载预编译好的最新版本即可,然后回来解压tar -xzf spark-1.2.0-bin-hadoop2.4.tgz放到自己选定的目录中,加一个软链接ln -s /srv/spark-1.2.0...
View Article树莓派折腾第一季:建立私人NAS
1、实验条件:- 树莓派B+- micro SD卡- 读卡器- 无线网卡- 5V2A电源- 移动硬盘- USB hub- HDMI转VGA- 显示器- 键盘- 鼠标- Mac book air2、实验步骤:- 烧录系统到SD上。参考官网步骤,但注意读卡器有时会出问题,选择高质量的设备。- 启动设置Raspbian系统(raspi-config)设置各种参数,例如ssh...
View Article中国政治坐标系数据的一点分析
清明节有点空闲,凑巧又看到一份很有趣的数据,下文是对这份数据的一点点分析结果。1、数据整理整体数据并不大,读到R里面首先做了点处理。- 将选项("强烈同意","同意","反对","强烈反对") 映射为分值(2,1,-1,-2)- 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)-...
View Article用非负矩阵分解对文本词项矩阵降维
在前年的一个贴子中,谈到了使用奇异值分解来对一个文本词项矩阵进行降维。本文是使用同样的数据,但是使用不同的工具来处理,也就是非负矩阵分解。nmf的好处在于比svd更容易解释,而且自带正则功能。
View Article用代码来理解boosting方法
提升方法是集成学习中预测能力最强的一种方法。在R和Python中都有相应的扩展库和丰富的函数。不过对于初学者来讲,理解这种方法不是很容易。本文基于R的决策树包实现两种基本的提升树,即回归提升树和分类提升树。有助于理解提升方法的原理,以及各项参数的作用。
View Article基于深度学习的中文分词尝试
最近折腾deeplearning和NLP比较多,其实就是在看Stanford的cs224d课程啦。抽空尝试了一下使用词向量和神经网络做中文分词。使用的数据是参考资料中的中文分词资源,即Bakeoff中微软研究院的中文语料库,它的训练文本带有每个字的标注(BEMS),同时带有测试文本和测试脚本。此外使用了补充的语料库,即sogou新闻语料库,不带字标注,但可用来学习字向量。使用的工具是python中的...
View Article如何搭建一台深度学习服务器
在计算机时代的早期,一名极客的满足感很大程度上来源于能DIY一台机器。到了深度学习的时代,前面那句话仍然是对的。缘起在2013年,MIT科技评论将深度学习列为当年十大科技突破之首。其原因在于,模型有其为庞大的网络结构,参数够多,学习能力够强,能配合大数据达到惊人的效果。而且,能自动学习特征,避免了“特征工程”这种繁琐的手工劳动。对于图像、音频和文字处理领域有极大的意义。因为最近在尝试用深度学习做文本...
View Article自夸
李舰和我合写的一本书在2015年的7月份上市了,今天来自推一下这本书。此书是面向于初学者,提供宽而浅的导论性质读物。http://book.douban.com/subject/26576631/数据科学是将数据转化为行动的艺术,是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其为应用而生,因此本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及...
View Article基于深度LSTM的中文分词
本例尝试的用多层LSTM来玩中文分词,大部分代码和之前的文章是一样的。不一样的就是使用了更复杂的模型,用了多个LSTM叠加在一起。这对于句子这种有时序特征的数据更有帮助。在前面部分的代码是计算了字向量,但是发现是没有太大必要。除了用多层LSTM,后面还尝试了双向LSTM,效果也还可以。
View Articlepython中的数据工具箱
最近参加了第九届北京R语言大会,做了一个关于python的简单介绍。相关ppt在如下连接,需要的下载。链接: http://pan.baidu.com/s/1dEGl63f 密码: k3y6博客,只要有时间,我还是会继续坚持的。
View Article标签传播算法
因为标注成本比较高,当你的训练数据集只有一部分数据是有标注的情况下,使用监督学习你只能扔掉那些没有标注的X。而实际上,有标注的样本和无标注的样本之间是有关系的,这种关系信息也可以用来帮助学习。这就是半监督学习标签传播(Label...
View ArticleTensorFlow初体验
以前玩深度学习一直是用的theano和keras,做为谷粉不能不试一下大热的TensorFlow。首先安装起来。TensorFlow的安装指南非常详细,我是python的anaconda环境,所以直接先创建一个新环境,创建前先更新一下condaconda update condaconda update anaconda看一下目前计算机上有哪些环境conda info...
View Article