Quantcast
Channel: 数据科学中的R和Python
Browsing latest articles
Browse All 85 View Live

用word2vec找评论同义词

View Article


用gemsim包做LSA和LDA

View Article


2014年的回顾

前几天在twitter上感言:新的一年,继续hard模式的人生。这个hard模式有两个意思。一个意思是说在墙内的生活很hard。这年月在大局域网内搞什么事都不容易。写博客,发电邮,看电影,搜资料,这些大小事情都被GFW拦住。未来之中国,真是猪栏之中国!另一个意思是说学习的状态很hard。不断的把自己往非舒适区推,不断的学一些新的东西。很有意思。有人说,把兴趣和工作合二为一,才能真正的做到极致,我深以...

View Article

theano玩转卷积神经网络

View Article

基于opencpu构建R语言的RESTful API

一个R语言模型的落地应用有几种方式:可能是一个简单的分析报告,可能是将预测结果输出到数据库,即离线模型,也可能需要实时读入数据进行实时预测输出。第三种情况是最有用,也最难处理的情况。因为要把R和其它通用型语言进行整合并不容易。例如使用Rserve在java中整合R代码就需要开发人员即懂java也懂R,开发量会比较高。一种比较好的思路是将R计算部分作为一个API,其它语言时通过API来调用R的部分。下...

View Article


python数据挖掘模型的API部署

前文谈到了如何把一个R语言的挖掘模型进行在线部署,也就是生成一个API。本文则是同样的思路,只不过是来尝试将python的数据挖掘模型部署成一个API。由于python是通用型的编程语言,部署起来方便一些。下面的例子仍是一个简单的模型,用来预测iris种类。在mac系统中完成,使用了python的几个包:flask 一个轻量级的web框架flask.ext.restful 快速生成restful...

View Article

在ipython notebook上运行spark

周末无事,看到了这篇文章。于是照猫画虎尝试了一番,顺便把官网上的文档看了一些。记录以下以备忘。(目前只尝试了spark在单机上的运行)安装spark只需要去官网下载预编译好的最新版本即可,然后回来解压tar -xzf spark-1.2.0-bin-hadoop2.4.tgz放到自己选定的目录中,加一个软链接ln -s /srv/spark-1.2.0...

View Article

树莓派折腾第一季:建立私人NAS

1、实验条件:- 树莓派B+- micro SD卡- 读卡器- 无线网卡- 5V2A电源- 移动硬盘- USB hub- HDMI转VGA- 显示器- 键盘- 鼠标- Mac book air2、实验步骤:- 烧录系统到SD上。参考官网步骤,但注意读卡器有时会出问题,选择高质量的设备。- 启动设置Raspbian系统(raspi-config)设置各种参数,例如ssh...

View Article


中国政治坐标系数据的一点分析

清明节有点空闲,凑巧又看到一份很有趣的数据,下文是对这份数据的一点点分析结果。1、数据整理整体数据并不大,读到R里面首先做了点处理。- 将选项("强烈同意","同意","反对","强烈反对") 映射为分值(2,1,-1,-2)- 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)-...

View Article


R和python的整合

以前写的一个东西,贴上来给需要的朋友看看。

View Article

用非负矩阵分解对文本词项矩阵降维

在前年的一个贴子中,谈到了使用奇异值分解来对一个文本词项矩阵进行降维。本文是使用同样的数据,但是使用不同的工具来处理,也就是非负矩阵分解。nmf的好处在于比svd更容易解释,而且自带正则功能。

View Article

用spark进行数据挖掘

View Article

用代码来理解boosting方法

提升方法是集成学习中预测能力最强的一种方法。在R和Python中都有相应的扩展库和丰富的函数。不过对于初学者来讲,理解这种方法不是很容易。本文基于R的决策树包实现两种基本的提升树,即回归提升树和分类提升树。有助于理解提升方法的原理,以及各项参数的作用。

View Article


使用word2vec进行文本分类

View Article

基于深度学习的中文分词尝试

最近折腾deeplearning和NLP比较多,其实就是在看Stanford的cs224d课程啦。抽空尝试了一下使用词向量和神经网络做中文分词。使用的数据是参考资料中的中文分词资源,即Bakeoff中微软研究院的中文语料库,它的训练文本带有每个字的标注(BEMS),同时带有测试文本和测试脚本。此外使用了补充的语料库,即sogou新闻语料库,不带字标注,但可用来学习字向量。使用的工具是python中的...

View Article


如何搭建一台深度学习服务器

在计算机时代的早期,一名极客的满足感很大程度上来源于能DIY一台机器。到了深度学习的时代,前面那句话仍然是对的。缘起在2013年,MIT科技评论将深度学习列为当年十大科技突破之首。其原因在于,模型有其为庞大的网络结构,参数够多,学习能力够强,能配合大数据达到惊人的效果。而且,能自动学习特征,避免了“特征工程”这种繁琐的手工劳动。对于图像、音频和文字处理领域有极大的意义。因为最近在尝试用深度学习做文本...

View Article

使用深度学习库keras做文本分类

View Article


深度学习入门资源索引

深度学习(Deep...

View Article

Image may be NSFW.
Clik here to view.

自夸

李舰和我合写的一本书在2015年的7月份上市了,今天来自推一下这本书。此书是面向于初学者,提供宽而浅的导论性质读物。http://book.douban.com/subject/26576631/数据科学是将数据转化为行动的艺术,是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其为应用而生,因此本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及...

View Article

基于深度LSTM的中文分词

本例尝试的用多层LSTM来玩中文分词,大部分代码和之前的文章是一样的。不一样的就是使用了更复杂的模型,用了多个LSTM叠加在一起。这对于句子这种有时序特征的数据更有帮助。在前面部分的代码是计算了字向量,但是发现是没有太大必要。除了用多层LSTM,后面还尝试了双向LSTM,效果也还可以。

View Article

python中的数据工具箱

最近参加了第九届北京R语言大会,做了一个关于python的简单介绍。相关ppt在如下连接,需要的下载。链接: http://pan.baidu.com/s/1dEGl63f 密码: k3y6博客,只要有时间,我还是会继续坚持的。

View Article


Image may be NSFW.
Clik here to view.

值乎?

刚开通了值乎,有趣的数据问题可以来问我,当然一分钟比较短啦。有严肃的长问题还是去知乎问我吧。

View Article


标签传播算法

因为标注成本比较高,当你的训练数据集只有一部分数据是有标注的情况下,使用监督学习你只能扔掉那些没有标注的X。而实际上,有标注的样本和无标注的样本之间是有关系的,这种关系信息也可以用来帮助学习。这就是半监督学习标签传播(Label...

View Article

TensorFlow初体验

以前玩深度学习一直是用的theano和keras,做为谷粉不能不试一下大热的TensorFlow。首先安装起来。TensorFlow的安装指南非常详细,我是python的anaconda环境,所以直接先创建一个新环境,创建前先更新一下condaconda update condaconda update anaconda看一下目前计算机上有哪些环境conda info...

View Article

Image may be NSFW.
Clik here to view.

艺术风格的神经网络算法实验

2015年九月的时候出现了一篇很趣的论文《A Neural Algorithm of Artistic...

View Article

Browsing latest articles
Browse All 85 View Live