数据科学中的R和Python

↧

Image may be NSFW.
Clik here to view.

《R语言与Bioconductor生物信息学应用》已经出版

January 28, 2014, 5:06 pm

《R语言与Bioconductor生物信息学应用》一书主要是使用R语言来解决生物信息学问题。主要作者是两位在生物信息学界有极深造诣的科研人士，高山和欧剑虹，这二位的博客地址如下：http://blog.sciencenet.cn/u/gaoshannankaihttp://pgfe.umassmed.edu/ou/我本人也完成了其中部分章节的写作。此书的特点在于：从实际课题出发，提出解决这个问题的思...

View Article

用模拟来理解混合效应模型之二：Random Intercept and slope model

January 29, 2014, 4:24 am

在之前的这篇文章中，混合效应模型的意义已经说的比较清楚了，简言之，样本中不能穷尽总体level的变量都是随机效应。也可以这么认为，会影响目标变量，但我们不关心的解释变量都是随机效应。之前文章的随机效应只影响模型的intercept，那么也会有影响slope的随机效应。我们先来看一下这种混合效应模型的假设，再用假设来生成数据，并建模和绘图。Yij = b0 + (b1+si)*Xij + bi +...

View Article

从模拟角度理解混合模型第三：广义和加性混合模型(完)

February 15, 2014, 10:49 pm

之前讨论的混合效应模型均是最常见的线性模型基础上的扩展。但在实际使用中会发现用到其它情况，例如要处理分类问题，需要logistic回归模型。再比如说线性关系不存在，需要用加性模型来处理复杂的非线性关系。这两种模型分别归于广义线性模型和加性模型。那么在这两种模型基础上再考虑解释变量的混合效应，要分别衍生出广义混合效应模型和加性混合效应模型。在R中lme4包可以处理广义混合效应模型，而mgcv包可以处理...

View Article

一个简单排队论问题的python实现

June 21, 2014, 9:41 pm

一个诊所只有一个医生，病人到来的时间是随机的，从早上九点开始，服从一个时间参数为10min的泊松过程，即每个人到来的时间服从独立同分布的指数分布，其期望为10min，每个病人到来之后，下一个病人到来的时间服从独立同分布的指数分布，期望为10min。当一个病人到来以后，将等待直到医生有空。每个医生在每个病人上花费的时间是一个随机变量，在5min到10min之间均匀分布。诊所从下午4点不再接受新病人，最...

View Article

理解MCMC

July 6, 2014, 5:33 am

在贝叶斯统计中，经常需要计算后验概率，概率计算就涉及到积分问题。一种解决方法是用解析式得到后验概率直接计算，另一种是利用统计模拟来计算近似值。考虑一个简单问题，我们对一个硬币反复投掷，对于出现正面的概率theta先主观设定为一个均匀分布，然后实际投掷14次，得到11次正面，要根据这个信息data来更新后验概率。下面用统计模拟来计算。...

View Article

python和ggplot2

July 19, 2014, 7:44 pm

python有个非常强大的工具，那就是ipython...

View Article

python读入csv的三种方式

October 10, 2014, 12:00 am

读数据到python有好几种方法，我们以读取iris.csv为例，将其中的数值部分提取出来。第一种方法是列表理解，文件读取到lines之后用一个嵌套的列表理解就可以将数值存为一个list。第二种方法是使用numpy库，它内带的loadtxt函数，读取的数据都认作是字符串，所以在第二行取我们需要的部分，并转为数值array。第三种方法是使用pandas库，它内带read_csv函数，读取数据会自动判断...

View Article

python的数据科学资源

October 11, 2014, 5:08 am

python和R是数据科学家手中两种最常用的工具，R已经介绍的太多了，后续我们来玩玩python吧。从出身来看，R是统计学家写的，python是计算机科学家写的，两者的出生背景不一样，随着数据爆发，python也慢慢发展，逐渐在数据科学中找到了一席之地。包：python也有非常多的扩展包，不过用于数据分析的并不象R那么品种繁多。常用的：numpy：提供最基本的数值计算，使向量化计算成为可能。scip...

View Article

Image may be NSFW.
Clik here to view.

pandas包绘图函数初步

October 15, 2014, 7:11 pm

python中绘图有很多包来支持，但总是觉得没有ggplot2有用。尽管如此，在探索数据时还是需要画些图来观察数据。尝试了很多方式，感觉比较方便的还是利用pandas包的附带绘图函数，可以做一些初步的探索性画图。它本身还是对matplotlib包的一个封装。下面的代码是画一些基本的图形，如线图，直方图，条形图，散点图。散点图映射点的color时要注意，不能直接把字符串进行映射，需要用scatter函...

View Article

Image may be NSFW.
Clik here to view.

python中的线性回归

October 18, 2014, 3:15 am

python中的线性回归对于统计模型来说，最简单也最经典的模型要数线性回归模型，它可以满足统计建模的所有标准流程，并且适用范围也非常广。R里面是使用lm函数来做回归，而在python里面有几个包都提供了这一功能，首先介绍sklearn包中的回归函数，然后介绍statsmodels包中的回归函数。前者适合于机器学习中的预测，不需要太多中间结果的观察。后者适合于分析，需要对中间结果，例如系数，残差以及效...

View Article

ipython notebook server配置及数据库连接

October 22, 2014, 2:47 am

ipython notebook是个好东西，它的另一优点就是可以在本地用浏览器，去远程连接服务器的计算资源，就类似于Rstudio公司推出的rstudio server的功能。下面记录一下配置步骤：第一步：服务器上安装ipython系列，推荐是安装anaconda套件，非常方便。安装完毕后将路径加在PATH环境变量中。第二步：设置notebook...

View Article

Image may be NSFW.
Clik here to view.

python贝叶斯文分类识别垃圾短信

October 24, 2014, 8:05 pm

Python贝叶斯文本分类识别垃圾短信1、读取数据，type表示短信类别，text是短信内容In [17]: %pylabinlineimportpandasaspdimportnumpyasnpdf=pd.read_csv('sms_spam.csv')df.head()Populating the interactive namespace from numpy and matplotlib...

View Article

python的决策树和随机森林

October 25, 2014, 11:06 pm

Python的决策树和随机森林决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强，对噪声数据和缺失数据不敏感。下面示范用titanic中的数据集为做决策树分类，目标变量为survive。第一步：读取数据In [2]:...

View Article

社会科学的代码和数据工作指南

November 3, 2014, 9:08 pm

偶尔在知乎上看到有人推荐了一本小册子：《Code and Data for the Social Sciences:A Practitioner’s Guide》。专门讲非计算机背景的分析研究人员如何归整自己的分析代码和研究数据。看下来还是总结得非常好，很有益于创建高效的工作规范和流程。将其中一些基本的规则摘要如下：Automate(A) Automate everything that can...

View Article

用pymc实施MCMC

December 13, 2014, 5:11 pm

View Article

用深度学习做手写识别

December 27, 2014, 6:40 pm

View Article

《R语言与Bioconductor生物信息学应用》已经出版

用模拟来理解混合效应模型之二：Random Intercept and slope model

从模拟角度理解混合模型第三：广义和加性混合模型(完)

一个简单排队论问题的python实现

理解MCMC

python和ggplot2

python读入csv的三种方式

python的数据科学资源

pandas包绘图函数初步

python中的线性回归

ipython notebook server配置及数据库连接

python贝叶斯文分类识别垃圾短信

python的决策树和随机森林

社会科学的代码和数据工作指南

python中的主成分分析

小试python的网页数据抓取

seaborn画图初步

德国坦克问题的简单解答

用pymc实施MCMC

用深度学习做手写识别