在amazon书店里头,如果将统计类和数据挖掘类书籍除外的话,还真没有一本正经八百讲数据分析的书。不过《Data Analysis with Open Source Tools》倒是填补了这个空白。一般说到数据分析,可能要么是概念和公式推导居多,要么是软件教程和计算代码居多,这本书的写作风格和内容则大不一样,作者是以一种诚恳的态度在和你聊数据分析的事情,而不是以一种教科书的形式讲技术细节。它的重点在于作者的行业经验和心得。该书提出了很多很好的行业见解,而且知识覆盖范围极广,甚至包括了一些数据建模和BI的东西,不然也不会号称是程序员和数据科学家的指南手册了。
整书分为四个部分:
第一部分谈数据的展现,即一般意义上的统计图形。
第二部分谈利用数据帮助推断和建模,提到了统计检验、量纲分析、分布、最小二乘等内容。
第三部分谈对数据的计算和挖掘,提到模拟、聚类、主成份分析。
第四部分谈数据的分析应用,提到商业智能、时间价值等经济概念、预测算法以及一些经验之谈。
这本书在导论中就谈到了一些有趣而重要的观点,例如:
Simple is better than complex
Understanding is more important than technique
Think more, work less.....
这些话和数据分析的业界共识是一样的,也就是说数据分析本身不能解决问题。需要有正确的行业理解来提出正确的问题,然后以此来构建合适的指标收集数据,在理解问题和数据的基础上,再谈算法的选择和结果的解读。问题、数据、模型是三位一体的。甚至有时候数据和算法都不是最重要的,因为在我们世界中,有一些重要的东西是无法测量的。
当然这本书也不是十全十美,因为想谈太多的东西,所以写得不会很细,好在每章后面都有推荐进一步阅读书目。而且目标读者是一些缺乏统计背景的程序员,所以统计知识有些初级,编排有些随意。在软件方面,我本来以为它会详细介绍的,其实它只是蜻蜓点水,比较杂乱,要是能只专注一两种软件就好了。
尽管如此,仍然是值得花时间看看这本导论性质的书。最后,如果你的时间真的不多,只看导论和附录就很有收获了。附录中对数据分析的软件和所需技能的评论真得很棒。而且各位也知道,我所推荐的书都是读过的,质量还是有保证的。
连接在此