对数据分析的兴趣倒不是盲目追随"大数据"热.

之前朋友需要处理一些xls数据(来自医院),做些统计分析,对药效给出分析结论.我跃跃欲试,觉得应该挺有意思,当时我的大体思路是这样的:

  • 首先,将数据导出成csv文件.
  • 使用peewee建立对象模型,其实是想借用sql本身具有的查询统计功能
  • 解析csv到对象模型中
  • 分析处理对象集

实际操作很繁琐,遇到的一些经典问题如数据缺失之类.

后台偶然的机会在图书馆看到这本书利用Python进行数据分析(Python for Data Analysis),十分喜欢.

在去西安的路上也带着,一夜车程看了100来页,反而把小说搁在一边了.

涉及的一些工具(库)如下:

本书的代码 也托管在github上.包括需要使用的数据都包含在内.阅读时跟着例子做是很好的学习放法