我的Python for Data Science toolkit
IPython Notebook
这已经完全变成了我的研发IDE,强烈推荐给所有使用Python的研发人员。
numpy/scipy/matplotlib
用Python做科学运算的基本配置。假如觉得matplotlib默认画风太丑,推荐用seaborn来美化,默认效果已然改善很多。
pandas
作为一个数据处理/清理工具,与numpy的接合非常紧密。
scipy.weave
单独把它拿出来说是因为个人认为它的功能非常强大并且被很多人忽略了。scipy.weave可以在Python中内嵌一段C代码并在第一次执行时编译成可执行文件。当你遇到一个功能用Python实现太低效(比如不容易向量化的多重for-loop),那么scipy.weave通常都可以带来非常可观的加速。跟Cython的功能类似但是个人认为比Cython还要强大。
scikit-learn
基本上实现了大部分的主流machine learning算法,适合快速出一个结果。另外scikit-learn的internface设计也非常直观。
joblib
官方描述是“embarrassingly parallel”。scikit-learn中很大程度的使用了joblib的一些高级功能。
theano
很多人把theano当成是一个deep learning的工具,但是其实它是一个强大的symbolic differentiation工具。简单的说,他的功能就是:当你给他一个表达式,他可以帮你求导;并且根据你的配置无缝衔接地使用CPU或者GPU来进行高性能运算。
评论(0)