Python数据科学学习笔记(一)
任何一件事情的开始必然是带着明确的需求的,首先我们需要思考的就是数据科学家的需求,也就是数据科学家需要做什么:
- 获取数据
- 操纵和处理数据
- 结果可视化,便于快速理解各种数字指标及其意义
这样,我们就清楚了Python作为数据分析工具需要处理的问题,下一步开始进入Python数据科学的学习中。
工欲善其事,必先利其器。下面是Python数据分析环境的基本组成部分:
- Python(一种流行的通用计算机语言)
- Core numeric libraries (数字计算基础核心库)
- Numpy,Scipy,Matplotlib
- Advanced interactive environments(交互式编程环境)
- IPython,Jupyter
- Domain-specific packages(专业领域相关库)
- Mayavi:3D 可视化(注:Matplotlib为2D 可视化相关库)
- pandas,statsmodels,seaborn:统计学
- sympy:符号计算
- scikit-image:图像处理
- scikit-learn:机器学习
第一步,搭建Python进行数据分析的环境。
1、Linux下,新版本的系统下自带了打包安装了大多数的工具,推荐使用自带的包管理器在需要时安装缺失工具。
2、Windows下,推荐使用打包好的用于科学计算的发行版本,例如Anaconda,EPD,WinPython。
关于Python版本:Python 2与Python 3均可以。我安装的是 Python 2.7.10。
安装好后,在命令行窗口输入python就可以进入python环境,如下所示是windows下启动Python 2.7.10的界面:
C:\Users\steacy>python Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>>
第二步,启动交互式编程环境(推荐使用IPython控制台)
一般情况下,如果安装过了Anaconda,EPD或者WinPython,IPython就已经自动安装好了,同样的我们可以通过在命令行窗口输入ipython来启动IPython并进入IPython交互式开发环境,如下所示:
C:\Users\steacy>ipython Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] Type "copyright", "credits" or "license" for more information. IPython 2.4.1 -- An enhanced Interactive Python. ? -> Introduction and overview of IPython's features. %quickref -> Quick reference. help -> Python's own help system. object? -> Details about 'object', use 'object??' for extra details. In [1]:
随着继续深入,可能还需要安装Python代码编辑器,比如Spyder,PyCharm,Atom。不过当前安装好前面的就可以了。
接下来的章节简单介绍IPython的四个常用特性:
- history(命令历史)
- tab completion(tab键自动补全)
- magic functions(魔术函数)
- aliases(别名)
浙公网安备 33010602011771号