Python数据科学学习笔记（一）

任何一件事情的开始必然是带着明确的需求的，首先我们需要思考的就是数据科学家的需求，也就是数据科学家需要做什么：

获取数据
操纵和处理数据
结果可视化，便于快速理解各种数字指标及其意义

这样，我们就清楚了Python作为数据分析工具需要处理的问题，下一步开始进入Python数据科学的学习中。

工欲善其事，必先利其器。下面是Python数据分析环境的基本组成部分：

Python（一种流行的通用计算机语言）
Core numeric libraries (数字计算基础核心库)
- Numpy，Scipy，Matplotlib
Advanced interactive environments（交互式编程环境）
- IPython，Jupyter
Domain-specific packages（专业领域相关库）

Mayavi：3D 可视化（注：Matplotlib为2D 可视化相关库）
pandas，statsmodels，seaborn：统计学
sympy：符号计算
scikit-image：图像处理
scikit-learn：机器学习

第一步，搭建Python进行数据分析的环境。

1、Linux下，新版本的系统下自带了打包安装了大多数的工具，推荐使用自带的包管理器在需要时安装缺失工具。

2、Windows下，推荐使用打包好的用于科学计算的发行版本，例如Anaconda，EPD，WinPython。

关于Python版本：Python 2与Python 3均可以。我安装的是 Python 2.7.10。

安装好后，在命令行窗口输入python就可以进入python环境，如下所示是windows下启动Python 2.7.10的界面：

C:\Users\steacy>python
Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>

第二步，启动交互式编程环境（推荐使用IPython控制台）

一般情况下，如果安装过了Anaconda，EPD或者WinPython，IPython就已经自动安装好了，同样的我们可以通过在命令行窗口输入ipython来启动IPython并进入IPython交互式开发环境，如下所示：

C:\Users\steacy>ipython
Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)]
Type "copyright", "credits" or "license" for more information.

IPython 2.4.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]:

随着继续深入，可能还需要安装Python代码编辑器，比如Spyder，PyCharm，Atom。不过当前安装好前面的就可以了。

接下来的章节简单介绍IPython的四个常用特性：

history（命令历史）
tab completion（tab键自动补全）
magic functions（魔术函数）
aliases（别名）

posted on 2017-05-01 09:14 Steacy汐墨阅读(190) 评论(0) 收藏举报

刷新页面返回顶部

Steacy汐墨

Python数据科学学习笔记（一）

导航

公告