Python数据科学学习笔记(一)

任何一件事情的开始必然是带着明确的需求的,首先我们需要思考的就是数据科学家的需求,也就是数据科学家需要做什么:

  1. 获取数据
  2. 操纵和处理数据
  3. 结果可视化,便于快速理解各种数字指标及其意义

这样,我们就清楚了Python作为数据分析工具需要处理的问题,下一步开始进入Python数据科学的学习中。

 

工欲善其事,必先利其器。下面是Python数据分析环境的基本组成部分:

  • Python(一种流行的通用计算机语言)
  • Core numeric libraries (数字计算基础核心库)
    • Numpy,Scipy,Matplotlib
  • Advanced interactive environments(交互式编程环境)
    • IPython,Jupyter
  • Domain-specific packages(专业领域相关库)
    • Mayavi:3D 可视化(注:Matplotlib为2D 可视化相关库
    • pandas,statsmodels,seaborn:统计学
    • sympy:符号计算
    • scikit-image:图像处理
    • scikit-learn:机器学习

 

第一步,搭建Python进行数据分析的环境。

1、Linux下,新版本的系统下自带了打包安装了大多数的工具,推荐使用自带的包管理器在需要时安装缺失工具。

2、Windows下,推荐使用打包好的用于科学计算的发行版本,例如Anaconda,EPD,WinPython。

关于Python版本:Python 2与Python 3均可以。我安装的是 Python 2.7.10。

安装好后,在命令行窗口输入python就可以进入python环境,如下所示是windows下启动Python 2.7.10的界面:

C:\Users\steacy>python
Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>

第二步,启动交互式编程环境(推荐使用IPython控制台)

一般情况下,如果安装过了Anaconda,EPD或者WinPython,IPython就已经自动安装好了,同样的我们可以通过在命令行窗口输入ipython来启动IPython并进入IPython交互式开发环境,如下所示:

C:\Users\steacy>ipython
Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)]
Type "copyright", "credits" or "license" for more information.

IPython 2.4.1 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]:

随着继续深入,可能还需要安装Python代码编辑器,比如Spyder,PyCharmAtom。不过当前安装好前面的就可以了。

 

接下来的章节简单介绍IPython的四个常用特性:

  1. history(命令历史)
  2. tab completion(tab键自动补全)
  3. magic functions(魔术函数)
  4. aliases(别名)

 

posted on 2017-05-01 09:14  Steacy汐墨  阅读(188)  评论(0)    收藏  举报

导航