ubuntu下搭建一个数据化处理的开发环境

1、搭建matplotlib环境

  构建matplotlib运行环境,需要满足相关软件环境。

  numpy库提供大数据集的数据的数据结构和数学方法。诸如元组、列表或字典等python的默认数据结构同样可以很好的支持数据的插入、删除和谅解。NumPy的数据结构支持矢量操作,使用简便,同时具有很高的执行效率。矢量操作在实现时充分考虑了大数据的需要,基于C语言的方式也保证了执行效率。

  基于Numpy的scipy库,是Python的标准科学计算和数学计算工具包,包含了大量的专用函数和算法。大部分函数和算法源自著名的Netlib软件仓库(http://www.netlib.org),实际上是使用C语言和Fortran实现的。

 

1、安装NumPy

  安装Python-NumPy软件包

apt-get install python-numpy

安装完成后,使用命令

python -c 'import numpy; printf numpy_.__version__'

  检查版本。

2、安装所需库

  libpng1.2:PNG文件处理

  freetype6:处理True type字体

 

sudo apt-get install libfreetype6
sudo apt-get install libpng12-dev 

3、安装matplotlib

apt-get install python-matplotlib4

如果你想进行机器学习方向的学习,下面这些库也是必不可少的。

4、安装scipy

Scipy是一个高级的科学计算库,它和Numpy联系很密切,Scipy一般都是操控Numpy数组来进行科学计算,所以可以说是基于Numpy之上的开发工具。

apt-get installl python-scipy5

5、安装数据分析工具pandas 

 apt-get install python-pandas 6

6、sklearn是必不可少的,sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型。安装指令

apt-get install python-sklearn

2、安装virtualenv和virtualenvwrapper

  如果同时工作在多个项目上,或是需要在不同项目间频繁切换,将所有软件都安装在操作系统上并不是一个好主意。当需要在不同系统上运行软件时,这种方式会带来问题。virtualenv它可以创建一个独立的python环境,这样就可以让我们很容易的在不同的运行环境之间切换。同时,如果需要切换到另外的机器或者需要在产品服务器上部署软件时,用virtualenv可以很容易的重新构建相同的软件包。

1、安装pip

  pip是安装并管理Python软件包的工具,可以用它来代替easy install工具。pip安装命令如下:

apt-get install python-setuptools

easy_install pip

什么时候该用pip,什么时候该用apt-get呢?情况是这样的,如果你需要最新版本的python依赖包,你可以直接使用apt-get,在项目突然需要使用旧版本的依赖包时,你就可以使用virtualenv和pip来使完美得再安装上一个旧版本的依赖包; 

2、安装virtualenv和virtualenvwrapper

easy_install virtualenv
easy_install virtualenvwrapper

安装完成后,需要在系统中添加virtualenvwrapper的环境变量,在~/.bashrc文件中的最后添加路径如下

source "/usr/local/bin/virtualenvwrapper.sh"
export WORKON_HOME="/opt/virtual_env/"

3、关于virtualenv使用

(1) 首先创建一个虚拟环境

virtualenv python_env

系统在预设虚拟环境时,默认的会依赖系统环境中的包,如果不想依赖西戎的包,可以加上 --no-site-packages 来建立虚拟环境即

virtualenv --no-site-packages python_env

(2)启动虚拟环境

进入到虚拟环境的目录下,使用命令

source bin/active

可以看到,在最前面多了一个虚拟环境的名称,说明虚拟环境已经开始运行了。

 (3)在虚拟环境安装新的Python 套件

安装套件的命令为

pip install [套件名称]

如果想要避免pip在没有进入虚拟环境时被使用,可以在~/.bashrc加上:

export PIP_REQUIRE_VIRTUALENV=true

要求pip一定要在虚拟环境中执行。

也可以用下面的设定,让系统的pip自动使用启动中的虚拟环境。

export PIP_RESPECT_VIRTUALENV=true

避免意外将套件安装至系统环境。

 (4)退出虚拟环境

  在命令中输入

deactivate

  即可推出虚拟环境。

 

4、关于virtualenvwrapper的使用

Virtualenvwrapper 是一个Virtualenv 的扩展,可使虚拟环境的管理变得更容易。

详细来说,Virtualenvwrapper 提供下述功能:

  1. 将所有的虚拟环境整合在一个目录下。
  2. 管理(新增、移除、复制)所有的虚拟环境。
  3. 可以使用一个命令切换虚拟环境。
  4. Tab 补全虚拟环境的名字。
  5. 每个操作都提供允许使用者自订的hooks。
  6. 可撰写容易分享的extension plugin 系统。

 使用如下:

 

使用命令mkvirtualenv可以进行一次性装配

mkvirtualenv [-i package] [-r requirements_file] [virtualenv options] ENVNAME

  当然也可以一步步来,首先创建虚拟环境

  然后可以看到在~/.virtualenvs的文件下创建了一个虚拟环境,我们可以如virtualenv一样去文件加下激活,但是这样就比较麻烦,virtualenvwrapper提供了一个非常有用的激活命令workon来进行激活,我们可以直接使用命令进行激活。

workon 要激活的环境名

 

 除此之外,virtualenvwrapper还提供了一些其他的命令方便我们使用:

(1)虚拟环境列出指令

lsvirtualenv [-b] [-l] [-h]

  其中-b是简短模式;-l是详细模式(预设);-h是印出help资讯。

(2)复制虚拟环境指令

cpvirtualenv ENVNAME TARGETENVNAME

  

(3)移除虚拟环境指令

rmvirtualenv ENVNAME

  

还有更多指令请查看查考手册

 

3、安装图像处理工具PIL

   python图像库(PIL)为python提供了强大的图像处理能力,PIL支持的文件格式相当广泛,其特性有快速数据访问、点运算、滤波、图像缩放、旋转、任意仿射转换等。

 使用命令

apt-get install python-PIL

即可安装。

有一个专门针对PIL编写的在线手册,可以查看链接学习。

 

 

4、安装requests模块

  我们需要的大部分数据都可以同通过HTTP或类似协议得到,因此,我们需要一些工具来实现数据访问,虽然python提供的urllib2提供了访问远程资源的能力,但是该模块完成基础任务的工作量较大。Request封装了HTTP1.1的内容,并提供了新的API,仅在需要实现非默认访问的情况下才需要暴露相关内容。安装用

apt-get install python-requests

  下面为一个requtests的使用小例子(运行环境python3.4):

import requests
r = requests.get('http://github.com/timeline.json')
print(r.content)

  运行结果如下:

本例中,是向github站的URI发送HTTP GET请求,以JSON格式返回了GITHub网站的活动时间表。在成功读取HTTP响应后,对象r包含了HTTP响应内容以及其他属性信息(HTTP状态码、cookie、HTTP头元数据,甚至包括当前响应所对应的请求信息。

 

5、在代码中配置matplotlib参数

  在matplotlib的配置文件.rc文件中,已经为大部分属性提供了默认值,这里讲解下如何在代码中配置matplot参数。

  在代码执行过程中,有两种方法运行参数:使用字典(rcParams)或调用matplotlib.rc()命令进行更改。第一种方式,可以通过rcParams访问修改所有已经加载的配置项,第二种方式中,可以通过向matplotlib.rc()传入属性的关键字元元组来修改配置项。

  如果要修改重置动态修改后的配置参数,可以调用matplotlib.rcdefaults()将配置重置为标准设置。

  下面通过两段代码延时之前介绍的功能

使用matplotlib.rcParams的例子

import matplotlib as mpl
mpl.rcParams['lines.linewidth'] = 2
mpl.rcParams['lines.color'] = 'y'

使用matplotlib.rc()函数的例子。

import matplotlib as mpl
mpl.rc('lines',linewidth=2,color='r')

  上面两个例子具有相同的作用,第二个例子中,我们设定后续的所有线条宽度为2个点,第一个例子中的最后一条语句表面光,语句之后的所有线条的衍射均为红色,除非本地覆盖他。下面给出一个实际应用的例子。

import matplotlib.pyplot as plt
import numpy as np

t=np.arange(0.0,1.0,0.01)
s=np.sin(2*np.pi*t)

plt.rcParams['lines.color'] = 'r'
plt.plot(t,s)
c=np.cos(2*np.pi*t)
plt.rcParams['lines.linewidth'] = '3'
plt.plot(t,c)
plt.show()

  使用python test.py运行上面的test.py程序,运行结果如下:

 

6、为项目设置matplotlib参数

  如果不想每次使用matplot时都在代码开始部分进行分配,就需要为不同的项目设定不同的默认配置项。假设一个项目对于matplot的特性参数总会设置相同的值,就没有必要每次编写新的绘图代码时都进行相同的配置。取而代之的,应该是在代码之外,使用一个永久的文件设定matplotlib参数默认值。

  通过matplotlibrc来配置文件。配置文件在三个不同位置,而他们的位置决定了他们的应用范围,三个位置的说明如下:

  当前目录:即代码运行的目录。在当前目录下,可以为目录所包含的当前项目定制matplotlib配置项。配置文件的名称为matplotlibrc。

  用户级.matplotlib/matplotlibrc文件:通常在用户的$HOME目录下。可以用matplotlib.get_configdir()命令来找到当前用户的配置文件目录。

  安装级配置文件:通常在python的site-packages目录下。这是系统级配置,不过在每次重新安装matplotlib后,覆盖文件会被覆盖。因此如果希望保持持久有效的配置,最好选择在用户级配置文件中进行设置。目前对本配置文件的最佳应用方式,是将其作为默认配置模板。如果在用户级配置文件已经比较混乱,或者需要为新项目做全新配置时,可以基于该配置文件进行配置。

  在shell中运行以下命令,即可打印出配置文件目录的位置:

python -c 'import matplotlib as mpl; print mpl.get_configdir()'

配置文件包括以下配置项:

  axes:设置坐标轴边界和表面的颜色、坐标刻度大小和网格的显示。

  backend:设置目标输出TKAgg和GTKAgg。

  figure:控制dpi、边界颜色、图形大小和子区设置。

  font:字体集,字体大小和样式设置。

  grid:设置网格颜色和线型。

  legend:设置图例和其中文本的显示。

  line:设置线条(颜色、线性、宽度等)和标记。

  patch:填充2D空间的图形对象,如多边形和圆。控制线宽、颜色和抗锯齿设置等。

  savefig:可以对保存的图形进行单独设置。

  text:设置字体颜色、文本解析等。

  verbose:设置matplotlib在执行期间信息输出,如silent、helpful、debug和debug-annoying。

  xticks和yticks:为x、y轴的主刻度和次刻度设置颜色、大小、方向以及标签大小。

 

 

参考资料

MATPLOTLIB

关于在Ubuntu下安装配置numpy,scipy,matplotlibm,pandas 以及sklearn

Python: Ubuntu 安装numpy,scipy,matplotlib

Python 的虛擬環境及多版本開發利器─Virtualenv 與 Pythonbrew

http://effbot.org/

 

posted @ 2018-04-25 11:15  noticeable  阅读(297)  评论(0编辑  收藏  举报