数据分析和数据挖掘中相关模块的安装和介绍

小编最近在学习数据分析与数据挖掘时候在安装相关模块的时候，踩过许多坑，然后自己再结合网上资料，终于把相关的库全部安装好了。

这些库的下载全部在网页（ https://www.lfd.uci.edu/~gohlke/pythonlibs/　）中

　　对于安装numpy ， matplotlib ，scipy，statsmodels ， gensim ，sklearn ,keras，skimage等模块的安装，小编踩过不少坑，经总结如下，安装顺序一定要以numpy为基础，不然会出现问题。

　　因为安装skimage等模块的时候，最重要的就是安装其依赖的组件numpy ， matplotlib ，scipy。

安装numpy(一定要下载到本地安装，不然会出问题)

　　　注意：ｎｕｍｐｙ包一定要找ｎｕｍｐｙ＋ｍｋｌ的包，不然会出错

安装pandas（可以下载到本地安装，也可以网络安装）

安装matplotlib（可以下载到本地安装，也可以网络安装）

安装scipy（一定要下载搭配本地安装，不然会出问题）

安装statsmodels（可以下载到本地安装，也可以网络安装）

安装gensim（可以下载到本地安装，也可以网络安装）

下载的包如下(我的是python 3.6,操作系统是64位，名称中间的cp36是python3.6的意思，amd64是python的位数)：

下载到本地安装如下（注意ｃｍｄ一定要调到安装的目录下，不然也会出错）：

pip install numpy-1.13.3+mkl-cp36-cp36m-win_amd64.whl

网络安装如下：

pip install matplotlib

安装pymysql（网络安装即可）

pymysql是python中操作MySQL的模块，其方法和MySQLdb几乎相同，但是目前pymysql支持python3.X而后者不支持3.X的版本（不知道以后会不会更新，但是目前情况就是这样）

安装：

pip install pymysql

安装builtwith模块

此模块采取网络安装即可，作用就是检查网站构建的技术类型

pip install builtwith

安装python-whois模块

此模块的作用就是找到网站的所有者，利用WHOIS协议查询域名的注册者是谁，而此模块就是针对该协议的封装库

pip install python-whois

python3 pandas read_csv报错：OSError: Initializing from file failed

代码：

import  pandas as pda

datafile = pda.read_csv(d:/爬虫/file.csv)

出错代码是：

self._reader = parsers.TextReader(src, **kwds)
  File "pandas\_libs\parsers.pyx", line 394, in pandas._libs.parsers.TextReader.__cinit__ (pandas\_libs\parsers.c:4209)
  File "pandas\_libs\parsers.pyx", line 712, in pandas._libs.parsers.TextReader._setup_parser_source (pandas\_libs\parsers.c:8895)
OSError: Initializing from file failed

小编参考了csdn一个大神的解决思路是：

在python中使用read_csv的时候，如果传入的参数不是文件名称而是文件的路径，就会报这个错误（本人的python是3.6），在网上搜索原因就是这个库的问题，解决方法是：先切换到这个目录，然后传文件名作为参数。

import pandas as pda
import os

hexunfile = pda.read_csv("D:/爬虫/file.csv")


#os.getcwd()用于返回当前工作目录
pwd = os.getcwd()
#os.chdir表示切换到某某目录
os.chdir(os.path.dirname(hexunfile))
hexunData = pda.read_csv(os.path.basename(hexunfile))
os.chdir(pwd)

但是这样的，在python3.6依然出错，所以小编又继续查找，又有大神说是文件没有读取到，路径原因，所以小编把文件名修改为英文

import  pandas as pda

datafile = pda.read_csv(d:/py/file.csv)

这样就解决了这个问题。

安装html5lib和beautifulsoup4模块

使用pandas，可以直接从html网页中加载对应的table表格中的数据，但是在使用read_html()之前，需要安装html5lib和beautifulsoup4模块，安装这两个模块，同样可以采取网络安装，如下：

pip install html5lib

pip install beautifulsoup4

安装sklearn模块

sklearn 是一个包含主成分分析（PCA）的一个模块

pip install sklearn

安装jieba模块

jieba模块主要对中文做分词，分析句子和文章都是以词语为文章，所以我们对此处理的时候需要进行分词，与英文不一样的，英文分词靠空格就可以解决。

pip install jieba

安装skimage

easy_install scikit-image

pip install  scikit-image

于2018.9月补充：

其实安装sklearn和scipy等等这些库，如果有pycharm编译器则很简单，直接去settings中，查找相关库安装即可。

posted @ 2017-11-22 22:48 战争热诚阅读(895) 评论(0) 收藏举报

刷新页面返回顶部

战争热诚