Fork me on GitHub

数据分析和数据挖掘中相关模块的安装和介绍

     小编最近在学习数据分析与数据挖掘时候在安装相关模块的时候,踩过许多坑,然后自己再结合网上资料,终于把相关的库全部安装好了。

这些库的下载全部在网页(  https://www.lfd.uci.edu/~gohlke/pythonlibs/ )中

  对于安装numpy , matplotlib ,scipy,statsmodels , gensim ,sklearn ,keras,skimage等模块的安装,小编踩过不少坑,经总结如下,安装顺序一定要以numpy为基础,不然会出现问题。

  因为安装skimage等模块的时候,最重要的就是安装其依赖的组件numpy , matplotlib ,scipy。

安装numpy(一定要下载到本地安装,不然会出问题)

   注意:numpy包一定要找numpy+mkl的包,不然会出错

 安装pandas(可以下载到本地安装,也可以网络安装)

安装matplotlib(可以下载到本地安装,也可以网络安装)

安装scipy(一定要下载搭配本地安装,不然会出问题)

安装statsmodels(可以下载到本地安装,也可以网络安装)

安装gensim(可以下载到本地安装,也可以网络安装)

下载的包如下(我的是python 3.6,操作系统是64位,名称中间的cp36是python3.6的意思,amd64是python的位数):

下载到本地安装如下(注意cmd一定要调到安装的目录下,不然也会出错):

pip install numpy-1.13.3+mkl-cp36-cp36m-win_amd64.whl

 网络安装如下:

pip install matplotlib

 

安装pymysql(网络安装即可)

   pymysql是python中操作MySQL的模块,其方法和MySQLdb几乎相同,但是目前pymysql支持python3.X而后者不支持3.X的版本(不知道以后会不会更新,但是目前情况就是这样)

 安装:

pip install pymysql

 安装builtwith模块

  此模块采取网络安装即可,作用就是检查网站构建的技术类型

pip install builtwith

 

安装python-whois模块

此模块的作用就是找到网站的所有者,利用WHOIS协议查询域名的注册者是谁,而此模块就是针对该协议的封装库 

pip install python-whois

 

python3 pandas read_csv报错 :OSError: Initializing from file failed

       代码:

import  pandas as pda

datafile = pda.read_csv(d:/爬虫/file.csv)

出错代码是:

self._reader = parsers.TextReader(src, **kwds)
  File "pandas\_libs\parsers.pyx", line 394, in pandas._libs.parsers.TextReader.__cinit__ (pandas\_libs\parsers.c:4209)
  File "pandas\_libs\parsers.pyx", line 712, in pandas._libs.parsers.TextReader._setup_parser_source (pandas\_libs\parsers.c:8895)
OSError: Initializing from file failed

小编参考了csdn一个大神的解决思路是:

               在python中使用read_csv的时候,如果传入的参数不是文件名称而是文件的路径,就会报这个错误(本人的python是3.6),在网上搜索原因就是这个库的问题,解决方法是:先切换到这个目录,然后传文件名作为参数。

import pandas as pda
import os

hexunfile = pda.read_csv("D:/爬虫/file.csv")


#os.getcwd()用于返回当前工作目录
pwd = os.getcwd()
#os.chdir表示切换到某某目录
os.chdir(os.path.dirname(hexunfile))
hexunData = pda.read_csv(os.path.basename(hexunfile))
os.chdir(pwd)

但是这样的,在python3.6依然出错,所以小编又继续查找,又有大神说是文件没有读取到,路径原因,所以小编把文件名修改为英文

import  pandas as pda

datafile = pda.read_csv(d:/py/file.csv)

这样就解决了这个问题。

 安装html5lib和beautifulsoup4模块

  使用pandas,可以直接从html网页中加载对应的table表格中的数据,但是在使用read_html()之前,需要 安装html5lib和beautifulsoup4模块,安装这两个模块,同样可以采取网络安装,如下:

pip install html5lib
pip install beautifulsoup4

 安装sklearn模块

sklearn 是一个包含主成分分析(PCA)的一个模块

pip install sklearn

 安装jieba模块

jieba模块主要对中文做分词,分析句子和文章都是以词语为文章,所以我们对此处理的时候需要进行分词,与英文不一样的,英文分词靠空格就可以解决。

pip install jieba

 安装skimage

easy_install scikit-image

pip install  scikit-image

 

于2018.9月补充:

 其实安装sklearn和scipy等等这些库,如果有pycharm编译器则很简单,直接去settings中,查找相关库安装即可。

 

posted @ 2017-11-22 22:48  战争热诚  阅读(895)  评论(0)    收藏  举报