数据分析和数据挖掘中相关模块的安装和介绍
小编最近在学习数据分析与数据挖掘时候在安装相关模块的时候,踩过许多坑,然后自己再结合网上资料,终于把相关的库全部安装好了。
这些库的下载全部在网页( https://www.lfd.uci.edu/~gohlke/pythonlibs/ )中
对于安装numpy , matplotlib ,scipy,statsmodels , gensim ,sklearn ,keras,skimage等模块的安装,小编踩过不少坑,经总结如下,安装顺序一定要以numpy为基础,不然会出现问题。
因为安装skimage等模块的时候,最重要的就是安装其依赖的组件numpy , matplotlib ,scipy。
安装numpy(一定要下载到本地安装,不然会出问题)
注意:numpy包一定要找numpy+mkl的包,不然会出错
安装pandas(可以下载到本地安装,也可以网络安装)
安装matplotlib(可以下载到本地安装,也可以网络安装)
安装scipy(一定要下载搭配本地安装,不然会出问题)
安装statsmodels(可以下载到本地安装,也可以网络安装)
安装gensim(可以下载到本地安装,也可以网络安装)
下载的包如下(我的是python 3.6,操作系统是64位,名称中间的cp36是python3.6的意思,amd64是python的位数):
下载到本地安装如下(注意cmd一定要调到安装的目录下,不然也会出错):
pip install numpy-1.13.3+mkl-cp36-cp36m-win_amd64.whl
网络安装如下:
pip install matplotlib
安装pymysql(网络安装即可)
pymysql是python中操作MySQL的模块,其方法和MySQLdb几乎相同,但是目前pymysql支持python3.X而后者不支持3.X的版本(不知道以后会不会更新,但是目前情况就是这样)
安装:
pip install pymysql
安装builtwith模块
此模块采取网络安装即可,作用就是检查网站构建的技术类型
pip install builtwith
安装python-whois模块
此模块的作用就是找到网站的所有者,利用WHOIS协议查询域名的注册者是谁,而此模块就是针对该协议的封装库
pip install python-whois
python3 pandas read_csv报错 :OSError: Initializing from file failed
代码:
import pandas as pda datafile = pda.read_csv(d:/爬虫/file.csv)
出错代码是:
self._reader = parsers.TextReader(src, **kwds)
File "pandas\_libs\parsers.pyx", line 394, in pandas._libs.parsers.TextReader.__cinit__ (pandas\_libs\parsers.c:4209)
File "pandas\_libs\parsers.pyx", line 712, in pandas._libs.parsers.TextReader._setup_parser_source (pandas\_libs\parsers.c:8895)
OSError: Initializing from file failed
小编参考了csdn一个大神的解决思路是:
在python中使用read_csv的时候,如果传入的参数不是文件名称而是文件的路径,就会报这个错误(本人的python是3.6),在网上搜索原因就是这个库的问题,解决方法是:先切换到这个目录,然后传文件名作为参数。
import pandas as pda import os hexunfile = pda.read_csv("D:/爬虫/file.csv") #os.getcwd()用于返回当前工作目录 pwd = os.getcwd() #os.chdir表示切换到某某目录 os.chdir(os.path.dirname(hexunfile)) hexunData = pda.read_csv(os.path.basename(hexunfile)) os.chdir(pwd)
但是这样的,在python3.6依然出错,所以小编又继续查找,又有大神说是文件没有读取到,路径原因,所以小编把文件名修改为英文
import pandas as pda datafile = pda.read_csv(d:/py/file.csv)
这样就解决了这个问题。
安装html5lib和beautifulsoup4模块
使用pandas,可以直接从html网页中加载对应的table表格中的数据,但是在使用read_html()之前,需要 安装html5lib和beautifulsoup4模块,安装这两个模块,同样可以采取网络安装,如下:
pip install html5lib
pip install beautifulsoup4
安装sklearn模块
sklearn 是一个包含主成分分析(PCA)的一个模块
pip install sklearn
安装jieba模块
jieba模块主要对中文做分词,分析句子和文章都是以词语为文章,所以我们对此处理的时候需要进行分词,与英文不一样的,英文分词靠空格就可以解决。
pip install jieba
安装skimage
easy_install scikit-image pip install scikit-image
于2018.9月补充:
其实安装sklearn和scipy等等这些库,如果有pycharm编译器则很简单,直接去settings中,查找相关库安装即可。


浙公网安备 33010602011771号