2.1 Python3.5安装以及爬虫需要的环境配置

之所以选用Python，是因为对于网络爬虫来说，Python是最好上手的一种语言。本文讲述的安装配置都是基于Windows的环境。

另外我想说的是，文中用到的下载链接尽量官方网站上的下载链接，这是我比较喜欢的下载方式，一方面下载可靠，一方面链接稳定。如果官网要FQ才能进去的话，为了方便读者操作，就使用百度的下载链接了。

一、Python3安装

首先，下载Python3，这里使用Python3.5.1版本，点击下载：64位版本，32位版本。

双击打开，进行安装。特别注意：要勾选上"Add to Path"选项，否则后面会很麻烦。

打开cmd窗口，测试一下是否真的装好了。

如果刚才安装的时候没有勾选"Add to Path"，这个时候可能会报错，这里就不讲解添加环境变量的方法了，建议直接卸载重装。

二、Python3的IDE

现在，Python3的运行环境已经装好了，我们还需要一个IDE。这里建议有两种选择，第一种是Notepad++，第二种是PyCharm。

1. Notepad++

　　Notepad++下载地址

　　安装完成后，下面说明怎么在Notepad++中安装运行python的插件。

　　点击"Show Plugin Manager"。

　　找到PyNPP，点击Install。

　　安装成功以后，就可以运行Python代码了。

2. PyCharm

　　PyCharm下载地址

　　这是一个专门给Python编程用的IDE，用起来比Notepad++多的功能基本上就是工程管理和自动补全。一般来说下载Community版本就够用了。安装完成以后就可以使用了。

三、Python3爬虫包安装

这里使用requests和beautifulsoup作为主要的爬虫工具。安装方式很简单。打开cmd，输入这两行代码：

pip install beautifulsoup4
pip install requests

Python3默认会自动安装pip，直接使用即可。

可以用下面一段简单的代码来测试一下这两个包：

# coding : utf-8
import requests
from bs4 import BeautifulSoup

r = requests.get("http://news.163.com/")
soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030")
for i in soup.find_all('a'):
    try:
        print(i["href"])
    except Exception as e:
        pass

几行代码就实现了把网易新闻首页的所有链接都提取出来了。是不是很方便？

要了解更多关于这两个包的知识可以去看官方文档，写的非常清楚。

requests文档

beautifulsoup文档

　　至此，我们已经配置好了需要的所有爬虫工具，后面会详细介绍怎么在项目中使用。

　　拓展阅读：其实Python可以使用的爬虫包还有很多，这里使用的是requests，其实对于一些有网页动态代码抓取需求的还可以使用selenium。可以参考我的另一篇博客python3初识selenium。

posted @ 2017-05-03 09:47 lvmememe 阅读(5328) 评论(0) 收藏举报

刷新页面返回顶部

lvmememe

此博客不再更新。ACM相关文章已迁移至http://www.cnblogs.com/acmsong/

2.1 Python3.5安装以及爬虫需要的环境配置

公告