2.1 Python3.5安装以及爬虫需要的环境配置

  之所以选用Python,是因为对于网络爬虫来说,Python是最好上手的一种语言。本文讲述的安装配置都是基于Windows的环境。

  另外我想说的是,文中用到的下载链接尽量官方网站上的下载链接,这是我比较喜欢的下载方式,一方面下载可靠,一方面链接稳定。如果官网要FQ才能进去的话,为了方便读者操作,就使用百度的下载链接了。

一、Python3安装

  首先,下载Python3,这里使用Python3.5.1版本,点击下载:64位版本32位版本

  

  双击打开,进行安装。特别注意:要勾选上"Add to Path"选项,否则后面会很麻烦。

  打开cmd窗口,测试一下是否真的装好了。

  

  如果刚才安装的时候没有勾选"Add to Path",这个时候可能会报错,这里就不讲解添加环境变量的方法了,建议直接卸载重装。

 

二、Python3的IDE

  现在,Python3的运行环境已经装好了,我们还需要一个IDE。这里建议有两种选择,第一种是Notepad++,第二种是PyCharm。

  1. Notepad++

  Notepad++下载地址

  安装完成后,下面说明怎么在Notepad++中安装运行python的插件。

  

  点击"Show Plugin Manager"。

  

  找到PyNPP,点击Install。

  

  安装成功以后,就可以运行Python代码了。

  2. PyCharm

  PyCharm下载地址

  这是一个专门给Python编程用的IDE,用起来比Notepad++多的功能基本上就是工程管理和自动补全。一般来说下载Community版本就够用了。安装完成以后就可以使用了。

 

三、Python3爬虫包安装

  这里使用requests和beautifulsoup作为主要的爬虫工具。安装方式很简单。打开cmd,输入这两行代码:

pip install beautifulsoup4
pip install requests

  Python3默认会自动安装pip,直接使用即可。

  可以用下面一段简单的代码来测试一下这两个包:

# coding : utf-8
import requests
from bs4 import BeautifulSoup

r = requests.get("http://news.163.com/")
soup = BeautifulSoup(r.content,'html.parser',from_encoding="gb18030")
for i in soup.find_all('a'):
    try:
        print(i["href"])
    except Exception as e:
        pass

  几行代码就实现了把网易新闻首页的所有链接都提取出来了。是不是很方便?

  要了解更多关于这两个包的知识可以去看官方文档,写的非常清楚。

  requests文档

  beautifulsoup文档

 

  至此,我们已经配置好了需要的所有爬虫工具,后面会详细介绍怎么在项目中使用。

  拓展阅读:其实Python可以使用的爬虫包还有很多,这里使用的是requests,其实对于一些有网页动态代码抓取需求的还可以使用selenium。可以参考我的另一篇博客python3初识selenium

 

posted @ 2017-05-03 09:47  lvmememe  阅读(5274)  评论(0编辑  收藏  举报