摘要: 1.搭建虚拟python3环境(Virtualenvwrapper) 参考http://www.cnblogs.com/it-tsz/p/pyhton.html 2.安装scrapy 前提先安装好pip,setuptools,然后安装以下模块 pip install lxml pip instal 阅读全文
posted @ 2018-04-21 18:37 中国人醒来了 阅读(225) 评论(0) 推荐(0)
摘要: 1.搭建虚拟python3环境(Virtualenvwrapper) 2.安装scrapy 前提先安装好pip,setuptools,然后安装以下模块 pip install lxml pip install twisted pip install pyopenssl windows下需要安装py 阅读全文
posted @ 2018-04-21 18:37 中国人醒来了 阅读(249) 评论(0) 推荐(0)
摘要: #coding=utf-8from lxml import etreeimport requestsimport urllibimport os# 获取url的html等内容def getHtml(url): try: kv = { 'User-Agent': 'Mozilla/5.0 (Macin 阅读全文
posted @ 2018-04-21 15:03 中国人醒来了 阅读(2370) 评论(0) 推荐(0)
摘要: XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线。 XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不 阅读全文
posted @ 2018-04-21 10:31 中国人醒来了 阅读(8137) 评论(0) 推荐(0)