摘要: from qiubaiPro.items import QiubaiproItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_urls = ['https://www.qiushibaike.com/te... 阅读全文
posted @ 2019-03-05 19:48 一把西瓜刀 阅读(154) 评论(0) 推荐(0)
摘要: 问题:处理页面动态加载数据的爬取 selenium: 三方库,可以实现让浏览器完成自动化操作 - 环境搭建 1 安装: pip install selenium 2 获取浏览器的驱动程序 下载地址:http://chromedriver.storage.googleapis.com/index.ht 阅读全文
posted @ 2019-03-05 17:59 一把西瓜刀 阅读(262) 评论(0) 推荐(0)
摘要: 数据解析: xpath在爬虫中的使用流程 常用的xpath表达式: tip : //双斜杠是相对路径,指的是当前页面的所有,比如//a 获取所有的a标签 ,/单斜杠是绝对路径,指的是直系子标签 属性定位: #找到class属性值为song的div标签 //div[@class="song"] 层级& 阅读全文
posted @ 2019-03-05 17:56 一把西瓜刀 阅读(439) 评论(0) 推荐(0)
摘要: requests模块 基于requests模块发起get请求 requests模块如何处理带参数的get请求(两种方式) 需求:指定一个词条,获取搜狗搜索结果对应的页面数据 #方式1 import requests url = 'http://www.sogou.com/web?query=金角大王 阅读全文
posted @ 2019-03-05 16:42 一把西瓜刀 阅读(437) 评论(0) 推荐(0)
摘要: urllib 反爬机制:网站检查请求的UA,如果发现UA是爬虫程序,则拒绝提供网站数据 User-Agent(UA):请求载体的身份标识。 反反爬机制:伪装爬虫程序的请求UA import urllib.request url = 'http://www.baidu.com/' #UA伪装 #1 自 阅读全文
posted @ 2019-03-05 16:31 一把西瓜刀 阅读(1435) 评论(0) 推荐(0)