2019 年 3月 5 日随笔档案 - 一把西瓜刀

2019年3月5日

摘要： from qiubaiPro.items import QiubaiproItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_urls = ['https://www.qiushibaike.com/te... 阅读全文

posted @ 2019-03-05 19:48 一把西瓜刀阅读(154) 评论(0) 推荐(0)

selenium&phantomJs相关

摘要：问题：处理页面动态加载数据的爬取 selenium: 三方库，可以实现让浏览器完成自动化操作 - 环境搭建 1 安装： pip install selenium 2 获取浏览器的驱动程序下载地址：http://chromedriver.storage.googleapis.com/index.ht 阅读全文

posted @ 2019-03-05 17:59 一把西瓜刀阅读(265) 评论(0) 推荐(0)

三种数据解析方式

摘要：数据解析： xpath在爬虫中的使用流程常用的xpath表达式： tip ： //双斜杠是相对路径，指的是当前页面的所有，比如//a 获取所有的a标签，/单斜杠是绝对路径，指的是直系子标签属性定位： #找到class属性值为song的div标签 //div[@class="song"] 层级& 阅读全文

posted @ 2019-03-05 17:56 一把西瓜刀阅读(440) 评论(0) 推荐(0)

requests模块相关用法

摘要： requests模块基于requests模块发起get请求 requests模块如何处理带参数的get请求（两种方式）需求：指定一个词条，获取搜狗搜索结果对应的页面数据 #方式1 import requests url = 'http://www.sogou.com/web?query=金角大王阅读全文

posted @ 2019-03-05 16:42 一把西瓜刀阅读(441) 评论(0) 推荐(0)

urllib模块基本用法

摘要： urllib 反爬机制：网站检查请求的UA，如果发现UA是爬虫程序，则拒绝提供网站数据 User-Agent(UA):请求载体的身份标识。反反爬机制：伪装爬虫程序的请求UA import urllib.request url = 'http://www.baidu.com/' #UA伪装 #1 自阅读全文

posted @ 2019-03-05 16:31 一把西瓜刀阅读(1438) 评论(0) 推荐(0)

一把西瓜刀

公告