会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风行天下
天地不仁 以万物为刍狗
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
126
127
128
129
130
131
132
133
134
···
198
下一页
2018年9月28日
python selenium
摘要: 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit
阅读全文
posted @ 2018-09-28 12:19 brady-wang
阅读(430)
评论(0)
推荐(0)
2018年9月27日
requests爬取知乎话题和子话题
摘要: zhihu.py sql
阅读全文
posted @ 2018-09-27 19:00 brady-wang
阅读(625)
评论(0)
推荐(0)
python查询mysql以字典返回
摘要: # *_*coding:utf-8 *_* import pymysql conn = pymysql.connect(host='192.168.33.10', user='root', passwd='root', db='spider', charset='utf8') cur = conn.cursor(cursor=pymysql.cursors.DictCursor) sql =...
阅读全文
posted @ 2018-09-27 14:36 brady-wang
阅读(2102)
评论(0)
推荐(0)
2018年9月26日
request使用代理
摘要: # *_*coding:utf-8 *_* import requests url = 'http://test.yeves.cn/test_header.php' params = {'id':'1','name':'test'} params = {'key1': 'value1', 'key2
阅读全文
posted @ 2018-09-26 21:04 brady-wang
阅读(6539)
评论(0)
推荐(0)
requests爬取豆瓣热门电视剧
摘要: # *_*coding:utf-8 *_* import requests payload = {'key1': 'value1', 'key2': 'value2'} headers = {'user-agent': 'my-app/0.0.1'} page_size = "1000" page = "1" for page in range(1,11): #url = "http...
阅读全文
posted @ 2018-09-26 11:01 brady-wang
阅读(773)
评论(0)
推荐(0)
2018年9月25日
scrapy-继承默认的user-agent 中间件
摘要: 配置
阅读全文
posted @ 2018-09-25 20:05 brady-wang
阅读(552)
评论(0)
推荐(0)
scrapy-下载器中间件 随机切换user_agent
摘要: 第二种方式 写一个自己的randomUseragent中间件 并且在setting里面启用 ,但是要修改顺序靠前,比如100 或者直接把默认启用的user_agent 设置为None 第三种方式 直接继承默认的userAgent中间件,然后改写方法 中间件可以用faker来实现 或者自己招个列表也可
阅读全文
posted @ 2018-09-25 19:38 brady-wang
阅读(355)
评论(0)
推荐(0)
scrapy 直接在编辑器运行
摘要: 新建run.py 添加上面代码
阅读全文
posted @ 2018-09-25 17:49 brady-wang
阅读(407)
评论(0)
推荐(0)
xpath 去除空格
摘要: normalize,字面意思就是正规化 加入space 大概意思就是空格的处理了 官方解释是这样的: 通过去掉前导和尾随空白并使用单个空格替换一系列空白字符,使空白标准化。如果省略了该参数,上下文节点的字符串值将标准化并返回。 刚好在实际项目中碰到了这样的一个问题, 定位一个下来的时候,最开始的时候
阅读全文
posted @ 2018-09-25 17:42 brady-wang
阅读(4139)
评论(0)
推荐(0)
爬虫学习之-requests乱码
摘要: 总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通
阅读全文
posted @ 2018-09-25 15:10 brady-wang
阅读(627)
评论(0)
推荐(0)
上一页
1
···
126
127
128
129
130
131
132
133
134
···
198
下一页
公告