遇一山,过一山,处处有风景;只要勇敢向前,一路尽是繁花盛开。 | (点击查看→)【测试干货】python/java自动化、持续集成、性能、测开、简历、笔试面试等

随笔分类 -  e2-3-2 - 爬虫

摘要:获取链接并写入excel 除了首页(首页有置顶博客),其余页每页10篇博客 所以,先从非首页入手。 爬取思路还是和之前的一遍博客写的一样,http://www.cnblogs.com/uncleyong/p/6892688.html python3 -m pip install beautifuls 阅读全文
posted @ 2017-06-25 22:50 全栈测试笔记 阅读(853) 评论(0) 推荐(0)
摘要:实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/uncleyong/p/6892688.htmlpy3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnb 阅读全文
posted @ 2017-06-09 21:43 全栈测试笔记 阅读(698) 评论(0) 推荐(0)
摘要:实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/uncleyong/p/6892688.htmlpy3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnb 阅读全文
posted @ 2017-06-09 21:36 全栈测试笔记 阅读(1757) 评论(0) 推荐(0)
摘要:实现原理及思路请参考我的另外几篇爬虫实践博客 py3+urllib+bs4+反爬,20+行代码教你爬取豆瓣妹子图:http://www.cnblogs.com/uncleyong/p/6892688.htmlpy3+requests+json+xlwt,爬取拉勾招聘信息:http://www.cnb 阅读全文
posted @ 2017-06-09 17:53 全栈测试笔记 阅读(495) 评论(0) 推荐(0)
摘要:在拉勾搜索职位时,通过谷歌F12抓取请求信息 发现请求是一个post请求,参数为: 返回的是json数据 有了上面的基础,我们就可以构造请求了 然后对获取到的响应反序列化,这样就获取到了json格式的招聘信息,就可以进行各种操作了,比如取其中的某个信息 最后循环写入excle 具体实现如下: 阅读全文
posted @ 2017-06-08 01:18 全栈测试笔记 阅读(876) 评论(0) 推荐(0)
摘要:通过页面源码,发现使用正则表达式可以很方便的获取到我们需要的数据,最后循环写入txt文件。 阅读全文
posted @ 2017-06-07 17:40 全栈测试笔记 阅读(809) 评论(0) 推荐(0)
摘要:最近对爬虫有点着迷, 在用bs4模块时,遇到报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence bs4获取本地文件内容 from bs4 import 阅读全文
posted @ 2017-06-03 00:08 全栈测试笔记 阅读(7625) 评论(0) 推荐(0)
摘要:0.准备 所用到的模块: urllib.request,获取源码 beautifulsoup4(bs4),网页抓取数据 安装bs4,python3 -m pip install beautifulsoup4 查看,python3 -m pip show beautifulsoup4 安装bs4,py 阅读全文
posted @ 2017-05-23 09:53 全栈测试笔记 阅读(1740) 评论(0) 推荐(0)

浏览器标题切换
浏览器标题切换end