随笔分类 -  爬虫

摘要:流程: 打开的web_wechat,就有出现二维码,在network中,name中login?loginicon中,status的状态是pending,pending的意思是前端发送了一个请求,但是还没有被返回。 阅读全文
posted @ 2017-08-29 17:05 王先生是胖子 阅读(189) 评论(0) 推荐(0)
摘要:对HTML的解析: 在解析复杂的HTML的页面时,需要避免一些问题,好让爬虫工作变得得心应手。 • 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版(把自己 的请求头设置成处于移动设备的状态,然后接收网站移动版)。 • 寻找隐藏在JavaScript文件里的信息。要实现这一点,可 阅读全文
posted @ 2017-08-21 16:50 王先生是胖子 阅读(424) 评论(0) 推荐(0)
摘要:爬虫所需要的模块: requests: requetes是使用Apache2 licensed的许可证,基于Python开发的http库。 在Python内置模块的基础上进行的高度封装,从而使得Python进行网络请求时,变的好 用,使用requests可以轻易得完成浏览器的任何操作。 1. get 阅读全文
posted @ 2017-08-21 10:10 王先生是胖子 阅读(283) 评论(0) 推荐(0)
摘要:常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting)或其他类似的版本。器人(bots)。 常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网络收割(Web harvesting 阅读全文
posted @ 2017-08-15 10:28 王先生是胖子 阅读(4340) 评论(0) 推荐(0)
摘要:爬虫的异常处理: • 网页在服务器上不存在(或者获取页面的时候出现错误) • 服务器不存在 第一种异常发生时,程序会返回 HTTP 错误。HTTP 错误可能是“404 Page Not Found”“500 Internal Server Error”等。所有类似情形,urlopen函数都会抛出“H 阅读全文
posted @ 2017-08-14 09:53 王先生是胖子 阅读(280) 评论(0) 推荐(0)
摘要:基本操作: url指定内容获取到: -发送http请求, -基于正则表达式获取内容 import requests from bs4 import BeautifulSoup response = requests.get("url") response.text obj = beautifulso 阅读全文
posted @ 2017-08-14 09:50 王先生是胖子 阅读(383) 评论(0) 推荐(0)
摘要:异步IO: 阅读全文
posted @ 2017-08-12 15:57 王先生是胖子 阅读(102) 评论(0) 推荐(0)