摘要: 解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的。常用的解析库有re模块的正则、beautifulsoup、pyquery等等。正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻烦,所以这里我们会用beautifulsoup。 beautifulsoup Beautiful S 阅读全文
posted @ 2018-01-19 19:17 ''竹先森゜ 阅读(3023) 评论(0) 推荐(3)
摘要: selenium模块 selenium 最初是一个自动化测试工具,而爬虫中使用它主要是为了解决 requests 无法直接执行 JavaScript 代码的问题。selenium 的缺点是效率会变得很慢。 selenium 本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来 阅读全文
posted @ 2018-01-19 17:37 ''竹先森゜ 阅读(3104) 评论(0) 推荐(3)
摘要: 请求库,即可以模仿浏览器对网站发起请求的模块(库)。 requests模块 使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urllib,requests模块的api更加便捷 requests库发送请求将网页内容下载下来以后,并不会 阅读全文
posted @ 2018-01-19 17:34 ''竹先森゜ 阅读(5090) 评论(0) 推荐(3)
摘要: what's the 爬虫? 了解爬虫之前,我们首先要知道什么是互联网 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,总体上像一张网一样。 2、互联网建立的目的? 互联网的核心价值在于数据的共享和传递:数据是存放于一台台计算机上的,而将计算机互联到 阅读全文
posted @ 2018-01-19 17:32 ''竹先森゜ 阅读(2799) 评论(0) 推荐(2)