随笔分类 -  爬虫(蜘蛛机器人)

摘要:Scrapy框架 Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Ama 阅读全文
posted @ 2018-01-23 17:17 ''竹先森゜ 阅读(3111) 评论(0) 推荐(2)
摘要:如何提升爬虫性能相关的知识点 爬虫的本质是伪造socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个url结束后才能继续下一个,这样我们就会发现效率非常低。 原因:爬虫是一项IO密集型任务,遇到IO问题就会阻塞,CPU运行就会停滞,直到 阅读全文
posted @ 2018-01-23 17:05 ''竹先森゜ 阅读(2697) 评论(0) 推荐(1)
摘要:what's the MongoDB MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。Mongo 最大的特点是他支持的查询语言非常强大,其语法 阅读全文
posted @ 2018-01-21 19:02 ''竹先森゜ 阅读(2751) 评论(0) 推荐(3)
摘要:解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的。常用的解析库有re模块的正则、beautifulsoup、pyquery等等。正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻烦,所以这里我们会用beautifulsoup。 beautifulsoup Beautiful S 阅读全文
posted @ 2018-01-19 19:17 ''竹先森゜ 阅读(3026) 评论(0) 推荐(3)
摘要:selenium模块 selenium 最初是一个自动化测试工具,而爬虫中使用它主要是为了解决 requests 无法直接执行 JavaScript 代码的问题。selenium 的缺点是效率会变得很慢。 selenium 本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来 阅读全文
posted @ 2018-01-19 17:37 ''竹先森゜ 阅读(3105) 评论(0) 推荐(3)
摘要:请求库,即可以模仿浏览器对网站发起请求的模块(库)。 requests模块 使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urllib,requests模块的api更加便捷 requests库发送请求将网页内容下载下来以后,并不会 阅读全文
posted @ 2018-01-19 17:34 ''竹先森゜ 阅读(5092) 评论(0) 推荐(3)
摘要:what's the 爬虫? 了解爬虫之前,我们首先要知道什么是互联网 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,总体上像一张网一样。 2、互联网建立的目的? 互联网的核心价值在于数据的共享和传递:数据是存放于一台台计算机上的,而将计算机互联到 阅读全文
posted @ 2018-01-19 17:32 ''竹先森゜ 阅读(2799) 评论(0) 推荐(2)