爬虫（蜘蛛机器人） - 随笔分类 - ''竹先森゜

终极大招——Scrapy框架

摘要：Scrapy框架 Scrapy 是一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Ama 阅读全文

posted @ 2018-01-23 17:17 ''竹先森゜阅读(3111) 评论(0) 推荐(2)

如何提升爬虫性能相关的知识点

摘要：如何提升爬虫性能相关的知识点爬虫的本质是伪造socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个url结束后才能继续下一个，这样我们就会发现效率非常低。原因：爬虫是一项IO密集型任务，遇到IO问题就会阻塞，CPU运行就会停滞，直到阅读全文

posted @ 2018-01-23 17:05 ''竹先森゜阅读(2697) 评论(0) 推荐(1)

数据库——MongoDB

摘要：what's the MongoDB MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似 JSON 的 BSON 格式，因此可以存储比较复杂的数据类型。Mongo 最大的特点是他支持的查询语言非常强大，其语法阅读全文

posted @ 2018-01-21 19:02 ''竹先森゜阅读(2751) 评论(0) 推荐(3)

爬虫解析库——BeautifulSoup

摘要：解析库就是在爬虫时自己制定一个规则，帮助我们抓取想要的内容时用的。常用的解析库有re模块的正则、beautifulsoup、pyquery等等。正则完全可以帮我们匹配到我们想要住区的内容，但正则比较麻烦，所以这里我们会用beautifulsoup。 beautifulsoup Beautiful S 阅读全文

posted @ 2018-01-19 19:17 ''竹先森゜阅读(3026) 评论(0) 推荐(3)

爬虫请求库——selenium

摘要：selenium模块 selenium 最初是一个自动化测试工具,而爬虫中使用它主要是为了解决 requests 无法直接执行 JavaScript 代码的问题。selenium 的缺点是效率会变得很慢。 selenium 本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来阅读全文

posted @ 2018-01-19 17:37 ''竹先森゜阅读(3105) 评论(0) 推荐(3)

爬虫请求库——requests

摘要：请求库，即可以模仿浏览器对网站发起请求的模块（库）。 requests模块使用requests可以模拟浏览器的请求，requests模块的本质是封装了urllib3模块的功能，比起之前用到的urllib，requests模块的api更加便捷 requests库发送请求将网页内容下载下来以后，并不会阅读全文

posted @ 2018-01-19 17:34 ''竹先森゜阅读(5092) 评论(0) 推荐(3)

what's the 爬虫之基本原理

摘要：what's the 爬虫？了解爬虫之前，我们首先要知道什么是互联网 1、什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，总体上像一张网一样。 2、互联网建立的目的？互联网的核心价值在于数据的共享和传递：数据是存放于一台台计算机上的，而将计算机互联到阅读全文

posted @ 2018-01-19 17:32 ''竹先森゜阅读(2799) 评论(0) 推荐(2)

谁见幽人独往来，缥缈孤鸿影。

随笔分类 - 爬虫（蜘蛛机器人）

公告