随笔分类 -  爬虫

摘要:今天心血来潮,想看看异步爬虫的效率和普通爬虫的效率相比究竟如何,然后我选取了一个叫做当当网的购物网站,爬取最热门的书籍。1. 使用异步的原因我们都知道异步非堵塞适合高并发的项目... 阅读全文
posted @ 2019-04-06 16:33 ayang818 阅读(620) 评论(0) 推荐(0)
摘要:我们在写爬虫的时候,爬取的信息很多都是每天在变化的,但是要是每天都打开爬虫爬那么一次,就会显得非常不优雅。这个时候我们就可以利用python的email库(书写邮件)或itch... 阅读全文
posted @ 2019-04-05 20:37 ayang818 阅读(807) 评论(0) 推荐(0)
摘要:aiohttp是一个为Python提供异步HTTP 客户端/服务端编程,基于asyncio(Python用于支持异步编程的标准库)的异步库。爬虫方面我们用的主要是客户端来发起请... 阅读全文
posted @ 2019-03-20 19:30 ayang818 阅读(1221) 评论(0) 推荐(0)
摘要:asyncio库参考文章asyncio库是python3.4后引入的标准库,其中直接内置了对异步IO的支持,asyncio的编程模型就是一个消息循环,我们直接从asyncio中... 阅读全文
posted @ 2019-03-20 16:28 ayang818 阅读(732) 评论(0) 推荐(0)
摘要:爬虫比较关键的一步就是解析下载后的网页,我这几天在用的是requests-html库自带的xpath方法,但是我在爬取一个小说页面的时候遇到了困难,这是一个静态页面,我通过右键... 阅读全文
posted @ 2019-01-23 12:22 ayang818 阅读(137) 评论(0) 推荐(0)
摘要:列表解析#形成一个0到99的列表lists=[a for i in range(100)]字典推导式字典的每一个值平方dics1={'a':1,'b':2,'c':3}dics... 阅读全文
posted @ 2019-01-02 22:29 ayang818 阅读(160) 评论(0) 推荐(0)
摘要:Splash文档地址:http://splash.readthedocs.io/en/latest/api.htmlSplash渲染引擎有以下功能1.为用户返回经过渲染的HTM... 阅读全文
posted @ 2018-12-30 23:14 ayang818 阅读(472) 评论(0) 推荐(0)
摘要:1.启动docker,在命令行里输入docker run -p 8050:8050 scrapinghub/splash在docker上运行splash引擎2.接下来就可以来写... 阅读全文
posted @ 2018-12-30 22:16 ayang818 阅读(255) 评论(0) 推荐(0)
摘要:scrapy shell 的科学使用scrapy shell 是在scrapy网络爬虫开发时非常有用的测试工具在命令行里输入>scrapy shell url就可以获得这个网... 阅读全文
posted @ 2018-12-23 19:43 ayang818 阅读(149) 评论(0) 推荐(0)
摘要:我们知道有一些网站是需要验证码才可以登陆的,比如豆瓣网在错误输入几次账号密码后,都会需要提交包含验证码的表单才可以登陆,便需要处理验证码型登陆技术路径:scrapy爬虫框架。技... 阅读全文
posted @ 2018-12-20 19:50 ayang818 阅读(404) 评论(0) 推荐(0)
摘要:目的:模拟登陆github工具:scrapy shell ,from scrapy.http import FormRequest流程:通过解析github登陆页面http... 阅读全文
posted @ 2018-12-18 20:35 ayang818 阅读(164) 评论(0) 推荐(0)
摘要:我们知道一些网站是需要账号密码才可以登陆的,例如知乎。而利用requests库里的get方法的headers参数可以达到这个目的首先在知乎的网页上登陆自己的知乎账号,利用chr... 阅读全文
posted @ 2018-12-10 19:31 ayang818 阅读(455) 评论(0) 推荐(0)
摘要:目的:爬取一个网站的所有图片调用库:requests库,BeautifulSoup库程序设计:1.函数getHTML():用于获取url的html文本代码如下def getHT... 阅读全文
posted @ 2018-12-04 21:25 ayang818 阅读(187) 评论(0) 推荐(0)