摘要: 如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 Soup 阅读全文
posted @ 2017-10-24 22:34 逆风飞行 阅读(1839) 评论(0) 推荐(1) 编辑
摘要: 今天早上,写的东西掉了。这个烂知乎,有bug,说了自动保存草稿,其实并没有保存。无语 今晚,我们将继续讨论如何分析html文档。 1.字符串 #直接找元素soup.find_all('b') 2.正则表达式 #通过正则找import refor tag in soup.find_all(re.com 阅读全文
posted @ 2017-10-24 22:24 逆风飞行 阅读(1069) 评论(0) 推荐(0) 编辑
摘要: 今晚,被烦死了。9点多才下班,就想回来看书学习,结果被唠叨唠叨个小时,我不断喊不要和我聊天了,还反复说。我只想安安静静看看书,学习学习,全世界都不要打扰我 接着上一个讨论,我们今晚要分析HTML结构了 1.获取元素 html_doc = """<html><head><title>The Dormo 阅读全文
posted @ 2017-10-23 23:05 逆风飞行 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页。今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析。 (牛小妹在学校折腾了好几天,也没把html文档给分析出来。接下来的几篇文章,你可就要好好看了) Beautiful Soup将复杂HTM 阅读全文
posted @ 2017-10-20 08:32 逆风飞行 阅读(9882) 评论(0) 推荐(0) 编辑
摘要: 昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知。学会上一课程,我们已经能写点基本的爬虫了。但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的,有的站点还需要证书验证,等等这一系列的问题,我们将在今天这一环节,加以讨论。 1.会话对象 会话: 阅读全文
posted @ 2017-10-19 21:22 逆风飞行 阅读(939) 评论(0) 推荐(1) 编辑
摘要: 1.发送请求: import requests# 获取数据#r是一个 response 对象。包含请求返回的内容r = requests.get('https://github.com/timeline.json')print(r.content) 打印结果: b'{"message":"Hello 阅读全文
posted @ 2017-10-18 22:27 逆风飞行 阅读(693) 评论(0) 推荐(0) 编辑
摘要: 在上一个系列,我们学会使用rabbitmq。本来接着是把公司的celery分享出来,但是定睛一看,celery4.0已经不再支持Windows。公司也逐步放弃了服役多年的celery项目。恰好,公司找人进来新人也要给他们培训爬虫。接下来,我们就从零开始,学习爬虫,目标是能掌握到执行js,反爬虫这个水 阅读全文
posted @ 2017-10-18 22:26 逆风飞行 阅读(794) 评论(0) 推荐(0) 编辑
摘要: 此刻,我们已经进入第6章,是官方的最后一个环节,但是,并非本系列的最后一个环节。因为在实战中还有一些经验教训,并没体现出来。由于马上要给同事没培训celery了。我也来不及写太多。等后面,我们再慢慢补充。 RPC:是远程过程调用。百度写了一大堆。此刻,我们简单点说:比如,我们在本地的代码中调用一个函 阅读全文
posted @ 2017-10-13 22:43 逆风飞行 阅读(1830) 评论(0) 推荐(1) 编辑
摘要: 接着上一章,使用exchange_type='direct'进行消息传递。这样消息会完全匹配后发送到对应的接收端。现在我们想干这样一件事: C1获取消息中包含:orange内容的消息,并且消息是由3个单词组成的。 C2获取消息中包含:rabbit内容的消息,并且也是3个单词组成,同时,包含lazy开 阅读全文
posted @ 2017-10-13 21:57 逆风飞行 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 在上一章中,所有的接收端获取的所有的消息。这一章,我们将讨论,一些消息,仍然发送给所有接收端。其中,某个接收端,只对其中某些消息感兴趣,它只想接收这一部分消息。如下图:C1,只对error感兴趣,C2对其他三种甚至对所有都感兴趣,我们该怎么搞呢? 发送端: import pikaimport sys 阅读全文
posted @ 2017-10-10 23:14 逆风飞行 阅读(573) 评论(0) 推荐(0) 编辑