摘要:
多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是n 阅读全文
posted @ 2018-10-15 14:34
joshua&&chen
阅读(516)
评论(0)
推荐(0)
摘要:
糗事百科实例: 爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件 阅读全文
posted @ 2018-10-15 14:31
joshua&&chen
阅读(350)
评论(0)
推荐(0)
摘要:
数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文
posted @ 2018-10-15 14:29
joshua&&chen
阅读(1985)
评论(0)
推荐(0)
摘要:
案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出 阅读全文
posted @ 2018-10-15 14:27
joshua&&chen
阅读(585)
评论(0)
推荐(0)
摘要:
CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树 阅读全文
posted @ 2018-10-15 14:24
joshua&&chen
阅读(1042)
评论(0)
推荐(0)
摘要:
案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 阅读全文
posted @ 2018-10-15 14:21
joshua&&chen
阅读(333)
评论(0)
推荐(0)

浙公网安备 33010602011771号