摘要:
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块 阅读全文
posted @ 2017-08-22 22:13
AlamZ
阅读(12412)
评论(0)
推荐(0)
摘要:
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。 阅读全文
posted @ 2017-08-22 22:06
AlamZ
阅读(392)
评论(0)
推荐(0)
摘要:
案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 阅读全文
posted @ 2017-08-22 08:42
AlamZ
阅读(245)
评论(0)
推荐(0)
摘要:
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 阅读全文
posted @ 2017-08-22 08:41
AlamZ
阅读(598)
评论(0)
推荐(0)
摘要:
下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行翻页的时候,注意url地址的变化: 第一页url: http: //www.neihan8.com/article 阅读全文
posted @ 2017-08-22 08:40
AlamZ
阅读(336)
评论(0)
推荐(0)

浙公网安备 33010602011771号