摘要: 笔记-python-standard library-19.2 json 1. JSON简介 JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语 阅读全文
posted @ 2018-05-25 22:59 木林森__𣛧 阅读(144) 评论(0) 推荐(0)
摘要: 笔记-爬虫算法 1.网站结构 网站结构一般情况下可以简化为一个树状 2.爬虫算法 在大规模爬虫系统中,待抓取url队列是很重要的一部分,队列顺序也是很重要的内容;爬虫算法就是用于决定抓取先后顺序的。 下文将介绍目前常用的算法: 1.深度优先: 深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪 阅读全文
posted @ 2018-05-25 16:05 木林森__𣛧 阅读(384) 评论(0) 推荐(0)