航海王  

2019年9月17日

摘要: [TOC] 昨日回顾: 增量式: 监测一个网站, 只要网站有更新的数据, 爬取更新的数据去重: 基于url 基于数据指redis数据库: sadd 集合名 值 judge = sadd 集合名 值: 1).如果该值在集合中已经存在, judge为0, 代表该数据已经爬取过了 2).如果该值不在集合中 阅读全文
posted @ 2019-09-17 08:28 航海王 阅读(95) 评论(0) 推荐(0)
 
摘要: [TOC] #### 1.图片下载 ```Python# 百度图片:http://image.baidu.com/# 搜狗图片:https://pic.sogou.com/``` ```Python# 图片爬取:1).寻找图片下载的url: elements与network抓包2).浏览器中访问ur 阅读全文
posted @ 2019-09-17 08:27 航海王 阅读(163) 评论(0) 推荐(0)

2019年5月21日

摘要: 全文检索 全文检索不同于特定字段的模糊查询,使用全文检索的效率更高,并且能够对于中文进行分词处理 haystack:django的一个包,可以方便地对model里面的内容进行索引、搜索,设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端,属于一种全文检索的框 阅读全文
posted @ 2019-05-21 09:48 航海王 阅读(390) 评论(0) 推荐(0)