摘要:
这几年学习爬虫,常常遇到一个棘手的问题是对数据的存储上,爬下的数据往往花很大时间在不同的库表之间搬移,总结下来遇到的麻烦无外乎几点: 表字段的设计改动频繁 爬取数据的规模过大影响易操作性 爬虫抓取数据后的存储参见【存储爬虫抓取数据的5种方式比较】,一般分如下几种方式: 以json格式存储到文本文件 阅读全文
posted @ 2021-03-08 02:07
蔚尺丈八声
阅读(4)
评论(0)
推荐(0)
摘要:
cn_sort库项目链接:cn_sort 前两年写了一个按拼音和笔顺排序简体中文词组(简体中文与非中文混用的词组也可)的cn_sort库,也能解决多音字混排的问题,同时为了更具通用性也拓展收入了对英文单词、常用标点符号、数字的排序。 该项目可pip安装,如果您觉得它有所帮助,可点个star作为小小 阅读全文
posted @ 2021-03-08 00:31
蔚尺丈八声
阅读(12)
评论(0)
推荐(0)

浙公网安备 33010602011771号