[爬虫]爬取搜狗的词库
摘要:
同学要做用户搜索词意图分析,要用到分词,让我给写一个爬虫爬取搜狗词库的脚本。以前爬取网页都使用正则匹配,想要用美丽的汤很久了,正好借此机会体验一下它的强大威力。脚本对搜狗词库主页进行一级爬取结果,然后对每一个分类进行二级页面爬取,然后获取该分类下的词库文件,保存到执行脚本同目录的1文件夹下。pyth 阅读全文
posted @ 2017-04-06 21:15 mirancy 阅读(1879) 评论(0) 推荐(0)
posted @ 2017-04-06 21:15 mirancy 阅读(1879) 评论(0) 推荐(0)
posted @ 2017-03-26 18:53 mirancy 阅读(252) 评论(0) 推荐(0)
posted @ 2017-03-20 18:58 mirancy 阅读(267) 评论(0) 推荐(0)
posted @ 2017-03-19 18:47 mirancy 阅读(93) 评论(0) 推荐(0)
posted @ 2017-03-17 15:18 mirancy 阅读(276) 评论(0) 推荐(0)
posted @ 2017-03-16 21:53 mirancy 阅读(121) 评论(0) 推荐(0)
posted @ 2017-03-15 10:29 mirancy 阅读(316) 评论(0) 推荐(0)
posted @ 2017-03-14 20:31 mirancy 阅读(179) 评论(0) 推荐(0)