摘要: 1 常用的页面内容解析的库 页面解析是我们写爬虫获取数据的最终目的。在python中常用的爬虫解析的库包括: lxml bs4 re pyquery 在使用这些包对html页面进行解析的时候,应该先了解一下基本的概念: 元素:通常直接用标签名表示该元素 元素间的关系:根元素、父元素、子元素、孙子元素 阅读全文
posted @ 2019-11-23 14:08 cody-meng 阅读(385) 评论(0) 推荐(0)
摘要: 在自然语言处理中,对语料进行分词是其中最基础和关键的一步。在python中常用的分词包有jieba,snownlp,thulac,pkuseg等。具体的使用可以参考官方文档。 jieba:https://github.com/fxsjy/jieba pkuseg:https://github.com 阅读全文
posted @ 2019-11-19 20:02 cody-meng 阅读(64) 评论(0) 推荐(0)