cody-meng - 博客园

2019年11月23日

摘要： 1 常用的页面内容解析的库页面解析是我们写爬虫获取数据的最终目的。在python中常用的爬虫解析的库包括： lxml bs4 re pyquery 在使用这些包对html页面进行解析的时候，应该先了解一下基本的概念：元素：通常直接用标签名表示该元素元素间的关系：根元素、父元素、子元素、孙子元素阅读全文

posted @ 2019-11-23 14:08 cody-meng 阅读(424) 评论(0) 推荐(0)

2019年11月19日

nlp--分词

摘要：在自然语言处理中，对语料进行分词是其中最基础和关键的一步。在python中常用的分词包有jieba，snownlp，thulac，pkuseg等。具体的使用可以参考官方文档。 jieba:https://github.com/fxsjy/jieba pkuseg:https://github.com 阅读全文

posted @ 2019-11-19 20:02 cody-meng 阅读(74) 评论(0) 推荐(0)

公告