2020 年 3月随笔档案 - 大明王

中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）

摘要：2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴，jieba库是目前做的最好的python分词组件。首先它的安装十分便捷，只需要使用pip安装；其次，它不需要另外下载其它的数据包，在这一点上它比其余五款分词工具都要便捷。另外，jieba库支持的文本编码方式为utf-8。 Jie 阅读全文

posted @ 2020-03-31 13:23 大明王阅读(5852) 评论(0) 推荐(1)

pyhanlp安装教程

摘要：1、hanlp简介 HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 Hanlp具有以下功能：中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要阅读全文

posted @ 2020-03-29 19:59 大明王阅读(6392) 评论(0) 推荐(0)

解决使用nlpir分词，遇到License过期问题

摘要：问题：使用pynlpir分词，遇到License过期问题抛出异常：pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update". 解决方法：下载下面链接文件，替换原有的NLPIR.u 阅读全文

posted @ 2020-03-22 15:08 大明王阅读(1872) 评论(0) 推荐(0)

自然语言处理-中文语料预处理

摘要：自然语言处理——中文文本预处理近期，在自学自然语言处理，初次接触NLP觉得十分的难，各种概念和算法，而且也没有很强的编程基础，学着稍微有点吃力。不过经过两个星期的学习，已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记，记录一下学习的过程。 1、中文语料的特点第一点：中文语料中词与词之间是阅读全文

posted @ 2020-03-16 21:06 大明王阅读(5877) 评论(2) 推荐(1)

NLTK数据包下载频繁报错——解决方法

摘要：问题描述：Nltk下载数据包，安装频繁报错。 import nltk nltk.download() 运行上面的代码，下载nltk的数据包。但是在下载过程中因为各种问题导致网络传输失败，下载不成功。解决方法：先下载nltk的数据包，安装到上面的目录，点击refresh，即可。数据包下载地址：链阅读全文

posted @ 2020-03-16 18:49 大明王阅读(1130) 评论(1) 推荐(0)

常用正则表达式匹配

摘要：转：https://looaon.com/index.php/%E6%AD%A3%E5%88%99%E5%AD%A6%E4%B9%A0/921.html在做项目的过程中，使用正则表达式来匹配一段文本中的特定种类字符，是比较常用的一种方式，下面是对常用的正则匹配做了一个归纳整理。 1、匹配中文:[\u 阅读全文

posted @ 2020-03-13 20:43 大明王阅读(464) 评论(0) 推荐(0)

NLTK的安装与简单测试

摘要：1.NLTK简介 Natural Language Toolkit，自然语言处理工具包，在NLP领域中，最常使用的一个Python库。NLTK是一个开源的项目，包含：Python模块，数据集和教程，用于NLP的研究和开发。NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算阅读全文

posted @ 2020-03-05 20:05 大明王阅读(2408) 评论(0) 推荐(0)

Scrapy模块使用出错，出现builtins.ImportError: DLL load failed: 找不到指定的程序

摘要：问题描述：初次学习scrapy，使用scrapy官方文档创建爬虫项目出错，出现builtins.ImportError: DLL load failed: 找不到指定的程序， ImportError: DLL load failed: 找不到指定模块。原因：scrapy模块安装冲突，我的pyth 阅读全文

posted @ 2020-03-05 08:40 大明王阅读(1966) 评论(0) 推荐(0)

正则表达式手册

摘要：表达式全集字符描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配阅读全文

posted @ 2020-03-04 11:05 大明王阅读(110) 评论(0) 推荐(0)

明天的代码世界

03 2020 档案

公告