随笔分类 -  NLP

摘要:原文链接:http://www.one2know.cn/nlp4/ + \ \+ ? \ :0个或多个 \+ :1个或多个 ? :0个或1个 re.search()函数,将str和re匹配,匹配正确返回True 输出: + $ ^ . $ :结尾 ^ :开头 . :除换行符以外的任何字符 \w :字 阅读全文
posted @ 2019-07-02 11:05 鹏懿如斯 阅读(525) 评论(0) 推荐(0)
摘要:原文链接:http://www.one2know.cn/nlp3/ + 分词 from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer from nltk import word_tokenize 根据行分词,将每行作 阅读全文
posted @ 2019-07-01 20:22 鹏懿如斯 阅读(281) 评论(0) 推荐(0)
摘要:原文链接:http://www.one2know.cn/nlp2/ + Why we do this 将获取的数据统一格式,得到规范化和结构化得数据 + 字符串操作 输出: + 字符串操作深入 输出: + Pyhton读取PDF 输出: + Python读取Word 每个文档有多个paragraph 阅读全文
posted @ 2019-07-01 16:41 鹏懿如斯 阅读(366) 评论(0) 推荐(0)
摘要:原文链接:http://www.one2know.cn/nlp1/ + 访问语料库 NLTK数据库的安装:http://www.nltk.org/data.html NLTK语料库列表:http://www.nltk.org/nltk_data/ 内部访问(以Reuters corpus为例): + 阅读全文
posted @ 2019-07-01 09:08 鹏懿如斯 阅读(950) 评论(0) 推荐(1)