随笔分类 - NLP
摘要:原文链接:http://www.one2know.cn/nlp4/ + \ \+ ? \ :0个或多个 \+ :1个或多个 ? :0个或1个 re.search()函数,将str和re匹配,匹配正确返回True 输出: + $ ^ . $ :结尾 ^ :开头 . :除换行符以外的任何字符 \w :字
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp3/ + 分词 from nltk.tokenize import LineTokenizer,SpaceTokenizer,TweetTokenizer from nltk import word_tokenize 根据行分词,将每行作
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp2/ + Why we do this 将获取的数据统一格式,得到规范化和结构化得数据 + 字符串操作 输出: + 字符串操作深入 输出: + Pyhton读取PDF 输出: + Python读取Word 每个文档有多个paragraph
阅读全文
摘要:原文链接:http://www.one2know.cn/nlp1/ + 访问语料库 NLTK数据库的安装:http://www.nltk.org/data.html NLTK语料库列表:http://www.nltk.org/nltk_data/ 内部访问(以Reuters corpus为例): +
阅读全文

浙公网安备 33010602011771号