2017年6月8日
摘要: 这里主要介绍nltk中的一些现成的词干提取器Porter和Lancaster. 1. Porter 2. Lancaster 3. 词形归并器:删除词缀产生的词, 常用的有WordNetLemmatier 从上面的运行结果可以看出,Porter词干提取器的效果比较好。 4. 基于Porter词干提取 阅读全文
posted @ 2017-06-08 21:36 寒若雪 阅读(2668) 评论(0) 推荐(0)
摘要: 1. s.find(t): 字符串s中包含t的第一个索引(没找到返回-1) 2. s.rfind(t): 字符串s中包含t的最后一个索引(没找到返回-1) 3. s.index(t): 与s.find(t)功能类似,但没找到引起ValueError 4. s.rindex(t): 余s.rfind( 阅读全文
posted @ 2017-06-08 21:17 寒若雪 阅读(346) 评论(0) 推荐(0)
摘要: 本文主要介绍编程访问网络文本的几种方式。 1. 访问网络资源 >>> from urllib import urlopen >>> url='http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.astype.html 阅读全文
posted @ 2017-06-08 20:13 寒若雪 阅读(1140) 评论(0) 推荐(0)
摘要: 本文只是简单罗列一下再机器学习过程中遇到的常用的数学函数。 1. math.fabs(x): 返回x的绝对值。同numpy。 >>> import numpy >>> import math >>> numpy.fabs(-5) 5.0 >>> math.fabs(-5) 5.0 2. x.asty 阅读全文
posted @ 2017-06-08 15:00 寒若雪 阅读(2756) 评论(0) 推荐(1)