摘要:
看代码class A: def __init__(self, val): self.name = val def printName(self): print self.namea = A("hello")a.printName()结果My name is: hello__init__(注意两边各自有两个"_")在类建立新对象时,立马运行,在里面可以做一些初始化。类的方法与普通的函数只有一个区别:它们都有一个额外的参数self,指向自己,但是对象调用这个参数是不用明写(默认,写了就错了我)。 阅读全文
posted @ 2014-03-12 20:38
jihite
阅读(840)
评论(0)
推荐(0)
摘要:
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法安装(Linux环境)下载工具包,解压后进入目录下,运行:python setup.py install模式默认模式,试图将句子最精确地切开,适合文本分析全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎接口组件只提供jieba.cut 方法用于分词cut方法接受两个输入 阅读全文
posted @ 2014-03-12 11:13
jihite
阅读(54954)
评论(0)
推荐(2)

浙公网安备 33010602011771号