2013年1月6日
摘要: 数学之美系列二:谈谈中文分词一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词-----统计语言模型在中文处理中的一个应用系列一中我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会”,分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是 阅读全文
posted @ 2013-01-06 10:38 敲代码的耗子 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 1、欲做精金美玉的人品,定从烈火中煅来;思立掀天揭地的事功,须向薄冰上履过。2、一念错,便觉百行皆非,防之当如渡海浮囊,勿容一针之罅(xia)漏;万善全,始得一生无愧。修之当如凌云宝树,须假众木以撑持。3、昨日之非不可留,留之则根烬复萌,而尘情终累乎理趣;今日之是不可执,执之则渣滓未化,而理趣反转为欲根。4、能轻富贵,不能轻一轻富贵之心;能重名义,又复重一重名义之念。是事境之尘氛未扫,而心境之芥蒂未忘。此处拔除不净,恐石去而草复生矣。5、士人有百折不回之真心,才有万变不穷之妙用。立业建功,事事要从实地着脚,若少慕声闻,便成伪果;讲道修德,念念要从虚处立基,若稍计功效,便落尘情。 阅读全文
posted @ 2013-01-06 10:13 敲代码的耗子 阅读(211) 评论(0) 推荐(0) 编辑
摘要: Python编写简单的网络爬虫根据网络上给出的例子,简单总结一下用Python编写网络爬虫程序的基本思路,以百度为例,主要有以下策略:Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得NBA这个词在百度搜索结果页中各个搜索结果对应的URL,这就是一个很简单的爬虫需求。1、通过urllib2这个Module获得对应的HTML源码。# -*- encoding: utf-8 -*-import urllib2url='http://www.baidu.com/s?wd=NBA'content=urllib2.urlopen(url).re 阅读全文
posted @ 2013-01-06 00:06 敲代码的耗子 阅读(3487) 评论(3) 推荐(0) 编辑