2013年1月6日
摘要: 数学之美系列二:谈谈中文分词一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词-----统计语言模型在中文处理中的一个应用系列一中我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会”,分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是 阅读全文
posted @ 2013-01-06 10:38 敲代码的耗子 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 1、欲做精金美玉的人品,定从烈火中煅来;思立掀天揭地的事功,须向薄冰上履过。2、一念错,便觉百行皆非,防之当如渡海浮囊,勿容一针之罅(xia)漏;万善全,始得一生无愧。修之当如凌云宝树,须假众木以撑持。3、昨日之非不可留,留之则根烬复萌,而尘情终累乎理趣;今日之是不可执,执之则渣滓未化,而理趣反转为欲根。4、能轻富贵,不能轻一轻富贵之心;能重名义,又复重一重名义之念。是事境之尘氛未扫,而心境之芥蒂未忘。此处拔除不净,恐石去而草复生矣。5、士人有百折不回之真心,才有万变不穷之妙用。立业建功,事事要从实地着脚,若少慕声闻,便成伪果;讲道修德,念念要从虚处立基,若稍计功效,便落尘情。 阅读全文
posted @ 2013-01-06 10:13 敲代码的耗子 阅读(211) 评论(0) 推荐(0) 编辑
摘要: Python编写简单的网络爬虫根据网络上给出的例子,简单总结一下用Python编写网络爬虫程序的基本思路,以百度为例,主要有以下策略:Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得NBA这个词在百度搜索结果页中各个搜索结果对应的URL,这就是一个很简单的爬虫需求。1、通过urllib2这个Module获得对应的HTML源码。# -*- encoding: utf-8 -*-import urllib2url='http://www.baidu.com/s?wd=NBA'content=urllib2.urlopen(url).re 阅读全文
posted @ 2013-01-06 00:06 敲代码的耗子 阅读(3487) 评论(3) 推荐(0) 编辑
2013年1月5日
摘要: 数学之美系列一:统计语言模型(Statistical Language Models)在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当 人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 阅读全文
posted @ 2013-01-05 15:07 敲代码的耗子 阅读(199) 评论(0) 推荐(0) 编辑
2013年1月4日
摘要: 第一章 集体智慧导言(Introduction to Collective Intelligence) 不得不说,《集体智慧编程》是一本很好地用于SNS入门的书籍,当然对于认识机器学习,了解数据挖掘更是有很大帮助。一直以来都在看英文版(现在也出了中文版的,电子版的都可以从网上下到),感觉理解起来难度不大,语言浅显易懂,有这方面兴趣的可以看看。书中所采用的程序设计语言是Python,想必在数据分析与数据处理领域有研究的同志们对这么语言也不会陌生了吧,这也是我最初选择读这本书的原因。 Why Python? ——Concise(简洁)、Easy to read(易读)、Easily exten.. 阅读全文
posted @ 2013-01-04 21:34 敲代码的耗子 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 1、首先介绍几个比较好的学习SVN的网站: SVN官网:http://subversion.apache.org/ Ubuntu官方网站:http://wiki.ubuntu.org.cn/SubVersion SVN俱乐部:http://www.svnclub.com/(推荐) SVN中文说明书:http://www.subversion.org.cn/svnbook/1.4/index.html(推荐)2、SVN服务器安装和配置(以Ubuntu10.04 + Apache + SVN为例) 假设一个版本服务器需要做到以下工作: (1)安装Ubuntu系统(略) (2)安装Ap... 阅读全文
posted @ 2013-01-04 19:50 敲代码的耗子 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 今天终于决定把CSDN的博客转移到博客园,需要耐心整理一下喽! 阅读全文
posted @ 2013-01-04 13:00 敲代码的耗子 阅读(142) 评论(0) 推荐(0) 编辑