摘要: 2007年1月1日 下午 03:10:00发表者:Google 研究员,吴军我 在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在 数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到 后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。在自然语言处理中,最常见的两类的分 类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类 阅读全文
posted @ 2013-01-08 20:39 renly2013 阅读(184) 评论(0) 推荐(0)
摘要: 2006年11月28日 上午 03:18:00Google 研究员 吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊者常用很小的字体和与背景相同的颜色来掩盖这些关键词。其实,这种做法很容易被搜索引擎发现并纠正。在有了网页排名(page rank 阅读全文
posted @ 2013-01-08 20:38 renly2013 阅读(287) 评论(0) 推荐(0)
摘要: 2006年10月8日 上午 07:27:00发表者:Google 研究员,吴军[我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]前段时间,Google 中国研究院的刘骏总监谈到在网络搜索排名中,用到的信息有上百种。更普遍地讲,在自然语言处理中,我们常常知道各种各样的但是又不完全确定的信息,我们需要用一个统一的模型将这些信息综合起来。如何综合得好,是一门很大的学问。让 我们看一个拼音转汉字 阅读全文
posted @ 2013-01-08 20:36 renly2013 阅读(240) 评论(0) 推荐(0)
摘要: 2006年8月23日 下午 11:22:00发表者:吴军,Google 研究员我 在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说 完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样的人。柯林斯:追求完美柯 林斯从师于自然语言处理大师马库斯 (Mitch Marcus)(我们以后还会多次提到马库斯),从宾夕法利亚大学获得博士学位,现任麻省理工学院 (MIT) 副教 阅读全文
posted @ 2013-01-08 20:35 renly2013 阅读(200) 评论(0) 推荐(0)
摘要: 2006年8月9日 上午 09:12:00发表者:吴军,Google 研究员[注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]在 包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及,并且在古巴比伦时,人们就观测到了五大行星 (金、木、水、火、土)运行的轨迹,以及行星在近日点运动比远日点快。(下图是在地球上看到的金星的轨迹,看过达芬奇密码的读者知道金星大约每四年在天上 画一个五角星。) 阅读全文
posted @ 2013-01-08 20:34 renly2013 阅读(293) 评论(0) 推荐(0)
摘要: 2006年8月3日 上午 11:17:00发表者:吴军,Google 研究员任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一 文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(URL)。但是在哈希表中以字符串的形式直接存储网址,既费内存空间, 又浪费查找时间。现在的网址一般都较长,比如,如果在 Google 或者百度在查找数学之美,对应的网址长度在一百个字符以上。下面是百度的 阅读全文
posted @ 2013-01-08 20:33 renly2013 阅读(245) 评论(0) 推荐(0)
摘要: 2006年7月20日 上午 10:12:00发表者:吴军,Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在"如何度量网页相关性" 一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我 阅读全文
posted @ 2013-01-08 20:32 renly2013 阅读(180) 评论(0) 推荐(0)
摘要: 2006年7月10日 上午 09:52:00发表者:Google 研究员,吴军枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影"战争之王"(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我 认为,在计算机中一个好的算法,应该向阿卡 47 冲锋枪那样简单、有效、可靠性好而且容易读懂(或者说易操作),而不应该是故弄玄虚。Google 的杰出工程师阿米特.辛格博士 (Amit Sing 阅读全文
posted @ 2013-01-08 20:31 renly2013 阅读(199) 评论(0) 推荐(0)
摘要: 2006年7月5日 上午 09:09:00发表者:吴军,Google 研究员地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每 一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上图中,当前的状态是"省",如 果遇到一个词组和(区)县名有关,我们就进入状态"区县";如果遇到的下一个词组和城市有关, 阅读全文
posted @ 2013-01-08 20:30 renly2013 阅读(263) 评论(0) 推荐(0)
摘要: 2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于"原子能的应用"的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询& 阅读全文
posted @ 2013-01-08 20:28 renly2013 阅读(192) 评论(0) 推荐(0)
摘要: 2006年6月8日 上午 09:15:00发表者:Google 研究员,吴军读 者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的 系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗 莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学(私立学校)读书。为了教他德语,还专门请的一位德国的家庭女教师,但 是第二次世界大战完全打碎了他们的梦想。他们先是被从家中 阅读全文
posted @ 2013-01-08 11:32 renly2013 阅读(249) 评论(0) 推荐(0)
摘要: 2006年5月25日 上午 07:56:00发表者:吴军, Google 研究员我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中 谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识 别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语 言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(Fr 阅读全文
posted @ 2013-01-08 11:31 renly2013 阅读(250) 评论(0) 推荐(0)
摘要: 2006年5月15日 上午 07:15:00发表者: 吴军,Google 研究员[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用Google Trends来搜索一下"离散数学"这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。]我们上回谈到了如何建立搜索引擎的索引,那么如何自动下载互联网所有的网页呢,它要用到图论中的遍历(Tr 阅读全文
posted @ 2013-01-08 11:30 renly2013 阅读(174) 评论(0) 推荐(0)
摘要: 2006年5月10日 上午 09:10:00发表者: 吴军,Google 研究员[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍Google Page Rank(网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。布尔(George Boole) 是十九世纪英国一位小学数学老师。 阅读全文
posted @ 2013-01-08 11:29 renly2013 阅读(155) 评论(0) 推荐(0)
摘要: 2006年4月26日 上午 08:11:00发表者:吴军,Google 研究员前言: Google 一直以 "整合全球信息,让人人能获取,使人人能受益" 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了"信息熵"(shāng) 的概念,才解决了对信息的量化度量问题。一 条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相 阅读全文
posted @ 2013-01-08 11:28 renly2013 阅读(233) 评论(0) 推荐(0)
摘要: 2006年4月17日 上午 08:01:00发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自 然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表 示了一个典型的通信系统:其中 s1,s2,s3...表示信息源发出的信号。o1, 阅读全文
posted @ 2013-01-08 11:27 renly2013 阅读(178) 评论(0) 推荐(0)
摘要: 2006年4月10日 上午 08:10:00发表者: 吴军, Google 研究员谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识 阅读全文
posted @ 2013-01-08 11:25 renly2013 阅读(178) 评论(0) 推荐(0)
摘要: 2006年4月3日 上午 08:15:00发表者: 吴军, Google 研究员前言也 许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一 个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Language Models)Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让 阅读全文
posted @ 2013-01-08 11:23 renly2013 阅读(186) 评论(0) 推荐(0)
摘要: 发表于2009年05月14号由52nlp自然语言处理:最大熵和对数线性模型Natural Language Processing: Maximum Entropy and Log-linear Models作者:Regina Barzilay(MIT,EECS Department, October 1, 2004)译者:我爱自然语言处理(www.52nlp.cn,2009年5月14日)三、 最大熵模型详述g) GIS算法(Generative Iterative Scaling) i. 背景: 最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS (generalized iterat. 阅读全文
posted @ 2013-01-07 19:05 renly2013 阅读(357) 评论(0) 推荐(0)
摘要: 发表于2009年05月9号由52nlp自然语言处理:最大熵和对数线性模型Natural Language Processing: Maximum Entropy and Log-linear Models作者:Regina Barzilay(MIT,EECS Department, October 1, 2004)译者:我爱自然语言处理(www.52nlp.cn,2009年5月9日)三、 最大熵模型详述c) 相对熵(Kullback-Liebler距离)(Relative Entropy (Kullback-Liebler Distance)) i. 定义(Definition):两个概率分布 阅读全文
posted @ 2013-01-07 19:04 renly2013 阅读(241) 评论(0) 推荐(0)