Mengdong的技术博客

学习,记录,分享

导航

上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页

2011年7月20日 #

《Data-intensive Text Processing with MapReduce》读书笔记第3章:MapReduce算法设计(4)

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.4 二次排序在中间结果进入reducer之前,MapReduce会先将这些中间结果进行排序,然后再进行分发。这个机制对于依赖中间结果输入顺序(按照key的顺序)的reduce操作非常方便。反序(orderinversion)模式便是利用这个机制的一个例子。但如果有更进一步的排序需求呢(在前面的基础上再按value排序)?有了二次排序,能够保证到达reduce 阅读全文

posted @ 2011-07-20 14:16 mdyang 阅读(880) 评论(0) 推荐(0) 编辑

2011年7月18日 #

《Data-intensive Text Processing with MapReduce》读书笔记第3章:MapReduce算法设计(3)

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.3 计算相对频度(relative frequency,频率)改进共现矩阵:使用相对频度回顾上一节的内容,对于n×n的共现矩阵(co-orrurancematrix)m,mij的值是单词wi与wj在指定上下文范围内共现(co-orrurance)的次数。考虑现实中的一种情况:有的单词在本文中出现的次数远远多于其他单词(例如the)就会发现,使用这种 阅读全文

posted @ 2011-07-18 11:37 mdyang 阅读(1089) 评论(0) 推荐(1) 编辑

2011年7月14日 #

《集体智慧编程》第3章:浅谈文档聚类

摘要: 1 前言这篇读书笔记根据《集体智慧编程》第3章:聚类写成。本系列目录:http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html本文先对监督学习和无监督学习的概念进行简要介绍,引出聚类。然后给出聚类的一个经典问题:文档聚类的描述,并介绍构造特征向量和计算向量之间距离/相似度的方法。在此基础上给出使用两种基本聚类算法(层次聚类、K均值聚类)解决文档聚类问题的解法。2 监督学习与无监督学习简单地说,监督学习就是需要输入正确样例进行预训练的学习。预训练可以理解为告诉程序“怎么做”的过程。监督学习,例如神经网络、决策树、支持向量 阅读全文

posted @ 2011-07-14 17:41 mdyang 阅读(3031) 评论(1) 推荐(1) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章:MapReduce算法设计(2)

摘要: 本读书笔记的目录地址:http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.2 对(pairs)与带(stripes)本节用一个自然语言处理(Natural Language Processing, NLP)中的常见示例来说明pair和stripe两种数据组织模式的区别。这个示例是共现矩阵(Co-occurance Matrix)的计算。共现矩阵在NLP中,共现矩阵是一个n×n的方阵,n是所需处理的语料中的单词数(不同单词 阅读全文

posted @ 2011-07-14 10:49 mdyang 阅读(2161) 评论(2) 推荐(0) 编辑

2011年7月12日 #

高性能网站建设的14个原则

摘要: 今日大致浏览了一下《High Performance Web Sites》。本书的中文版是《高性能网站建设指南》。本书另有对其中个别问题深入探究的进阶篇《Even Faster Web Sites》,中译《高性能网站建设进阶指南》。作者介绍上面的豆瓣链接中有,就不再照搬过来了。这本书中给出了14条网站性能提升的原则,每个原则独立成章,配有示例。这些原则大多数都非常实用,适合站点架构师、前端工程师。其中对于前端工程师的意义更大一些。这次看的是原版。我对于Web开发较缺乏实践经验,加之看得匆忙,因此可能存在遗漏、表述不当之处,希望广大网友不吝指正。原则1 减少HTTP请求数 构造请求、等待响应需要 阅读全文

posted @ 2011-07-12 14:55 mdyang 阅读(5501) 评论(16) 推荐(3) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页