读书笔记 - 随笔分类 - mdyang

【外文引述】技术书籍 vs. Google

摘要：昨天在StackExchange上看到了一个很有趣的帖子：《为什么人们要使用编程技术书籍？（Why do people use programming books?）》。今天发布出来与大家分享，大家有什么观点尽情回复，我期待与大家分享心得，开展讨论。在我写这篇文章的时候，这个帖子在StackExchange站群的热门问题中排名第二。楼主的问题是这么说的：我发现当有人问如何编程的时候，别人通常会提供给他/她一个书单。但我不认为所有人都是通过看书学会编程的。有的人只是遇到问题，学习编程，然后将编程作为工具解决问题。拿我来说，我当时编程是因为想给自己玩的游戏搞一个服务器。那时我google一下找到了阅读全文

posted @ 2011-07-29 16:40 mdyang 阅读(2219) 评论(5) 推荐(5) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(5)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html因为最近工作比较忙，没有时间继续写这本书的读书笔记，所以本系列将会暂停一段时间。3.5 关系连接相关wiki:Join: http://en.wikipedia.org/wiki/Join_(SQL)Nested Loop Join: http://en.wikipedia.org/wiki/Nested_loop_join（译者：整个3.5都更像是数据库教程，阅读全文

posted @ 2011-07-23 21:19 mdyang 阅读(1536) 评论(1) 推荐(1) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(4)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.4 二次排序在中间结果进入reducer之前，MapReduce会先将这些中间结果进行排序，然后再进行分发。这个机制对于依赖中间结果输入顺序（按照key的顺序）的reduce操作非常方便。反序（orderinversion）模式便是利用这个机制的一个例子。但如果有更进一步的排序需求呢（在前面的基础上再按value排序）？有了二次排序，能够保证到达reduce 阅读全文

posted @ 2011-07-20 14:16 mdyang 阅读(880) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(3)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.3 计算相对频度（relative frequency，频率）改进共现矩阵：使用相对频度回顾上一节的内容，对于n×n的共现矩阵（co-orrurancematrix）m，mij的值是单词wi与wj在指定上下文范围内共现（co-orrurance）的次数。考虑现实中的一种情况：有的单词在本文中出现的次数远远多于其他单词（例如the）就会发现，使用这种阅读全文

posted @ 2011-07-18 11:37 mdyang 阅读(1089) 评论(0) 推荐(1) 编辑

《集体智慧编程》第3章：浅谈文档聚类

摘要：1 前言这篇读书笔记根据《集体智慧编程》第3章：聚类写成。本系列目录：http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html本文先对监督学习和无监督学习的概念进行简要介绍，引出聚类。然后给出聚类的一个经典问题：文档聚类的描述，并介绍构造特征向量和计算向量之间距离/相似度的方法。在此基础上给出使用两种基本聚类算法（层次聚类、K均值聚类）解决文档聚类问题的解法。2 监督学习与无监督学习简单地说，监督学习就是需要输入正确样例进行预训练的学习。预训练可以理解为告诉程序“怎么做”的过程。监督学习，例如神经网络、决策树、支持向量阅读全文

posted @ 2011-07-14 17:41 mdyang 阅读(3032) 评论(1) 推荐(1) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(2)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html3.2 对（pairs）与带（stripes）本节用一个自然语言处理（Natural Language Processing, NLP）中的常见示例来说明pair和stripe两种数据组织模式的区别。这个示例是共现矩阵（Co-occurance Matrix）的计算。共现矩阵在NLP中，共现矩阵是一个n×n的方阵，n是所需处理的语料中的单词数（不同单词阅读全文

posted @ 2011-07-14 10:49 mdyang 阅读(2166) 评论(2) 推荐(0) 编辑

高性能网站建设的14个原则

摘要：今日大致浏览了一下《High Performance Web Sites》。本书的中文版是《高性能网站建设指南》。本书另有对其中个别问题深入探究的进阶篇《Even Faster Web Sites》，中译《高性能网站建设进阶指南》。作者介绍上面的豆瓣链接中有，就不再照搬过来了。这本书中给出了14条网站性能提升的原则，每个原则独立成章，配有示例。这些原则大多数都非常实用，适合站点架构师、前端工程师。其中对于前端工程师的意义更大一些。这次看的是原版。我对于Web开发较缺乏实践经验，加之看得匆忙，因此可能存在遗漏、表述不当之处，希望广大网友不吝指正。原则1 减少HTTP请求数构造请求、等待响应需要阅读全文

posted @ 2011-07-12 14:55 mdyang 阅读(5513) 评论(16) 推荐(3) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第3章：MapReduce算法设计(1)

摘要：爽约了。本来应该昨天更新的，结果昨天收到刚买的Focus手机过于兴奋把正事忘记了，十分抱歉！本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html引言MapReduce的强大很大程度上来自于它的简单，程序员只需要准备以下几个要素：输入数据mapper和reducer划分器与合并器（这两个是可选的）但另一方面，这意味着所有希望使用MapReduce实现的算法都得以MapReduce模型特有的方式表达（map-redu 阅读全文

posted @ 2011-07-12 09:57 mdyang 阅读(2498) 评论(2) 推荐(0) 编辑

《集体智慧编程》第2章：推荐

摘要：本书读书笔记目录：http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html第2章推荐想得到电影推荐的时候怎么做？最原始的做法就是问自己的朋友。一开始，你会要求大多数朋友给你推荐电影，经过一段时间，你发现有些朋友比别人”有眼光“。这实际上意味着相对于别人，这些朋友与你具有更高的偏好相似度，因此他们喜欢的电影你很可能也会喜欢。这样一来，你自然就会更关注那些他们看过觉得不错，而你还没有看过的电影。这种就是众多协同过滤（collaborativefiltering）技术的来源。收集评价信息本章构建一个电影推荐程序，程序基于几阅读全文

posted @ 2011-07-09 10:39 mdyang 阅读(1594) 评论(1) 推荐(2) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记第2章：MapReduce基础(4)

摘要：本读书笔记的目录地址：http://www.cnblogs.com/mdyang/archive/2011/06/29/data-intensive-text-prcessing-with-mapreduce-contents.html2.6 Hadoop集群架构图2.6 完整的Hadoop集群架构将上面的所有功能模块整合起来，我们就可以得到完整的Hadoop集群架构（如图2.6）：1) HDFS namenode上运行namenode守护进程（daemon）2) 工作提交节点（job submission node）上运行工作追踪器（jobtracker），这种节点直接与客户端连接，接受Ma 阅读全文

posted @ 2011-07-08 09:32 mdyang 阅读(1038) 评论(2) 推荐(0) 编辑

《集体智慧编程》前言、第1章：集体智慧

摘要：本书读书笔记目录：http://www.cnblogs.com/mdyang/archive/2011/07/07/PCI-contents.html前言(本书于2007年由O’Reilly出版)Internet上由用户创造的献数据正在不断增加。这些数据暗含了用户的经历、喜好、行为特征等信息，因此对于商务决策、市场运作有很大价值。本书介绍一个正在崛起的领域——集体智慧。本书的目标是让你能设计可以更聪明的程序，这些程序可以分析你获得的数据，从而帮你构建超越简单数据后台管理程序的应用。本书主要涵盖数据挖掘、机器学习、搜索等领域的基础算法。要求本书中的代码全部使用Python边写，因此要求具有一定的阅读全文

posted @ 2011-07-07 14:02 mdyang 阅读(789) 评论(0) 推荐(0) 编辑

《集体智慧编程》目录(2011.7.14最后更新)

摘要：前言本文是《Programming Collective Intelligence》的读书笔记目录。说实话，这本书的中文名着实让我纠结。乍看书名，我还以为是讲团队合作的呢。但如果不用这个书名，估计看到的人也不知道我说的是《Programming Collective Intelligence》这本书吧=_=真的翻开了书才发现都是一些实用的数据处理算法，涉及数据挖掘、人工智能/机器学习、搜索/ranking等多个领域的基础知识。本书为了突出实用性与易读性，避免了晦涩的形式化数学表述。涉及算法几乎全部来源于实例，且都用Python代码描述。对于希望快速上手上述领域算法设计的程序员是一本不可多得的好阅读全文

posted @ 2011-07-07 13:59 mdyang 阅读(1287) 评论(0) 推荐(0) 编辑

《Data-intensive Text Processing with MapReduce》读书笔记（入口）2011.7.23最后更新

摘要：本文是《Data-intensive Text Processing with MapReduce》一书（豆瓣链接）读书笔记博文列表。这是我的第一个读书笔记，其中翻译与表述不当之处，望广大网友不吝赐教。目前的状态：正在看书，边看边写，随着看书进度更新读书笔记。虽然进度上没有绝对保证，但将读书笔记以博文的方式发布出来，是对自己的督促。无论如何，我将认真研读并撰写报告。更新速度为3天左右一篇。读完以后，将持续修订。并考虑添加一些实践练习。书名中译（待定）：使用MapReduce进行密集文本数据处理第1章：引言http://www.cnblogs.com/mdyang/archive/2011/06 阅读全文

posted @ 2011-06-29 16:17 mdyang 阅读(4561) 评论(4) 推荐(1) 编辑

Mengdong的技术博客

导航

公告

随笔分类 - 读书笔记