随笔分类 - 大数据与分布式
摘要:http://www.cnblogs.com/zjfstudio/p/3913549.htmlHadoop学习笔记(8) ——实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构。根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index)。结构如下:...
阅读全文
摘要:http://www.cnblogs.com/zjfstudio/p/3887551.htmlHadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成。 ...
阅读全文
摘要:http://www.cnblogs.com/zjfstudio/p/3877094.html#undefinedHadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。 Hado...
阅读全文
摘要:http://www.open-open.com/lib/view/open1409476679197.html摘要:分布式系统需要在数据完整、一致性和性能间做平衡。本文系统介绍了处理分布式数据一致性的技术模型,如:Master-Slave,Master-Master,2PC/3PC,经典的将军问题...
阅读全文
摘要:http://www.cnblogs.com/MengYan-LongYou/p/3360613.html在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以/t划分。data.txt内容如下:2010011003abc201002100...
阅读全文
摘要:入门:数据挖掘入门的书籍,中文的大体有这些:JiaweiHan的《数据挖掘概念与技术》IanH.Witten/EibeFrank的《数据挖掘实用机器学习技术》TomMitchell的《机器学习》TOBYSEGARAN的《集体智慧编程》AnandRajaraman的《大数据》Pang-NingTan的...
阅读全文
摘要:《Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点、十大目标)》 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉及项目:京东商城、百度、阿里巴巴 咨询QQ:1609173918下载地址: 链接:http://pan.baid...
阅读全文
摘要:前言:Google大数据处理的3篇核心论文《The Google File System》:http://research.google.com/archive/gfs.html《MapReduce: Simplified Data Processing on Large Clusters》:htt...
阅读全文
摘要:基数计数(cardinality counting)是实际应用中一种常见的计算场景,在数据分析、网络监控及数据库优化等领域都有相关需求。精确的基数计数算法由于种种原因,在面对大数据场景时往往力不从心,因此如何在误差可控的情况下对基数进行估计就显得十分重要。目前常见的基数估计算法有Linear Cou...
阅读全文
摘要:摘要本文将会从实际应用场景出发,介绍一致性哈希算法(Consistent Hashing)及其在分布式系统中的应用。首先本文会描述一个在日常开发中经常会遇到的问题场景,借此介绍一致性哈希算法以及这个算法如何解决此问题;接下来会对这个算法进行相对详细的描述,并讨论一些如虚拟节点等与此算法应用相关的话题...
阅读全文
摘要:http://cs.nju.edu.cn/lwj/conf/CIKM14Hash.htmLearning to Hash with its Application to Big Data Retrieval and MiningOverviewNearest neighbor (NN) search...
阅读全文

浙公网安备 33010602011771号