DianaCody - 博客园

2014年9月26日

【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）

摘要：一、写在前面（本专栏分为“java版微博爬虫”和“python版网络爬虫”两个项目，系列里所有文章将基于这两个项目讲解，项目完整源码已经整理到我的Github，有兴趣的可以去看下，链接地址在文末。）网络爬虫根据需求的不同也分不同种类： 1.一种是... 阅读全文

posted @ 2014-09-26 19:58 DianaCody 阅读(2498) 评论(0) 推荐(0)

2014年9月24日

【HBase】HBase笔记：HBase的Region机制

摘要： HBase 的机制里包含了许多优秀的算法，如 Region 定位、Region 分配、Region Server的上线和下线、Master 的上线和下线。在谈到这些之前，先把 HBase 的基本架构里的一些概念列在这里。一、HBase组成 1.Client：利用 RPC 机... 阅读全文

posted @ 2014-09-24 22:18 DianaCody 阅读(466) 评论(0) 推荐(0)

【Hive】Hive笔记：Hive调优总结——数据倾斜，join表连接优化

摘要：数据倾斜即为数据在节点上分布不均，是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法：列剪裁、Map Join操作、 Group By操作、合并小文件。一、表现 1.任务进度长度为99%，在任务监控页面中发现只有几个 reduce 子任务未完成； ... 阅读全文

posted @ 2014-09-24 00:57 DianaCody 阅读(789) 评论(0) 推荐(0)

【Hadoop】MapReduce笔记（四）：MapReduce优化策略总结

摘要： Cloudera 提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统，并且它们运行着各式各样用户的代码，这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来，调整cluster或job的运行更... 阅读全文

posted @ 2014-09-24 00:25 DianaCody 阅读(622) 评论(0) 推荐(0)

2014年9月23日

【Hadoop】MapReduce笔记（三）：MapReduce的Shuffle和Sort阶段详解

摘要：一、MapReduce 总体架构整体的Shuffle过程包含以下几个部分：Map端Shuffle、Sort阶段、Reduce端Shuffle。即是说：Shuffle 过程横跨 map 和 reduce 两端，中间包含 sort 阶段，就是数据从 map task 输出到red... 阅读全文

posted @ 2014-09-23 20:08 DianaCody 阅读(2965) 评论(0) 推荐(0)

【Hadoop】MapReduce笔记（二）：MapReduce容错，任务失败处理

摘要：典型问题：Hadoop如何判断一个任务失败？失败了怎么做？分析：实际情况下，用户代码存在软件错误、进程崩溃、机器故障等都会导致失败。Hadoop判断的失败有不同级别类型，针对不同级别的失败有不同的处理对策，这就是MapReduce的容错机制。下面是几个不同级别失败的分类：一、任务失败分为3... 阅读全文

posted @ 2014-09-23 12:30 DianaCody 阅读(4612) 评论(0) 推荐(0)

【Hadoop】MapReduce笔记（一）：MapReduce作业运行过程、任务执行

摘要：一、MR作业运行过程 JobClient的runJob()方法：新建JobClient实例，并调用其submitJob()方法。提交作业后，runJob()每秒轮询作业进度，如果发现上次上报后信息有改动，则把进度报告输出到控制台。作业完成，成功则显示作业计数器；失败则输出错误到控... 阅读全文

posted @ 2014-09-23 09:49 DianaCody 阅读(1730) 评论(0) 推荐(0)

2014年9月22日

【Hadoop】HDFS笔记（三）：HDFS的Shell操作

摘要： HDFS处理文件的命令和Linux命令差不多，但注意区分大小写。（Linux区分大小写，Windows不区分大小写）一、fs命令键入命令“./bin/hadoop fs”将输出能够支持的命令列表。 Usage: java FsShell [-ls ] [-lsr ]... 阅读全文

posted @ 2014-09-22 22:26 DianaCody 阅读(395) 评论(0) 推荐(0)

【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制

摘要： HA解决了HDFS的NameNode的单点问题； Federation解决了整个HDFS集群中只有一个名字空间，并且只有单独的一个NameNode管理所有DataNode的问题。一、HA机制（High Availability） 1.HA集群 HDFS 的高可用性（... 阅读全文

posted @ 2014-09-22 19:59 DianaCody 阅读(1320) 评论(0) 推荐(0)

【Hadoop】HDFS笔记（一）：Hadoop的RPC机制

摘要： RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题： 1.对象调用方式； 2.序列/反序列化机制。 Hadoop实现的RPC组件依赖于Hadoop Writable类型支持。Writable接口要求... 阅读全文

posted @ 2014-09-22 18:30 DianaCody 阅读(670) 评论(0) 推荐(0)

DianaCody's Blog

博客部分文章已移至个人站点http://www.dianacody.com，关注Recommend System, Search Engine, Machine Learning, NLP。欢迎访问。

公告