随笔分类 - 读书笔记
摘要:一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这...
阅读全文
摘要:Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通...
阅读全文
摘要:向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序1、向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配置。例如第5章的联结程序被固定地写为取第一个数据列作为联结键。如果用户可以在运行时指定某个列作为联结键,就会让程序更具普适性。ha...
阅读全文
摘要:Hadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优1、开发MapReduce程序[本地模式] 本地模式下的hadoop将所有的运行都放在一个单独的Java虚拟机中完成,并且使用的是本地文件系统(非HDFS)。在本地模式中运行的程序将所...
阅读全文
摘要:链接多个MapReduce作业执行多个数据集的联结生成Bloom filter1、链接MapReduce作业[顺序链接MapReduce作业]mapreduce-1 | mapreduce-2 | mapreduce-3 | ...[具有复杂依赖的MapReduce链接]有时,在复杂数据处理任务中的...
阅读全文
摘要:基于hadoop的专利数据处理示例MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API用于提升性能的Combiner1、获取专利数据集获取网址:http://www.nber.org/patents/使用数据集:cite7...
阅读全文
摘要:管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据1、HDFS文件操作[命令行方式]Hadoop的文件命令采取的形式为:hadoop fs -cmd 其中,cmd是具体的文件命令,而是一组数目可变的参数。(1)添加文件和目录 HDFS有一个默认的工作目录/user/$USER,...
阅读全文
摘要:什么是PythonPython的起源Python的特点下载Python安装Python运行PythonPython文档比较Python其他实现1、什么是PythonPython是一门优雅而健壮的编程语言,它继承了传统编译语言的强大性和通用性,同时也借鉴了简单脚本和解释语言的易用性。它可以帮你完成工作...
阅读全文
摘要:Hadoop的结构组成安装Hadoop及其3种工作模式:单机、伪分布和全分布用于监控Hadoop安装的Web工具1、Hadoop的构造模块(1)NameNode(名字节点)Hadoop在分布式计算和分布式存储中都采用了主/从结构。NameNode位于HDFS的主端,它指导从端的DataNode执行底...
阅读全文
摘要:编写可扩展、分布式的数据密集型程序和基础知识理解Hadoop和MapReduce编写和运行一个基本的MapReduce程序1、什么是HadoopHadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。Hadoop与众不同之处在于以下几点:方便——Hadoop运行在由一般商用机器构成的大型...
阅读全文

浙公网安备 33010602011771号