随笔分类 -  大数据

摘要:原文 一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么 阅读全文
posted @ 2019-04-25 18:05 持&恒 阅读(544) 评论(0) 推荐(0)
摘要:HBase基本概念与基本使用 HBase详解(很全面) 一条数据的HBase之旅,简明HBase入门教程-开篇 组成部件说明: Client: 使用HBase RPC机制与HMaster和HRegionServer进行通信Client与HMaster进行管理类操作Client与HRegionServ 阅读全文
posted @ 2019-03-05 09:43 持&恒 阅读(276) 评论(0) 推荐(0)
摘要:一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了 转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝 阅读全文
posted @ 2019-03-01 17:37 持&恒 阅读(481) 评论(0) 推荐(0)
摘要:使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local 阅读全文
posted @ 2019-02-25 18:00 持&恒 阅读(3242) 评论(0) 推荐(0)
摘要:刚启动完hadoop的时候,hadoop会进入安全模式,此时不能对hdfs进行上传,修改,删除文件的操作。 hadoop dfsadmin -safemode get 命令是用来查看当前hadoop安全模式的开关状态 hadoop dfsadmin -safemode enter 命令是打开安全模式 阅读全文
posted @ 2019-02-25 17:38 持&恒 阅读(1536) 评论(0) 推荐(0)
摘要:hadoop fs -put localfile . 时出现如下错误:could only be replicated to 0 nodes, instead of 1网友的说法:这个问题是由于没有添加节点的原因,也就是说需要先启动namenode,再启动datanode,然后启动jobtracke 阅读全文
posted @ 2019-02-25 17:28 持&恒 阅读(402) 评论(0) 推荐(0)
摘要:HADOOP_CLASSPATH 是设置要运行的类的路径。否则当你用hadoop classname [args]方式运行程序时会报错,说找不到要运行的类。用hadoop jar jar_name.jar classname [args]方式运行程序时没问题。 阅读全文
posted @ 2019-02-25 16:37 持&恒 阅读(6223) 评论(0) 推荐(0)
摘要:参考文章 参考文章2 shuffle的过程分析 Hadoop学习笔记:MapReduce框架详解 谈mapreduce运行机制,可以从很多不同的角度来描述,比如说从mapreduce运行流程来讲解,也可以从计算模型的逻辑流程来进行讲解,也许有些深入理解了mapreduce运行机制还会从更好的角度来描 阅读全文
posted @ 2019-02-25 15:52 持&恒 阅读(355) 评论(0) 推荐(0)
摘要:1、什么是大数据 基本概念 在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据! 换个角度说,大数据是: 1、有海量的数据 2、有对 阅读全文
posted @ 2019-02-22 17:02 持&恒 阅读(624) 评论(0) 推荐(0)
摘要:HDFS体系结构 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)(如图所示)。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程, 阅读全文
posted @ 2019-02-22 15:24 持&恒 阅读(2944) 评论(0) 推荐(0)
摘要:原文 错误:JAVA_HOME is not set and could not be found,可能是因为JAVA_HOME环境没配置正确,还有一种情况是即使各结点都正确地配置了JAVA_HOME,但在集群环境下还是报该错误,解决方法是显示地重新声明一遍JAVA_HOME 1、检查JAVA_HO 阅读全文
posted @ 2019-01-31 11:30 持&恒 阅读(2706) 评论(0) 推荐(0)