摘要:
1 IntelliJ IDEA是一款非常优秀的JAVA编辑器,是jetbrain开发的一个IDE,用于Java、Groovy、Scala等的开发,自称是当前最智能的Java开发环境(The most intelligent IDE for Java platform),相对于其他开发工具来说,其对于... 阅读全文
posted @ 2015-04-23 21:19
孟想阳光
阅读(418)
评论(1)
推荐(0)
摘要:
scala简介:scala基于JVM的FP+OO(函数编程和面向对象编程)• 静态类型• 和Java互操作解释器(interpreter)• 值与变量(val & var)• 函数(Function)scala安装:1. 官网下载下载http://www.scala-lang.org/downloa... 阅读全文
posted @ 2015-04-23 21:06
孟想阳光
阅读(192)
评论(0)
推荐(0)
摘要:
前提:假如有一批输入数据格式如下:用户id|文章类别|浏览次数要求:用pig求出每个用户浏览次数最多的文章类别?1.首先:读入数据– 指定分隔符为 “|”– 指定每个字段的类型进入pig, u_ct=load'/output' using PigStorage('|') as(user:charar... 阅读全文
posted @ 2015-04-23 19:11
孟想阳光
阅读(89)
评论(0)
推荐(0)
摘要:
1.最小错误率贝叶斯决策2.最小风险叶斯决策在模式分类的决策中,最小错误率的原则是重要的,但实际上我们有可能关心的不仅仅是错误率,而是错误所带来的损失或风险。而风险又是和损失紧密相连的,所谓最小风险贝叶斯决策就是考虑各种错误造成损失不同时而提出的一种决策规律,而基于最小错误率的贝叶斯决策不能确定决策... 阅读全文
posted @ 2015-04-23 16:01
孟想阳光
阅读(154)
评论(0)
推荐(0)
摘要:
HDFS和HBase是Hadoop中两种主要的存储文件系统,两者适用的场景不同,HDFS适用于大文件存储,HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的,也可以说是block策略。正文一写入数据 当没有配置机架信息时,所有的机器had... 阅读全文
posted @ 2015-04-23 11:26
孟想阳光
阅读(420)
评论(0)
推荐(0)
摘要:
本文引自吴超博客实现原理 1、在Reudce端进行连接。 在Reudce端进行连接是MapReduce框架进行表之间join操作最为常见的模式,其具体的实现原理如下: Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和... 阅读全文
posted @ 2015-04-23 11:25
孟想阳光
阅读(1395)
评论(0)
推荐(0)
摘要:
Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包... 阅读全文
posted @ 2015-04-23 11:22
孟想阳光
阅读(276)
评论(0)
推荐(0)
摘要:
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2.单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少... 阅读全文
posted @ 2015-04-23 11:20
孟想阳光
阅读(524)
评论(0)
推荐(0)
摘要:
本文引自于吴超博客一. SSH无密码验证配置Hadoop 需要使用SSH 协议,namenode使用SSH 协议启动 namenode 和datanode 进程,伪分布式模式数据节点和名称节点均是本身,必须配置 SSH localhost无密码验证。以下用root用户登录仅为了方便起见。登录后,执行... 阅读全文
posted @ 2015-04-23 11:16
孟想阳光
阅读(163)
评论(0)
推荐(0)
摘要:
1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离... 阅读全文
posted @ 2015-04-23 11:15
孟想阳光
阅读(189)
评论(0)
推荐(0)
摘要:
大家都知道在hadoop2中对HDFS的改进很大,实现了NameNode的HA;也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错,确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的,可不是任意一... 阅读全文
posted @ 2015-04-23 11:12
孟想阳光
阅读(483)
评论(0)
推荐(0)
摘要:
通过我们前面的操作,已经可以编译并且打包产生适合本机的hadoop包,目录是hadoop-dist/target/hadoop-2.2.0。使用root用户登录配置文件位于/usr/local/hadoop-dist/target/hadoop-2.2.0/etc/hadoop目录下。编辑文件had... 阅读全文
posted @ 2015-04-23 11:11
孟想阳光
阅读(134)
评论(0)
推荐(0)
摘要:
phoenix(直译做凤凰)的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转化为hbase的scan操作和服务器端的过滤器。如果我们手工使用HBase的api去写这些代码,也会得到相同的运行结果和执行速度。但是,使用phoenix的效果却会带来更快的开发效率。他提供了HBa... 阅读全文
posted @ 2015-04-23 11:08
孟想阳光
阅读(194)
评论(0)
推荐(0)
摘要:
hadoop2的中的MapReduce不再是hadoop1中的结构已经没有了JobTracker,而是分解成ResourceManager和ApplicationMaster。这次大变革被称为MRv2或者YARN,是一次革命性的变化。修改文件yarn-site.xml,内容如下yarn.resour... 阅读全文
posted @ 2015-04-23 11:06
孟想阳光
阅读(160)
评论(0)
推荐(0)
摘要:
本文引自吴超博客:http://www.superwu.cn/2014/02/12/1094/hadoop是分布式系统,运行在linux之上,配置起来相对复杂。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoo... 阅读全文
posted @ 2015-04-23 11:05
孟想阳光
阅读(202)
评论(0)
推荐(0)
摘要:
HDFS Federation(HDFS联邦)HDFS有两个主要层:Namespace 由目录、文件和块组成;支持所有命名空间对文件和目录的操作。Block Storage Service 由Block Management和Storage组成。Block Management 提供dataNode... 阅读全文
posted @ 2015-04-23 10:58
孟想阳光
阅读(280)
评论(0)
推荐(0)
摘要:
网络地址转换(NAT)这种访问模式指的是虚拟机不占用主机所在局域网的ip,通过使用主机的NAT功能访问局域网和互联网,意味着虚拟机可以访问局域网中的其他电脑,但是其他电脑不知道虚拟机的存在。使用这种模式时,虚拟机不需要设置静态IP,只需要使用DHCP功能自动获取ip即可。这种模式的好处是可以利用主机... 阅读全文
posted @ 2015-04-23 10:55
孟想阳光
阅读(238)
评论(0)
推荐(0)
摘要:
最顶级是InputFormat抽象类 ,该类定义了两个方法,方法getSplits是负责切分输入文件(们)的,把很多的输入文件(们)切分成很多的输入分片,切分规则就是在这里定义的,每个InputSplit对应一个Mapper任务。方法createRecordReader是负责把getSplits生成... 阅读全文
posted @ 2015-04-23 10:53
孟想阳光
阅读(739)
评论(0)
推荐(0)
摘要:
Mapper任务的执行过程:第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。默认情况下,输入片(InputSplit)的大小与数据块(Block)的大小是相同的。如果数据块(Block)的大小是默认值64MB,输入文件有两个,一个是32MB,一个是72MB。... 阅读全文
posted @ 2015-04-23 10:49
孟想阳光
阅读(411)
评论(0)
推荐(0)
摘要:
当集群启动的时候,会首先进入到安全模式。系统在安全模式下,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的... 阅读全文
posted @ 2015-04-23 10:45
孟想阳光
阅读(299)
评论(0)
推荐(0)
摘要:
Reducer任务的数据来自于Mapper任务,也就说Mapper任务要划分数据,对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。默认的分区类是HashPartitioner,是处理Mapper... 阅读全文
posted @ 2015-04-23 10:43
孟想阳光
阅读(356)
评论(0)
推荐(0)
摘要:
作用:在Mapper端对数据进行Combine归约处理,Combine业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了网络传输的数量。在Mapper进行归约后,数据量变小了,这样再通过网络传输时,传输时间就变短了,减少了整个作业的运行时间... 阅读全文
posted @ 2015-04-23 10:38
孟想阳光
阅读(614)
评论(0)
推荐(0)
摘要:
选项名称使用格式含义-ls-ls 查看指定路径的当前目录结构-lsr-lsr 递归查看指定路径的目录结构-du-du 统计目录下个文件大小-dus-dus 汇总统计目录下文件(夹)大小-count-count [-q] 统计文件(夹)数量-mv-mv 移动-cp-cp 复制-rm-rm [-sk... 阅读全文
posted @ 2015-04-23 10:33
孟想阳光
阅读(218)
评论(0)
推荐(0)
摘要:
修改配置文件/etc/profile,增加环境变量HADOOP_HOME_WARN_SUPPRESS=1,保存退出,再次启动hadoop,就不会出现警告信息了 阅读全文
posted @ 2015-04-23 10:32
孟想阳光
阅读(137)
评论(0)
推荐(0)
摘要:
1.解压hadoop-1.1.2.tar.gz,重点在src文件夹2.在eclipse中通过菜单栏创建一个java工程,工程名随便3.在创建的工程上,点击右键,在弹出菜单中选择最后一项,在弹出窗口中,左边选择“Java Build Path“,右边选择Libraries,然后点击Add Extern... 阅读全文
posted @ 2015-04-23 10:30
孟想阳光
阅读(134)
评论(0)
推荐(0)
摘要:
50070端口查看NameNode状态,该端口的定义位于core-default.xml中,可以在core-site.xml中自行修改。50075端口查看DataNode的,该地址和端口的定义位于hdfs-default.xml中,50090端口查看SecondaryNameNode的50030端口... 阅读全文
posted @ 2015-04-23 10:25
孟想阳光
阅读(1438)
评论(0)
推荐(0)
摘要:
* 路径描述符在Linux中,路径是通过斜线“/”划分的。在一个使用“/”划分的长路径中,开头的如果是“/”,这个斜线是特殊的,称作根路径。根路径使用“/”表示,在路径的开始位置,类似于Windows的“我的电脑”;点号“.”表示当前路径,无论你在哪个位置,点号都表示当前所在的路径;两个点“..”表... 阅读全文
posted @ 2015-04-23 10:20
孟想阳光
阅读(143)
评论(0)
推荐(0)

浙公网安备 33010602011771号