摘要:
1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装; 2. File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId; 3. 编辑pom.xml文件,添加项目所需要的依赖:
阅读全文
posted @ 2017-05-18 19:12
MSTK
阅读(10652)
推荐(1)
摘要:
以Spark-Client模式运行,Spark-Submit时出现了下面的错误: 意思是说Container要用2.2GB的内存,而虚拟内存只有2.1GB,不够用了,所以Kill了Container。 我的SPARK-EXECUTOR-MEMORY设置的是1G,即物理内存是1G,Yarn默认的虚拟内
阅读全文
posted @ 2017-05-16 10:18
MSTK
阅读(3133)
推荐(1)
摘要:
3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式,
阅读全文
posted @ 2017-05-15 17:14
MSTK
阅读(5553)
推荐(0)
摘要:
Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式 2. Standalone
阅读全文
posted @ 2017-05-15 15:25
MSTK
阅读(5277)
推荐(0)
摘要:
通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程,客户端连接上服务器以后就向服务器发送消息,服务器接收到消息后向客户端返回消息,客户端接收到消息以后,等待随机的时间,再向服务端发送消息,这样一直循环下去。 项目结构: NettyServer.java: ServerPipeline
阅读全文
posted @ 2017-05-01 12:36
MSTK
阅读(770)
推荐(0)
摘要:
Netty是由JBOSS提供的一个java开源框架,本质上也是NIO,是对NIO的封装,比NIO更加高级,功能更加强大。可以说发展的路线是IO->NIO->Netty。 ServerBootstrap和ClientBootstrap是Netty中两个比较重要的类,分别用来进行服务器和客户端的初始化。
阅读全文
posted @ 2017-04-30 21:36
MSTK
阅读(663)
推荐(0)
摘要:
Java NIO (New IO)是Java 1.4版本开始引入的新的IO API。和IO的区别在于NIO是一个异步、非阻塞的IO,可以用一个线程管理多个连接。比如1个服务器,5个客户端,如果用IO,在服务器上就需要5个线程,而使用NIO的话,只需要1个线程就可以同时管理5个连接,节约了资源。 NI
阅读全文
posted @ 2017-04-26 22:09
MSTK
阅读(207)
推荐(0)
摘要:
Channel注册到Selector时添加了一个Object: 后来取这个Object: 出现空指针错误: 很奇怪,后来发现第一次注册时添加了Object,后来注册时没有添加,导致了空指针错误: 每次注册都添加Object,就不会有这个错误了:
阅读全文
posted @ 2017-04-26 21:00
MSTK
阅读(1677)
推荐(0)
摘要:
NIO项目中出现了这个错误: 一般是因为InetSocketAddress的主机名、端口号写错,或者要连接的服务器没有启动造成的。
阅读全文
posted @ 2017-04-26 20:34
MSTK
阅读(21445)
推荐(0)
摘要:
在Eclipse下新建一个Map/Reduce项目,并将以下jar添加到Build path: 程序代码: 以上程序调用HBAse的API,实现了新建一张表,并随机向表里插入数据。
阅读全文
posted @ 2017-04-16 16:42
MSTK
阅读(2481)
推荐(0)
摘要:
集群共三台CentOS虚拟机,一个Matser,主机名为master;三个Worker,主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。 1. 在master上下载Scala-2.11.0.tgz,复制到/opt/下面,解压,在/
阅读全文
posted @ 2017-04-11 17:18
MSTK
阅读(2619)
推荐(0)
摘要:
Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。 比较重要的几个类: (1)Configuration:HDFS的配置信息; (2)FileSystem: HDFS文件系统; (3)Path: HDFS文件或目录的路径; (4)FileSta
阅读全文
posted @ 2017-04-08 16:23
MSTK
阅读(577)
推荐(0)
摘要:
Eclipse调用HDFS API上传文件时出现了如下错误: 解决的办法是把Hadoop集群的hdfs-site.xml和core-site.xml两个配置文件复制到项目的bin目录下面,就可以正常运行了。
阅读全文
posted @ 2017-04-08 16:09
MSTK
阅读(3060)
推荐(0)
摘要:
使用Sqoop远程连接MySQL导入数据到HBase数据库: 出现了拒绝连接的错误: 把主机名换成IP地址就正常了。
阅读全文
posted @ 2017-04-05 23:37
MSTK
阅读(4313)
推荐(1)
摘要:
基本思路就是为mysql.user表增加一条记录:'hadoop'@'%',这样,任何主机上的用户'hadoop'都可以远程连接MySQL数据库。于是输入下面的命令: 结果出现了错误: 这是因为指定了严格模式,不能直接往mysql.user表里面insert用户: 只能输入下面两个命令来实现: 这样
阅读全文
posted @ 2017-04-05 23:24
MSTK
阅读(383)
推荐(0)
摘要:
Windows下面调试程序比在Linux下面调试方便一些,于是用Windows下的Eclipse远程连接Hadoop。 1. 下载相应版本的hadoop-eclipse-plugin插件,复制到eclipse的plugins目录下面,再次启动Eclipse。 2. 解压hadoop的.tar.gz文
阅读全文
posted @ 2017-04-05 11:07
MSTK
阅读(4192)
推荐(0)
摘要:
HDFS本身并没有提供用户名、组等的创建和管理,在客户端操作Hadoop时,Hadoop自动识别执行命令所在的进程的用户名和用户组,然后检查是否具有权限。启动Hadoop的用户即为超级用户,可以进行所有操作。 由于想在Windows 7的Eclipse里面操作Hadoop,Windows 7的用户是
阅读全文
posted @ 2017-04-03 14:56
MSTK
阅读(9509)
推荐(0)
摘要:
Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包,也可以使用源代码安装。这里介绍用二进制包安装。 1. 下载apache-nutch-1.12-bin.tar.gz,并且解压,解压后会形成一个apache-nutch-1.12文件夹; 2. 编辑conf/nutch-site
阅读全文
posted @ 2017-03-28 18:36
MSTK
阅读(1404)
推荐(0)
摘要:
最近重新格式化NameNode以后,发现几个DataNode都不能启动了。 这是因为dfs.name.dir路径下面有一个current/VERSION文件,里面有一个clusterID,重新格式化以后,clusterID和以前的不一样了,需要把新的clusterID复制到所有DataNode的df
阅读全文
posted @ 2017-03-26 14:33
MSTK
阅读(1280)
推荐(0)
摘要:
运行Pig时出现错误: 这是因为没有启动jobhistoryserver,在mapred-site.xml中增加设置: 然后再启动jobhistoryserver: 以上命令需要在${HADOOP_HOME}/sbin/下执行。
阅读全文
posted @ 2017-03-25 17:16
MSTK
阅读(1023)
推荐(0)
摘要:
运行Pig时出现这个错误: 解决的办法是把${HADOOP_HOME}/share/hadoop/yarn/lib下的jline-2.1.1.jar删除掉,再重启Hadoop就可以了。
阅读全文
posted @ 2017-03-25 17:07
MSTK
阅读(392)
推荐(0)
摘要:
Hive Web Interface,简称hwi,是Hive的Web接口。 首先,安装ant,下载ant,解压,并在/etc/profile中设置: 然后 修改${HIVE_HOME}/conf/hive-site.xml文件,加上下面几个设置: 但是,${HIVE_HOME}/lib下默认是没有那
阅读全文
posted @ 2017-03-18 16:16
MSTK
阅读(465)
推荐(0)
摘要:
在Hive里创建表时出现了错误: 解决的办法是把数据库的Character Set改成latin1:
阅读全文
posted @ 2017-03-18 14:41
MSTK
阅读(361)
推荐(0)
摘要:
运行Hadoop时出现了: 导致运行失败。仔细分析后发现,这是因为以前192.168.1.201的主机名为master,后来把192.168.1.202改名为master,由于两台主机的公钥不一样,所以提示DNS欺骗(网络中有主机冒充master),或者master的IP地址和公钥同时改变了。 解决
阅读全文
posted @ 2017-03-14 15:34
MSTK
阅读(2101)
推荐(0)
摘要:
SSH是一种协议,实现计算机之间的加密登录,即使被截获,截获的也只是加密后的密文,不会泄密。 如果每次登录另外一台计算机,都需要输入密码,就显得太麻烦,所以SSH协议实现了无密码登录,即公钥登录。所谓公钥登录,就是用户先把自己的公钥发给远程主机存储起来,登录时,远程主机向登录主机发送一个随机的字符串
阅读全文
posted @ 2017-03-14 15:20
MSTK
阅读(803)
推荐(0)
摘要:
1. 安装 安装前先关闭iptables和SELinux。 Centos输入以下命令: Ubuntu输入以下命令: 2. 设置 创建一个文件夹: 编辑/etc/samba/smb.conf文件: 3. 运行 CentOS下运行: Ubuntu下运行: 4. Windows7访问Samba 因为Sam
阅读全文
posted @ 2017-03-07 16:32
MSTK
阅读(727)
推荐(0)
摘要:
复制密钥另一台主机时,出现了错误: 到被登录主机的/var/log/auth.log查看日志: 应该是/etc/ssh文件夹的权限问题,执行下面的操作更改权限: 再重新启动sshd服务,复制成功,并且可以ssh登录。
阅读全文
posted @ 2017-03-07 13:14
MSTK
阅读(890)
推荐(0)
摘要:
运行 时FAILED,查看日志: 意思是说没有内核源文件,解决的办法是运行 分别是编译器,内核,内核头文件以及Makefile,然后再重启,让系统从新的内核文件选项启动。再运行 就可以编译成功了。
阅读全文
posted @ 2017-03-05 14:48
MSTK
阅读(1175)
推荐(0)
摘要:
Hive是Hadoop的常用工具之一,Hive查询语言(HiveQL)的语法和SQL类似,基本实现了SQL-92标准。 1. 表的建立 编写以下的文件: 保存为test.hql,该文件指定了表的结构和分隔符。Hive的数据类型除了INT、STRING、FLOAT等基本类型以外,还有三种复杂数据类型:
阅读全文
posted @ 2017-02-28 18:17
MSTK
阅读(4006)
推荐(0)
摘要:
采用伪分布模式安装和设置CDH,前提是已经安装了Java和SSH。 1. 下载hadoop-2.6.0-cdh5.9.0,复制到/opt/下,再解压; 2. 进入/opt/hadoop-2.6.0-cdh5.9.0/etc/hadoop/,在hadoop-env.sh中添加: 修改配置文件core-
阅读全文
posted @ 2017-02-16 20:05
MSTK
阅读(2435)
推荐(0)