MSTK - 博客园

2017年5月18日

摘要： 1. 首先安装Scala插件，File->Settings->Plugins，搜索出Scla插件，点击Install安装； 2. File->New Project->maven，新建一个Maven项目，填写GroupId和ArtifactId； 3. 编辑pom.xml文件，添加项目所需要的依赖：阅读全文

posted @ 2017-05-18 19:12 MSTK 阅读(10652) 评论(0) 推荐(1)

2017年5月16日

Container [pid=6263,containerID=container_1494900155967_0001_02_000001] is running beyond virtual memory limits

摘要：以Spark-Client模式运行，Spark-Submit时出现了下面的错误：意思是说Container要用2.2GB的内存，而虚拟内存只有2.1GB，不够用了，所以Kill了Container。我的SPARK-EXECUTOR-MEMORY设置的是1G，即物理内存是1G，Yarn默认的虚拟内阅读全文

posted @ 2017-05-16 10:18 MSTK 阅读(3133) 评论(0) 推荐(1)

2017年5月15日

Spark的运行模式(2)--Yarn-Cluster和Yarn-Client

摘要： 3. Yarn-Cluster Yarn是一种统一资源管理机制，可以在上面运行多种计算框架。Spark on Yarn模式分为两种：Yarn-Cluster和Yarn-Client，前者Driver运行在Worker节点，后者Driver运行在Client节点上。采用Spark on Yarn模式，阅读全文

posted @ 2017-05-15 17:14 MSTK 阅读(5553) 评论(0) 推荐(0)

Spark的运行模式(1)--Local和Standalone

摘要： Spark一共有5种运行模式：Local，Standalone，Yarn-Cluster，Yarn-Client和Mesos。 1. Local Local模式即单机模式，如果在命令语句中不加任何配置，则默认是Local模式，在本地运行。这也是部署、设置最简单的一种模式 2. Standalone 阅读全文

posted @ 2017-05-15 15:25 MSTK 阅读(5277) 评论(2) 推荐(0)

2017年5月1日

Java Netty (2)

摘要：通过一个实例来说明Netty的使用。用1个服务器连接5个客户端线程，客户端连接上服务器以后就向服务器发送消息，服务器接收到消息后向客户端返回消息，客户端接收到消息以后，等待随机的时间，再向服务端发送消息，这样一直循环下去。项目结构： NettyServer.java: ServerPipeline 阅读全文

posted @ 2017-05-01 12:36 MSTK 阅读(770) 评论(0) 推荐(0)

2017年4月30日

Java Netty (1)

摘要： Netty是由JBOSS提供的一个java开源框架，本质上也是NIO，是对NIO的封装，比NIO更加高级，功能更加强大。可以说发展的路线是IO->NIO->Netty。 ServerBootstrap和ClientBootstrap是Netty中两个比较重要的类，分别用来进行服务器和客户端的初始化。阅读全文

posted @ 2017-04-30 21:36 MSTK 阅读(663) 评论(0) 推荐(0)

2017年4月26日

Java NIO

摘要： Java NIO (New IO)是Java 1.4版本开始引入的新的IO API。和IO的区别在于NIO是一个异步、非阻塞的IO，可以用一个线程管理多个连接。比如1个服务器，5个客户端，如果用IO，在服务器上就需要5个线程，而使用NIO的话，只需要1个线程就可以同时管理5个连接，节约了资源。 NI 阅读全文

posted @ 2017-04-26 22:09 MSTK 阅读(207) 评论(0) 推荐(0)

NIO SelectionKey attachment()空指针错误

摘要： Channel注册到Selector时添加了一个Object：后来取这个Object：出现空指针错误：很奇怪，后来发现第一次注册时添加了Object，后来注册时没有添加，导致了空指针错误：每次注册都添加Object，就不会有这个错误了：阅读全文

posted @ 2017-04-26 21:00 MSTK 阅读(1677) 评论(0) 推荐(0)

java.net.ConnectException: Connection refused: no further information

摘要： NIO项目中出现了这个错误：一般是因为InetSocketAddress的主机名、端口号写错，或者要连接的服务器没有启动造成的。阅读全文

posted @ 2017-04-26 20:34 MSTK 阅读(21445) 评论(0) 推荐(0)

2017年4月16日

Eclipse远程连接HBase

摘要：在Eclipse下新建一个Map/Reduce项目，并将以下jar添加到Build path：程序代码：以上程序调用HBAse的API，实现了新建一张表，并随机向表里插入数据。阅读全文

posted @ 2017-04-16 16:42 MSTK 阅读(2481) 评论(0) 推荐(0)

2017年4月11日

Spark分布式集群的搭建和运行

摘要：集群共三台CentOS虚拟机，一个Matser，主机名为master；三个Worker，主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。 1. 在master上下载Scala-2.11.0.tgz，复制到/opt/下面，解压，在/ 阅读全文

posted @ 2017-04-11 17:18 MSTK 阅读(2619) 评论(0) 推荐(0)

2017年4月8日

HDFS API

摘要： Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类： (1)Configuration：HDFS的配置信息； (2)FileSystem: HDFS文件系统； (3)Path: HDFS文件或目录的路径； (4)FileSta 阅读全文

posted @ 2017-04-08 16:23 MSTK 阅读(577) 评论(0) 推荐(0)

Wrong FS: hdfs://xxx/xxx expected: file:///

摘要： Eclipse调用HDFS API上传文件时出现了如下错误：解决的办法是把Hadoop集群的hdfs-site.xml和core-site.xml两个配置文件复制到项目的bin目录下面，就可以正常运行了。阅读全文

posted @ 2017-04-08 16:09 MSTK 阅读(3060) 评论(0) 推荐(0)

2017年4月5日

Sqoop拒绝连接错误

摘要：使用Sqoop远程连接MySQL导入数据到HBase数据库：出现了拒绝连接的错误：把主机名换成IP地址就正常了。阅读全文

posted @ 2017-04-05 23:37 MSTK 阅读(4313) 评论(0) 推荐(1)

MySQL设置远程连接

摘要：基本思路就是为mysql.user表增加一条记录：'hadoop'@'%'，这样，任何主机上的用户'hadoop'都可以远程连接MySQL数据库。于是输入下面的命令：结果出现了错误：这是因为指定了严格模式，不能直接往mysql.user表里面insert用户：只能输入下面两个命令来实现：这样阅读全文

posted @ 2017-04-05 23:24 MSTK 阅读(383) 评论(0) 推荐(0)

Eclipse远程连接Hadoop

摘要： Windows下面调试程序比在Linux下面调试方便一些，于是用Windows下的Eclipse远程连接Hadoop。 1. 下载相应版本的hadoop-eclipse-plugin插件，复制到eclipse的plugins目录下面，再次启动Eclipse。 2. 解压hadoop的.tar.gz文阅读全文

posted @ 2017-04-05 11:07 MSTK 阅读(4192) 评论(0) 推荐(0)

2017年4月3日

Hadoop创建新用户

摘要： HDFS本身并没有提供用户名、组等的创建和管理，在客户端操作Hadoop时，Hadoop自动识别执行命令所在的进程的用户名和用户组，然后检查是否具有权限。启动Hadoop的用户即为超级用户，可以进行所有操作。由于想在Windows 7的Eclipse里面操作Hadoop，Windows 7的用户是阅读全文

posted @ 2017-04-03 14:56 MSTK 阅读(9509) 评论(0) 推荐(0)

2017年3月28日

Nutch的安装和配置

摘要： Nutch是一个Java实现的网络爬虫。Nutch的安装可以使用二进制包，也可以使用源代码安装。这里介绍用二进制包安装。 1. 下载apache-nutch-1.12-bin.tar.gz，并且解压，解压后会形成一个apache-nutch-1.12文件夹； 2. 编辑conf/nutch-site 阅读全文

posted @ 2017-03-28 18:36 MSTK 阅读(1404) 评论(0) 推荐(0)

2017年3月26日

NameNode重新格式化以后DataNode不能启动

摘要：最近重新格式化NameNode以后，发现几个DataNode都不能启动了。这是因为dfs.name.dir路径下面有一个current/VERSION文件，里面有一个clusterID，重新格式化以后，clusterID和以前的不一样了，需要把新的clusterID复制到所有DataNode的df 阅读全文

posted @ 2017-03-26 14:33 MSTK 阅读(1280) 评论(0) 推荐(0)

2017年3月25日

Pig拒绝连接错误

摘要：运行Pig时出现错误：这是因为没有启动jobhistoryserver，在mapred-site.xml中增加设置：然后再启动jobhistoryserver：以上命令需要在${HADOOP_HOME}/sbin/下执行。阅读全文

posted @ 2017-03-25 17:16 MSTK 阅读(1023) 评论(0) 推荐(0)

Pig jline.Terminal错误

摘要：运行Pig时出现这个错误：解决的办法是把${HADOOP_HOME}/share/hadoop/yarn/lib下的jline-2.1.1.jar删除掉，再重启Hadoop就可以了。阅读全文

posted @ 2017-03-25 17:07 MSTK 阅读(392) 评论(0) 推荐(0)

2017年3月18日

Hive Web Interface的安装

摘要： Hive Web Interface，简称hwi，是Hive的Web接口。首先，安装ant，下载ant，解压，并在/etc/profile中设置：然后修改${HIVE_HOME}/conf/hive-site.xml文件，加上下面几个设置：但是，${HIVE_HOME}/lib下默认是没有那阅读全文

posted @ 2017-03-18 16:16 MSTK 阅读(465) 评论(0) 推荐(0)

Specified key was too long; max key length is 767 bytes

摘要：在Hive里创建表时出现了错误：解决的办法是把数据库的Character Set改成latin1：阅读全文

posted @ 2017-03-18 14:41 MSTK 阅读(361) 评论(0) 推荐(0)

2017年3月14日

The ECDSA host key for XXX has changed

摘要：运行Hadoop时出现了：导致运行失败。仔细分析后发现，这是因为以前192.168.1.201的主机名为master，后来把192.168.1.202改名为master，由于两台主机的公钥不一样，所以提示DNS欺骗(网络中有主机冒充master)，或者master的IP地址和公钥同时改变了。解决阅读全文

posted @ 2017-03-14 15:34 MSTK 阅读(2101) 评论(0) 推荐(0)

SSH协议

摘要： SSH是一种协议，实现计算机之间的加密登录，即使被截获，截获的也只是加密后的密文，不会泄密。如果每次登录另外一台计算机，都需要输入密码，就显得太麻烦，所以SSH协议实现了无密码登录，即公钥登录。所谓公钥登录，就是用户先把自己的公钥发给远程主机存储起来，登录时，远程主机向登录主机发送一个随机的字符串阅读全文

posted @ 2017-03-14 15:20 MSTK 阅读(803) 评论(0) 推荐(0)

2017年3月7日

Linux安装和设置Samba服务器

摘要： 1. 安装安装前先关闭iptables和SELinux。 Centos输入以下命令： Ubuntu输入以下命令： 2. 设置创建一个文件夹：编辑/etc/samba/smb.conf文件： 3. 运行 CentOS下运行： Ubuntu下运行： 4. Windows7访问Samba 因为Sam 阅读全文

posted @ 2017-03-07 16:32 MSTK 阅读(727) 评论(0) 推荐(0)

Read from socket failed: Connection reset by peer.

摘要：复制密钥另一台主机时，出现了错误：到被登录主机的/var/log/auth.log查看日志：应该是/etc/ssh文件夹的权限问题，执行下面的操作更改权限：再重新启动sshd服务，复制成功，并且可以ssh登录。阅读全文

posted @ 2017-03-07 13:14 MSTK 阅读(890) 评论(0) 推荐(0)

2017年3月5日

unable to find the sources of your current Linux kernel.

摘要：运行时FAILED，查看日志：意思是说没有内核源文件，解决的办法是运行分别是编译器，内核，内核头文件以及Makefile，然后再重启，让系统从新的内核文件选项启动。再运行就可以编译成功了。阅读全文

posted @ 2017-03-05 14:48 MSTK 阅读(1175) 评论(0) 推荐(0)

2017年2月28日

Hive表的建立和导入导出数据

摘要： Hive是Hadoop的常用工具之一，Hive查询语言(HiveQL)的语法和SQL类似，基本实现了SQL-92标准。 1. 表的建立编写以下的文件：保存为test.hql，该文件指定了表的结构和分隔符。Hive的数据类型除了INT、STRING、FLOAT等基本类型以外，还有三种复杂数据类型：阅读全文

posted @ 2017-02-28 18:17 MSTK 阅读(4006) 评论(0) 推荐(0)

2017年2月16日

CDH的安装和设置

摘要：采用伪分布模式安装和设置CDH，前提是已经安装了Java和SSH。 1. 下载hadoop-2.6.0-cdh5.9.0，复制到/opt/下，再解压； 2. 进入/opt/hadoop-2.6.0-cdh5.9.0/etc/hadoop/，在hadoop-env.sh中添加：修改配置文件core- 阅读全文

posted @ 2017-02-16 20:05 MSTK 阅读(2435) 评论(0) 推荐(0)

代码空间

Computer Vision/Machine Learning/Evolutionary Computation...

公告