2015年6月30日

摘要: 在安装Cloudera CDH的时候,是要求安装配置NTP服务器来实现不同主机之间的时间同步问题。下面详细的介绍一下NTP的安装过程。一、服务器端的配置1、首先安装ntp服务器,安装的方式有很多,可以选择rpm,tar也可以选择yum在线安装。那么在这里我选择的是在线安装 执行 yum insta... 阅读全文
posted @ 2015-06-30 12:39 ljy2013 阅读(502) 评论(0) 推荐(0) 编辑
 

2015年6月24日

摘要: 1、改客户端字符集:通过WINDOWS的运行菜单运行Regedit,修改注册表Start -> Run -> Rededit HKEY_LOCAL_MACHINE -> SOFTWARE ->ORACLE->KEY_XE->RIGHT WINDOW DOUBLE CLICK NLS_LANG ->... 阅读全文
posted @ 2015-06-24 15:25 ljy2013 阅读(9651) 评论(0) 推荐(0) 编辑
 
摘要: 我们知道在linux下安装软件的方法有多种多样,其中利用yum的方式来安装较为简单,但需要等待的时间比较长。下面介绍一下如何更新yum的源的问题。首先需要保证的是linux的机器能上网。然后按照下面的步骤进行即可。进入yum配置文件目录:cd /etc/yum.repos.d/备份配置文件:mv C... 阅读全文
posted @ 2015-06-24 11:30 ljy2013 阅读(524) 评论(0) 推荐(0) 编辑
 

2015年6月11日

摘要: 由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。下面介绍一下Spark源码编译的详细步骤:1、Spark的编译方式:编译的方式可以参考官网:https://spark.apache.org/docs/latest/building-... 阅读全文
posted @ 2015-06-11 11:56 ljy2013 阅读(1058) 评论(0) 推荐(0) 编辑
 

2015年5月19日

摘要: 目前针对apache hadoop更新的版本较多,由此而产生了两个方面的问题: 1、如何查看运行的集群当中的hadoop的版本的问题。 2、如何查看运行集群当中的hadoop的位数下面详细的介绍一下1、查看版本信息 通过在集群上执行:hadoop version 命令可以查看对应的hadoop... 阅读全文
posted @ 2015-05-19 15:24 ljy2013 阅读(32192) 评论(0) 推荐(1) 编辑
 

2015年5月18日

摘要: 我们知道hadoop1.x之前的namenode存在两个主要的问题:1、namenode内存瓶颈的问题,2、namenode的单点故障的问题。针对这两个问题,hadoop2.x都对它进行改进和解决。其中,问题1中对namenode内存瓶颈的问题采用扩展namenode的方式来解决。对于问题2中的... 阅读全文
posted @ 2015-05-18 18:59 ljy2013 阅读(3531) 评论(0) 推荐(0) 编辑
 

2015年5月17日

摘要: 最近为了解决HDFS的单点故障的问题,采用了HA的方式是实现,并通过zookeeper来实现自动切换,既然需自动切换的话,那么必须要安装zookeeper,我选用的版本是3.4.6。下面详细介绍一下其安装过程。 再讲具体的步骤之前,需要说明的是,我安装zookeeper的集群是用到了五个节点:... 阅读全文
posted @ 2015-05-17 17:52 ljy2013 阅读(4354) 评论(3) 推荐(1) 编辑
 

2015年5月14日

摘要: 1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论... 阅读全文
posted @ 2015-05-14 09:44 ljy2013 阅读(7235) 评论(0) 推荐(4) 编辑
 

2015年5月13日

摘要: hadoop启动jobhistoryserver来实现web查看作业的历史运行情况,由于在启动hdfs和Yarn进程之后,jobhistoryserver进程并没有启动,需要手动启动,启动的方法是通过:mr-jobhistory-daemon.sh start historyserver 命令还... 阅读全文
posted @ 2015-05-13 17:46 ljy2013 阅读(9721) 评论(0) 推荐(1) 编辑
 
摘要: 一、编译的必要性 由于hadoop的生态系统中的各个组建之间的兼容性的问题,因此导致将各个组件组合在一起的时候,会存在一个兼容性的问题,这也是apache hadoop生态系统给开发者带来的一个问题,因此,一些商业公司对这些版本和一些组件进行了包装和打包,将一些必备的组件整合在一起 ,避免了开发者... 阅读全文
posted @ 2015-05-13 09:44 ljy2013 阅读(524) 评论(0) 推荐(0) 编辑
 

2015年5月8日

摘要: 最近想实协同过滤的MR算法,但是网上查了一下,发现hadoop的生态系统中的Mahout的项目已经实现了相应的算法,因此想先尝试着实时这个mahout的使用及效果。要想用mahout必须要部署到hadoop上咯。1、下载mahout的版本,并解压缩到本地通过http://mahout.apache.... 阅读全文
posted @ 2015-05-08 14:20 ljy2013 阅读(795) 评论(0) 推荐(0) 编辑
 

2015年5月7日

摘要: 当我们将作业提交到hadoop 的集群上之后,我们会发现一个问题就是无法通过web查看job运行情况,比如启动了多少个map任务,启动多少个reduce任务啊,分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况,... 阅读全文
posted @ 2015-05-07 20:26 ljy2013 阅读(6171) 评论(0) 推荐(0) 编辑
 
摘要: 在hadoop的源码中,基类Mapper类和Reducer类中都是只包含四个方法:setup方法,cleanup方法,run方法,map方法。如下所示:其方法的调用方式是在run方法中,如下所示: 可以看出,在run方法中调用了上面的三个方法:setup方法,map方法,cleanup方法。其... 阅读全文
posted @ 2015-05-07 11:09 ljy2013 阅读(3224) 评论(0) 推荐(0) 编辑
 

2015年5月6日

摘要: 由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手。于是自己编写了TopK的代码。TopK的意思就是从原文件中找出词频排名前K的所有单词。首先分析该问题,从中我们可以得到启发:要想知道词频排名前K的所有... 阅读全文
posted @ 2015-05-06 20:42 ljy2013 阅读(1809) 评论(0) 推荐(1) 编辑
 

2015年4月30日

摘要: 由于之前搭建起了一个集群,然后直接将相应的配置文件复制过来 , 发现出现了 Warn:name or service not known的问题,导致无法启动datanode。解决的办法就是将salves文件删除,并重新创建一个salves文件即可。 阅读全文
posted @ 2015-04-30 20:49 ljy2013 阅读(1451) 评论(0) 推荐(0) 编辑
 

2015年4月28日

摘要: 由于越来越多的人开始使用spark计算框架了,而且spark计算框架也是可以运行在yarn的平台上,因此可以利用单个集群,运行多个计算框架。这是一些大公司都是这么干的。好了,下面讲一下spark1.3.1是如何安装到集群上去的。 1、由于spark的计算框架依赖于scala,因此在安装spar... 阅读全文
posted @ 2015-04-28 19:45 ljy2013 阅读(1781) 评论(0) 推荐(0) 编辑
 

2015年4月27日

摘要: 一、获取hadoop的源码 首先通过官网下载hadoop-2.5.2-src.tar.gz的软件包,下载好之后解压发现出现了一些错误,无法解压缩, 因此有部分源码我们无法解压 ,因此在这里我讲述一下如何通过maven来获取完整的源码:需要说明的是,在使用maven的时候,需要先安装jdk,prot... 阅读全文
posted @ 2015-04-27 20:46 ljy2013 阅读(926) 评论(0) 推荐(0) 编辑
 

2015年4月4日

摘要: 虚拟机无法上网,由于之前安装过虚拟机,后来将它卸载了,然后重新安装,最后出现了虚拟机无法上网。刚开始以为是系统的原因,于是就通过linux命令查看系统里面的网卡时是否启动,如:/etc/init.d/network status 查看网刊启动状况,重启网卡:service network res... 阅读全文
posted @ 2015-04-04 11:37 ljy2013 阅读(1016) 评论(0) 推荐(0) 编辑
 

2015年3月17日

摘要: systemctl start firewalld.service#启动firewallsystemctl stop firewalld.service#停止firewallsystemctl disable firewalld.service#禁止firewall开机启动systemctl sta... 阅读全文
posted @ 2015-03-17 17:25 ljy2013 阅读(282) 评论(0) 推荐(0) 编辑
 
摘要: CentOS 7.0系统是一个很新的版本哦,很多朋友都不知道CentOS 7.0系统是怎么去安装配置的哦,因为centos7.0与以前版本是有很大的改进哦。说明:截止目前CentOS 7.x最新版本为CentOS 7.0,下面介绍CentOS 7.0的具体安装配置过程今天安装好之后我才知道cento... 阅读全文
posted @ 2015-03-17 16:45 ljy2013 阅读(901) 评论(0) 推荐(0) 编辑
 

2015年3月10日

摘要: 1、 deb 是 ubuntu 、debian 的格式。 rpm 是 redhat 、fedora 、suse 的格式。 他们不通用(虽然可以转换一下)。 deb是debian发行版的软件包 ubuntu是基于debian 发行的 所有可以用 .deb是solari... 阅读全文
posted @ 2015-03-10 20:19 ljy2013 阅读(1587) 评论(0) 推荐(0) 编辑
 

2015年2月17日

摘要: 1、设置任务调度命令crontab 任务调度是指系统在某个时间执行的特定的命令或程序。任务调度分为:1)系统工作:有些重要的工作必须周而复始的执行,如病毒扫描。2)个别用户工作:个别用户可能希望执行某些程序。 (1)设置任务调度文件:/etc/crontab 1)首先设置个人任务调度。执 行cron... 阅读全文
posted @ 2015-02-17 15:36 ljy2013 阅读(285) 评论(0) 推荐(0) 编辑
 
摘要: 1、linux下的shell《linux命令、编辑器和shell编程》 (1)shell种类有很多,常用的有三种,在linux可以通过ls -l /bin/*sh 来显示所有已安装的shell种类 1)bourne /bin/sh 2)C /bin/csh 3)Kom /bin/ksh (2)查看... 阅读全文
posted @ 2015-02-17 15:33 ljy2013 阅读(680) 评论(0) 推荐(0) 编辑
 
摘要: 一、java ee开发环境的搭建 1、jdk的安装步骤 (1)首先必须要有安装文件,具体的可以去相关网站上下载,并制作iso文件 (2)将制作的iso文件挂载到linux系统上,并在虚拟机上将iso文件路径设置好。 (3)mount /mnt/cdrom/ 挂载命令 umount /mnt/cdro... 阅读全文
posted @ 2015-02-17 15:31 ljy2013 阅读(591) 评论(0) 推荐(0) 编辑
 
摘要: linux第一次接触关机命令:(需要用root用户登录) shutdown -h now //立刻关机 shuwdown -r now //现在重新启动计算机 reboot //现在重新启动计算机用户登录: 'su-'命令来切换用户。用户注销: logout注销用户。进入图形界面的命令:startx... 阅读全文
posted @ 2015-02-17 15:29 ljy2013 阅读(205) 评论(0) 推荐(0) 编辑
 

2015年2月6日

摘要: INFO ipc.Client: Retrying connect to server: hadoop/192.168.73.100:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(... 阅读全文
posted @ 2015-02-06 19:40 ljy2013 阅读(4391) 评论(0) 推荐(0) 编辑
 

2015年2月2日

摘要: 首先一般是自我介绍。然后再是问问题。1、第一题是根据自己的简历上写的加权KNN算法,问到了KNN算法的缺点,于是就把各类算法的优缺点整理了一下。2、朴素贝叶斯的假设前提是什么?条件独立性3、准确率和召回率的使用条件和计算方式,即什么情况下正确率指标不适用?4、图像自动识别的实际问题。1决策树(Dec... 阅读全文
posted @ 2015-02-02 16:49 ljy2013 阅读(894) 评论(0) 推荐(0) 编辑
 

2014年11月27日

摘要: 有些用户可能已经注意到,我们在上网时除了可使用常规的http://www.xxx.com或http://www.xxx.com.cn等形式的网站域名之外,还可以使用类似于“202.106.184.200”形式的IP地址来进行访问,这是怎么回事呢?两种形式之间有何联系与区别呢?原来,Interne... 阅读全文
posted @ 2014-11-27 09:37 ljy2013 阅读(237) 评论(0) 推荐(0) 编辑
 
摘要: host文件,路径为:C:\windows\system32\drivers\etc\hosts方法/步骤:方法1:用notepad++打开host文件,修改和保存方法2:(1)首先用管理管权限打开DOS程序.win8下同时按住winkey+x键,然后点中菜单中的“命令提示符(管理员)”,打开DOS... 阅读全文
posted @ 2014-11-27 09:16 ljy2013 阅读(212) 评论(0) 推荐(0) 编辑
 

2014年11月14日

摘要: 1简介GCC 的意思也只是 GNU C Compiler 而已。经过了这么多年的发展,GCC 已经不仅仅能支持 C 语言;它现在还支持 Ada 语言、C++ 语言、Java 语言、Objective C 语言、Pascal 语言、COBOL语言,以及支持函数式编程和逻辑编程的 Mercury 语言,... 阅读全文
posted @ 2014-11-14 22:48 ljy2013 阅读(823) 评论(0) 推荐(0) 编辑
 

2014年11月7日

摘要: 假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件... 阅读全文
posted @ 2014-11-07 21:47 ljy2013 阅读(882) 评论(0) 推荐(0) 编辑
 

2014年10月17日

摘要: 转自http://blog.csdn.net/young0325/article/details/6430664Peekmessage和Getmessage都是向系统的消息队列中取得消息,不过性质不同。若第一次向消息队列中取不到消息,则程序的主线程会被OS(操作系统)挂起;等到OS重新调度到该线程时... 阅读全文
posted @ 2014-10-17 20:45 ljy2013 阅读(469) 评论(0) 推荐(0) 编辑
 

2014年10月1日

摘要: 我们知道快递排序大部分的版本都是递归的方式来实现的:通过Pritation来实现划分,并递归实现前后的划分。由于同学上次百度二面面试官问起快速排序的非递归的实现方式,当时同学不会,因为我们大部分看到的都是递归方式来实现快速排序。并没有关注非递归的方式。但是仔细想想也是可以做的,因为递归的本质是栈,因... 阅读全文
posted @ 2014-10-01 17:32 ljy2013 阅读(21968) 评论(4) 推荐(1) 编辑
 

2014年7月4日

摘要: ///////////////////头文件:BST.h////////////////////////#ifndef BST_H#define BST_H#include "StdAfx.h"#include#includetemplateclass BST{public: class No... 阅读全文
posted @ 2014-07-04 20:38 ljy2013 阅读(931) 评论(0) 推荐(0) 编辑
 
摘要: 1 // ALLKindsOfSorts.cpp : 定义控制台应用程序的入口点。 2 // 3 4 #include "stdafx.h" 5 #include 6 #include 7 #include 8 9 using namespace std; 10 11 ////////////////////////////////////////所... 阅读全文
posted @ 2014-07-04 20:19 ljy2013 阅读(393) 评论(0) 推荐(0) 编辑
 
摘要: 稳定的排序:1、冒泡排序: 工作原理:依次相邻元素进行比较,将小数放在前面,大数放在后面,每一次扫描是将最大的数放在最右边,每次扫描完之后,下次扫描的个数减一,知道所有的数都放好位置。即第一次扫描:比较第一个数和第二个数,判断大小,小数在前,大数在后,接着比较第二个数和第三个数,依次比较,知道最后... 阅读全文
posted @ 2014-07-04 20:16 ljy2013 阅读(358) 评论(0) 推荐(0) 编辑
 

2014年7月1日

摘要: 注意:在计算加法时,实在32位的累加器上进行,并注意类型之间的转换,数据的截取问题一般寄存器:AX、BX、CX、DXAX:累积暂存器,BX:基底暂存器,CX:计数暂存器,DX:资料暂存器索引暂存器:SI、DISI:来源索引暂存器,DI:目的索引暂存器堆叠、基底暂存器:SP、BPSP:堆叠指标暂存器,... 阅读全文
posted @ 2014-07-01 10:49 ljy2013 阅读(1571) 评论(0) 推荐(0) 编辑
 
摘要: 浮点型变量在计算机内存中占用4字节(Byte),即32-bit。遵循IEEE-754格式标准。一个浮点数由2部分组成:底数m 和 指数e。 ±mantissa × 2exponent(注意,公式中的mantissa 和 exponent使用二进制表示)底数部分 使用2进制数来表示此浮点数的实际值。指... 阅读全文
posted @ 2014-07-01 10:31 ljy2013 阅读(648) 评论(0) 推荐(0) 编辑
 

2014年5月27日

摘要: error LNK2001: 无法解析的外部符号这个错误一般主要原因是:只在头文件中有定义,没有在cpp文件中实现。导致这个原因一般是在添加库文件的时候,仅仅只是包含了他的头文件,因此解决办法就是也应该要包含它的实现文件,如果没有.cpp文件,那么就应该是静态文件或者动态文件。只要添加了这个基本上就... 阅读全文
posted @ 2014-05-27 22:55 ljy2013 阅读(1093) 评论(0) 推荐(0) 编辑
 

2014年2月20日

摘要: 一般可以有两种方式来实现线程间通信:1、使用全局变量2、使用自定义消息1、利用全局变量来实现线程通信通过一个例子来理解例子:设计一个以对话框为主界面的应用程序,当按下一个按钮时,启动一个从线程,该线程显示一个表示正在运行的对话框(在对话框的标题上显示一个随时间增加的数字),而当按下另一个按钮时从线程结束运行。实现:(1)用MFC创建一个基于对话框的应用程序,将ok按钮的标题修改为结束程序,将取消按钮的标题改为线程结束,在增加一个按钮,标题为线程开始。(2)在对话框的实现文件中定义一个全局变量BOOL bThreadExit=FALSE;(3)在对话框的实现文件中定义一个线程函数//定义一个线程 阅读全文
posted @ 2014-02-20 22:16 ljy2013 阅读(240) 评论(0) 推荐(0) 编辑