2015年9月26日

hadooop2.6 job pending research

摘要: https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.html我使用的是已经运行在生产环境中的一套配置文件,去除了一部分我用不到的信息。但遇到的一些问题如下,1.我的虚拟机使用双网卡,... 阅读全文

posted @ 2015-09-26 10:39 tneduts 阅读(300) 评论(0) 推荐(0) 编辑

2015年9月23日

记一次zookeeper集群搭建错误的排除

摘要: zookeeper官网上的文档说得很清楚。http://zookeeper.apache.org/doc/r3.5.1-alpha/zookeeperAdmin.html#sc_designing设置好jdk的环境变量下载并解压zookeeper.zoo.cfg配置,直接复制官网的即可,然后调整da... 阅读全文

posted @ 2015-09-23 07:45 tneduts 阅读(5368) 评论(1) 推荐(0) 编辑

2015年8月25日

Apache Drill Install and Test

摘要: Drill doc, https://drill.apache.org/docs/hive-storage-plugin/ 发现在国内访问的时候有些标签反应还是很慢,因为它访问了gooleapi的缘故吧。故连接vpn后,访问效果好了很多。 尝试Drill的原因是,在公司开发的项目一直用Hive,但在测试阶段,有些交互式查询想快些获取到结果,但是hive就是不给力,而且当前的版本不支持使用spa... 阅读全文

posted @ 2015-08-25 22:16 tneduts 阅读(830) 评论(0) 推荐(0) 编辑

2015年8月23日

Linux root 密码重置与用户管理

摘要: ---forget root password restart your linux system press 'e' when start. press 'e' again then choose kernel ..… item add space 1 or space single then press 'b' then passwd input new ... 阅读全文

posted @ 2015-08-23 08:58 tneduts 阅读(220) 评论(0) 推荐(0) 编辑

2015年8月16日

Linux command’s Array

摘要: #数组的声明与遍历 animals=("a dog" "a cat" "a fish") #wrong ways to use this for i in ${animals[*]}; do echo $i; done for i in "${animals[*]}"; do echo $i; do 阅读全文

posted @ 2015-08-16 21:54 tneduts 阅读(196) 评论(1) 推荐(0) 编辑

2015年8月15日

linux command intro2 vi

摘要: vi cusor : 0 : to the beginning of the current line $ : to the end of the current line G : to the last of the file gg : to the beginning of the file Delete: dd : delete the current line dG ... 阅读全文

posted @ 2015-08-15 22:10 tneduts 阅读(212) 评论(0) 推荐(0) 编辑

Linux Commands intro1

摘要: $((expression))echo $(2+2) :wrongecho $((2+2)) : rightecho Front-{A,B,C}-BackFront-A-Back Front-B-Back Front-C-Backecho start{1..5}end start1end start... 阅读全文

posted @ 2015-08-15 07:12 tneduts 阅读(358) 评论(0) 推荐(0) 编辑

2015年8月13日

Beeline known issues

摘要: If you use nohup myscript.sh , You beeline scripts may not work, Pay attention to this in your job. 阅读全文

posted @ 2015-08-13 09:44 tneduts 阅读(225) 评论(0) 推荐(0) 编辑

spark加载hadoop本地库的时候出现不能加载的情况要怎么解决呢?

摘要: hadoop shell运行的时候不会报这个错误,因为我已经重新在64位机上编译了源文件,并把so文件复制到hadoop的native目录下,而且环境变量也设置正确了,所以hadoop本身没有问题。 但在启动spark相关的shell时就会报这个问题。 经过查找,发现知乎上有人问了这个问题,我尝试照回答操作了,问题解决。 主要是jre目录下缺少了libhadoop.so和libsnappy.... 阅读全文

posted @ 2015-08-13 07:40 tneduts 阅读(653) 评论(0) 推荐(0) 编辑

2015年8月10日

spark Basic code demo

摘要: spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar hdfs dfs -put README.md ./ val file=sc.textFile("hdfs:///... 阅读全文

posted @ 2015-08-10 06:57 tneduts 阅读(475) 评论(2) 推荐(0) 编辑

2015年8月2日

HADOOP cluster some issue for installation

摘要: 给namenode搭建了HA,然后根据网上的配置也配置了secondary namenode, 但是一直没有从日志中看到启动secondnary namenode,当然进程也没有。 找了很多资料,按照资料配置了,执行 hdfs getconf –secondaryNameNodes Incorrect configuration: secondary namenode address df... 阅读全文

posted @ 2015-08-02 09:32 tneduts 阅读(777) 评论(0) 推荐(0) 编辑

2015年7月31日

virtualbox 在window10上的兼容性调整

摘要: 更新完windows10后,打开当时的virtualbox 4.3.3已经是最新的啦,打开原来安装的几个虚拟机(hadoop),发现均失败。 打开setting一看,网络一栏有问题,桥接模式的虚拟机都有问题,无法找到对应的网卡。 后来去官网,居然发现有了新出的5,下载安装后,问题依旧。 想到应该是兼容性的问题。 解决方案: 问题解决。 阅读全文

posted @ 2015-07-31 21:15 tneduts 阅读(3589) 评论(0) 推荐(0) 编辑

Can't initialize metastore for hive

摘要: there maybe many reason to cause this,today our issue is that, if you execute hive –database dbname –e’query’ it report error: can not initialize metastoreclient. root cause: kerbos authentication... 阅读全文

posted @ 2015-07-31 04:45 tneduts 阅读(166) 评论(1) 推荐(0) 编辑

2015年7月26日

sqoop sample code

摘要: 本文使用的数据库是mysql的sample database employees. download url:https://launchpad.net/test-db/employees-db-1/1.0.6 然后根据ReadMe安装到自己的mysql数据库中。 sqoop的安装: 下载地址:http://apache.dataguru.cn/sqoop/1.4.6/sqoop-1.4.6.bi... 阅读全文

posted @ 2015-07-26 12:04 tneduts 阅读(270) 评论(1) 推荐(0) 编辑

Start cluster zookeeper in shell script

摘要: cat start-zookeeper.sh #!bin/sh for node in namenode01 datanode01 datanode02 do echo "start zookeeper at $node" ssh $node "source .bash_profile;zkServer.sh start" do... 阅读全文

posted @ 2015-07-26 10:08 tneduts 阅读(272) 评论(0) 推荐(0) 编辑

2015年7月24日

Hive beeline update

摘要: Hive cli vs beelineThe primary difference between the two involves how the clients connect to Hive.The Hive CLI connects directly to the Hive Driver a... 阅读全文

posted @ 2015-07-24 07:27 tneduts 阅读(1104) 评论(0) 推荐(0) 编辑

2015年7月23日

beeline vs hive cli

摘要: 近期,大数据开发环境升级为cloudera 5.3. 配套的hive版本升级为0.13.1.可以使用心仪已久的分析开窗函数了。但在使用的过程中发现一些问题,仅记于此。1.在使用hive命令的时候,发现自动跳转至beeline客户端,并且提示hive cli已经过期,推荐使用beeline.然后提示你... 阅读全文

posted @ 2015-07-23 07:25 tneduts 阅读(2887) 评论(0) 推荐(0) 编辑

2015年7月21日

Hive query issue

摘要: One time, I have written a query with two tables join,One table is big table with partitions , another table is filter this big table.Then join the tw... 阅读全文

posted @ 2015-07-21 09:13 tneduts 阅读(241) 评论(2) 推荐(0) 编辑

2015年7月19日

TEZ安装试用

摘要: 下载地址:http://pan.baidu.com/s/1ZNpyI 第一次使用maven编译 tez的时候到tez ui部分报错,google后发现有人遇到类似问题是因为maven版本的问题, 当时我使用的是最新的maven3.3,我尝试换到maven3.2.5,再编译后成功。 其他步骤参考:ht 阅读全文

posted @ 2015-07-19 10:19 tneduts 阅读(1323) 评论(0) 推荐(0) 编辑

2015年7月18日

Linux 文件系统分区基础

摘要: 文件系统就是管理设备,组织文件的一些结构和算法。 /boot分区,它包含了操作系统的内核和在启动系统过程中所要用到的文件, 建这个分 区是有必要的,因为目前大多数的PC机要受到BIOS的限制,况且如果有了一个单独的/boot启 动分区,即使主要的根分区出现了问题,计算机依然能够启动。 /usr分区,是Red Hat linux系统存放软件的地方,如有可能应将最大空间分给它。 /... 阅读全文

posted @ 2015-07-18 18:11 tneduts 阅读(345) 评论(0) 推荐(0) 编辑

Centos7 搭建hadoop2.6 HA

摘要: 用户配置: User :root Password:toor 2.创建新用户 student Pwd: student 3.安装virtualbox的增强工具软件 4.系统默认安装的是openjdk 1.7.0.5 没有jps等工具可以使用。 但hadoop应该是可以在openjdk中使用的。 卸载 阅读全文

posted @ 2015-07-18 17:25 tneduts 阅读(609) 评论(1) 推荐(0) 编辑

2015年7月15日

MPP 架构数据库

摘要: Greenplum是一种基于postgresql的分布式数据库。其采用shared nothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。也就是每个节点都是一个单独的数据库。节点之间的信息交互是通过 节点互联网络实现。通过将数据分布到多个节点上来实现规模数据的存储,通过并行查询处理来提高查询性能。 这个怎么感觉就像是把小数据库组织起来,联合成一个大型数据库。将数... 阅读全文

posted @ 2015-07-15 22:49 tneduts 阅读(37356) 评论(0) 推荐(1) 编辑

2015年7月14日

Hive conf issue

摘要: Hive --hiveconf v1="test" --hiveconf v2 -e "select * from ${hiveconf:v1} where col1='${hiveconf:v2}' ";When we run this in linux, shell will parse the... 阅读全文

posted @ 2015-07-14 09:12 tneduts 阅读(300) 评论(0) 推荐(0) 编辑

2015年7月5日

kafka basic commands

摘要: kafka-server-start.sh config/server.properties & kafka-server-stop.sh kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --par... 阅读全文

posted @ 2015-07-05 10:28 tneduts 阅读(313) 评论(3) 推荐(0) 编辑

2015年7月4日

Linux NFS 介绍

摘要: 由SUN开发,用于在不同的系统之间使用,所以其设计与主机系统无关,用户想使用远程文件时,只需要mount –t nfs就可以把远程的文件拿到本地,像使用本地文件一样使用,非常方便。 它采用C/S架构,结合使用RPC 和 XDR(外部数据表示)可以使用数据在不同的计算机之间交换。 启动NFS文件服务器时,、/etc/rc.local会自动启动exportfs程序,指定可以导出的文件或目录,当然,... 阅读全文

posted @ 2015-07-04 17:35 tneduts 阅读(402) 评论(1) 推荐(0) 编辑

2015年7月2日

HADOOP namenode HA

摘要: 参考的文章:http://www.cnblogs.com/smartloli/p/4298430.html 当然,在操作的过程中,发现与上述文章中描述的还是有一些小小的区别。 配置好后,start-dfs.sh start-yarn.sh之后,相关的进程,会自动被启动。包括 namenode两个进程,zkfc,journal 等,不需要自己手动启动。 但是standby的namenode的... 阅读全文

posted @ 2015-07-02 08:18 tneduts 阅读(1518) 评论(0) 推荐(0) 编辑

2015年6月6日

OO的设计原则

摘要: 今天同事和我们一起讨论分享了OO的设计原则,讨论使人明晰,有人一起讨论学习是一件幸福的事情。 1.开闭原则 对功能的扩展是开放的,对修改是闭合的。 可以应用于类的设计,框架的设计等。 为什么?开闭原则有利于保护已有的客户端代码,让原有的代码不会因为框架的扩展修改而发生变动,减少维护的成本。 如果你设计的框架经常变动,而且每次变动使使用的人要改很多,那么没人敢用了。 ... 阅读全文

posted @ 2015-06-06 07:04 tneduts 阅读(186) 评论(0) 推荐(0) 编辑

2015年6月3日

Flume practices and sqoop hive 2 oracle

摘要: #receive the fileflume-ng agent --conf conf --conf-file conf1.conf --name a1flume-ng agent --conf conf --conf-file conf2.conf --name hdfs-agentflume-n... 阅读全文

posted @ 2015-06-03 19:43 tneduts 阅读(438) 评论(2) 推荐(0) 编辑

2015年5月21日

pycharm 4.5在debian下安装

摘要: 1.去官网下载linux下的Tar包,下载后解压。 2.直接进入解压后的folder里面找bin下面的pycharm.sh,执行后发现没有任何反应。 3.查询资料发现是因为pycharm需要sun jdk,而我的环境debian中自带的是openjdk1.6. 接下来是在debian下安装sun jdk,并设为默认选项。 step 1. download jdk in office web... 阅读全文

posted @ 2015-05-21 07:24 tneduts 阅读(1066) 评论(0) 推荐(0) 编辑

2015年5月17日

dev/shm time in linux

摘要: 统计文件夹大小: du -hx --max=1 ; du -sk ;du -hsc 重新组织行分隔符进行显示: echo "abc,dd,bach,dong,jing,shang,china,bejing" | xargs -d, -n1 echo "abc,dd,bach,dong,jing,shang,china,bejing" | xargs -d, -n2 计算... 阅读全文

posted @ 2015-05-17 11:32 tneduts 阅读(209) 评论(2) 推荐(0) 编辑

2015年5月13日

Hive2 jdbc test

摘要: package andes; import java.io.BufferedWriter;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.... 阅读全文

posted @ 2015-05-13 09:48 tneduts 阅读(535) 评论(0) 推荐(0) 编辑

hiveserver2 with kerberos authentication

摘要: Kerberos协议: Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(ticket-granting ticket)访问多个服务,即SSO(Single Sign On)。由于在每个Client和Service之间建立了共享密钥,使得该协议具有相当的安全性。 Kerberos协议分为两个... 阅读全文

posted @ 2015-05-13 08:07 tneduts 阅读(566) 评论(0) 推荐(0) 编辑

2015年5月10日

python Basic usage

摘要: __author__ = 'student' l=[] l=list('yaoxiaohua') print l print l[0:2] l=list('abc') print l*3 l.append(4) print l l.extend('de') print l print l.count('a') l.sort() print l l.reverse() print l l[0:2]=... 阅读全文

posted @ 2015-05-10 22:11 tneduts 阅读(251) 评论(0) 推荐(0) 编辑

2015年5月9日

python Quicksort demo

摘要: __author__ = 'student' ''' quicksort step 1, choose one pivot, such as pivot=la[0] step 2, scan the data from right side, find data less than pivot, then swap this with pivot pivot=1 [4] 5 7 3 20 9 ... 阅读全文

posted @ 2015-05-09 13:42 tneduts 阅读(526) 评论(0) 推荐(0) 编辑

Python HeapSort

摘要: __author__ = 'student' print 'hello world hello python' ''' heap sort root leftchild 2n+1 rightchild 2n+2 compare them and get the maxnode step by step think way one step write the perfect program i... 阅读全文

posted @ 2015-05-09 11:39 tneduts 阅读(741) 评论(0) 推荐(0) 编辑

2015年4月29日

mrunit for wordcount demo

摘要: import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; ... 阅读全文

posted @ 2015-04-29 07:39 tneduts 阅读(269) 评论(0) 推荐(0) 编辑

CCDH证书

摘要: 4月份有些冲动,想报名考个CCDH证书,一直没有找到合适的付款方式,因为自己没有外币信用卡,后来受到朋友的帮助,22号付了款,26号就去考了试,不是很满意,如果少冲动一下,多看两天书,效果会更好。 阅读全文

posted @ 2015-04-29 06:42 tneduts 阅读(607) 评论(1) 推荐(0) 编辑

2015年4月24日

Hadoop question list

摘要: 1.我们在开发普通的web app的时候,总会用到orm框架,如hibernates ,ibates等,在hadoop中我们一直使用writable对象,当然如果我们想实现自己的对象类,需要继承这个writable 对象,实现自己的某些实义,就可以使用record啦,这是一种思路。另外一种思路是使用... 阅读全文

posted @ 2015-04-24 07:53 tneduts 阅读(171) 评论(2) 推荐(0) 编辑

Hadoop Yarn core concepts

摘要: The fundamental idea of YARN is to split the two major responsibilities of the JobTracker—that is, resource management and job scheduling/monitoring—... 阅读全文

posted @ 2015-04-24 06:58 tneduts 阅读(300) 评论(0) 推荐(0) 编辑

2015年4月23日

Hadoop Resource

摘要: http://www.aiopass4sure.com/cloudera-exams/ccd-410-exam-questions/which-process-describes-the-lifecycle-of-a-mapper.htmlhttp://4hadooper.blogspot.tw/2... 阅读全文

posted @ 2015-04-23 07:48 tneduts 阅读(215) 评论(2) 推荐(0) 编辑

导航