摘要: 1、Hive2 beeline Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式 启动beeline 打开两个Shell窗口,一个启动Hive2 一个beeline连接hive2 #启动HiverServer2 , ./bin/hiveserver2 [root@node5 阅读全文
posted @ 2016-02-23 23:08 Bodi 阅读(7035) 评论(0) 推荐(0) 编辑
摘要: 1、Hive的内表 Hive 的内表,就是正常创建的表,在 http://www.cnblogs.com/raphael5200/p/5208437.html 中已经提到; 2、Hive的外表 创建Hive 的外表,需要使用关键字 External: CREATE EXTERNAL TABLE [I 阅读全文
posted @ 2016-02-23 22:40 Bodi 阅读(1863) 评论(0) 推荐(0) 编辑
摘要: DML主要是对Hive 表中的数据进行操作的(增 删 改),但是由于Hadoop的特性,所以单条的修改、删除,其性能会非常的低所以不支持进行级操作; 阅读全文
posted @ 2016-02-22 22:45 Bodi 阅读(910) 评论(0) 推荐(0) 编辑
摘要: 官方帮助文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL Hive的数据类型 -- 扩展数据类型data_type : primitive_type | array_type | map_type | str 阅读全文
posted @ 2016-02-02 16:10 Bodi 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 在默认情况下,Mysql安装以后会在/tmp目录下生成一个mysql.sock文件,如该文件丢失则Mysql将不能够正常启动,解决方法:使用mysqld_safe 启动即可解决; 阅读全文
posted @ 2016-02-02 15:30 Bodi 阅读(9226) 评论(0) 推荐(0) 编辑
摘要: 1.remote一体 这种存储方式需要在远端服务器运行一个mysql服务器,并且需要在Hive服务器启动meta服务。这里用mysql的测试服务器,ip位192.168.1.214,新建hive_remote数据库,字符集位latine1; $ vim hive-site.xml <configur 阅读全文
posted @ 2016-02-02 14:30 Bodi 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可; $ vim hive-site.xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:; 阅读全文
posted @ 2016-02-02 14:25 Bodi 阅读(3675) 评论(0) 推荐(0) 编辑
摘要: 一、前提条件 安装了Zookeeper、Hadoop HDFS HA 安装方法: http://www.cnblogs.com/raphael5200/p/5154325.html 二、安装Mysql 因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库 阅读全文
posted @ 2016-02-01 18:09 Bodi 阅读(13209) 评论(0) 推荐(0) 编辑
摘要: Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 阅读全文
posted @ 2016-02-01 14:05 Bodi 阅读(6245) 评论(0) 推荐(0) 编辑
摘要: Hadoop 1.0 中HDFS和MapReduce存在高可用和扩展方面的问题 阅读全文
posted @ 2016-01-29 11:26 Bodi 阅读(843) 评论(0) 推荐(0) 编辑
摘要: MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框就是mapreduce,两者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。 阅读全文
posted @ 2016-01-28 16:08 Bodi 阅读(2965) 评论(0) 推荐(0) 编辑
摘要: HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 阅读全文
posted @ 2016-01-26 17:01 Bodi 阅读(13536) 评论(0) 推荐(5) 编辑
摘要: 描述:在Hadoop运行Job的时候,可能会报这样的一个错误“/bin/bash: /bin/java: No such file or directory”,那是因可能有些地方用到了/bin/java 这个路径,而这个路径是指向Java JDK的一个指向,相当于快捷方式,而/bin下面并不存在这个... 阅读全文
posted @ 2016-01-24 23:11 Bodi 阅读(2902) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-01-23 23:18 Bodi 阅读(15118) 评论(3) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-01-22 18:03 Bodi 阅读(4483) 评论(0) 推荐(0) 编辑
摘要: 1、新建Web项目 新建一个Web项目,我命名为SearchEngine,然后导入Java包: 除了上篇博客中的Jar包外,我还引入了 IKAnalyzer2012_FF.jar 包和struts2的相关包: IKAnalyzer:是用来进行中文分词的一个jar包,他会把中文分词一个个合理的词来进行 阅读全文
posted @ 2016-01-20 22:58 Bodi 阅读(1309) 评论(0) 推荐(0) 编辑
摘要: 在了解了Lucene以后,我打算亲手来做一个Lucene的小例子,这个例子只是Lucene最简单的应用:使用Lucene实现标准的英文搜索;1、下载Lucene下载Lucene,到Lucene的官方下载http://lucene.apache.org/;2、新建项目新建一个Java Project ... 阅读全文
posted @ 2016-01-20 22:04 Bodi 阅读(1377) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-01-20 21:09 Bodi 阅读(1260) 评论(0) 推荐(1) 编辑
摘要: 最近项目上使用到汉字排序的问题,网上搜索了一下后普遍使用下面的方法比较。@Test public void test_sort_pinyin() { Collator cmp = Collator.getInstance(java.util.Locale.CHINA); Str... 阅读全文
posted @ 2016-01-20 17:48 Bodi 阅读(11083) 评论(2) 推荐(1) 编辑
摘要: 我们都知道搜索引擎搜索一个词是非常快的,但你有没有想过为什么搜索引擎能够以这么快的速度从数以亿计的网页中找到你想要的内容?一个很重要的原因是,现代的搜索引擎基本上都使用了倒序索引技术。如果不使用倒序索引技术,在每次进行检索时,搜索引擎必须遍历每一个网页,查找网页中是否包含你指定的关键词。这个工作量是... 阅读全文
posted @ 2016-01-19 22:51 Bodi 阅读(7757) 评论(0) 推荐(1) 编辑
摘要: 实用快捷键:Ctrl+/ 或 Ctrl+Shift+/ 注释(// 或者/*...*/ )Ctrl+D 复制行Ctrl+X 删除行快速修复 alt+enter (modify/cast)代码提示 alt+/ctr+G 定位某一行Shift+F6 重构-重命名Ctrl+R 替换文本Ctrl+F 查找文... 阅读全文
posted @ 2016-01-17 00:01 Bodi 阅读(2149) 评论(0) 推荐(0) 编辑
摘要: 停止词,是由英文单词:stopword翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的... 阅读全文
posted @ 2016-01-16 23:25 Bodi 阅读(3307) 评论(0) 推荐(0) 编辑
摘要: 一、存储命令存储命令的格式:12 参数说明如下:set/add/replace查找关键字客户机使用它存储关于键值对的额外信息该数据的存活时间,0表示永远存储字节数存储的数据块(可直接理解为key-value结构中的value)1、添加(1)、无论如何都存储的set这个set的命令在memcac... 阅读全文
posted @ 2016-01-15 11:10 Bodi 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 我们使用的导出并下载功能是利用一个插件叫POI的插件提供的导出功能,很实用;首先先导入Jar包:Jar包下载地址:http://poi.apache.org/ 官方文档地址:http://poi.apache.org/spreadsheet/quick-guide.htmlAction代码:publ... 阅读全文
posted @ 2016-01-15 10:49 Bodi 阅读(40446) 评论(0) 推荐(2) 编辑
摘要: Comparator cmp = new Comparator() { public int compare(Person o1, Person o2) { Comparator cmp = Collator.getInstance(java.util.Locale.... 阅读全文
posted @ 2016-01-14 10:23 Bodi 阅读(1355) 评论(0) 推荐(0) 编辑
摘要: 通常代理服务器只用于处理内部网络对Intenet的请求,客户端必须通过代理服务器把本来要发送到Web服务器上的请求通过代理服务器分发给Web服务器,Web服务器响应时再通过代理服务器把响应发给客户端;下面是一个反向代码的物理网络图:下面通过三台服务器来实现这个经典的反向代理结构: 反向代理服务... 阅读全文
posted @ 2016-01-12 22:01 Bodi 阅读(1611) 评论(0) 推荐(0) 编辑
摘要: 一、通过端口创建虚拟主机案例:通过端口访问两个不同的页面将/usr/local/tengine-2.1.0/html/index.html内的内容改为 Welcom to port1然后在/opt/sxt/html/index.html 中内容改为Welcom to port2更改tengine的配... 阅读全文
posted @ 2016-01-11 21:55 Bodi 阅读(1075) 评论(0) 推荐(0) 编辑
摘要: 什么是Tengine官方帮助文档:http://tengine.taobao.org/nginx_docs/cn/Tengine的安装新建tengine用户组groupadd -r nginxuseradd -r -g nginx -M nginx解压安装包: tar -zxvf tengine-2... 阅读全文
posted @ 2016-01-11 21:02 Bodi 阅读(15970) 评论(0) 推荐(0) 编辑
摘要: /bin:存放最常用命令; /boot:启动Linux的核心文件; /dev:设备文件; /etc:存放各种配置文件; /home:用户主目录; /lib:系统最基本的动态链接共享库; /mnt:一般是空的,用来临时挂载别的文件系统; /proc:虚拟目录,是内存的映射; /sbin... 阅读全文
posted @ 2016-01-11 20:01 Bodi 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 一、安装Nginx 1.安装依赖: [root@nodeSource local]# yum install gc-devel gcc-c++ pcre-devel zlib-devel 2.解压Nginx压缩包: [root@nodeSource local]# tar -zxvf nginx-1 阅读全文
posted @ 2016-01-11 19:38 Bodi 阅读(1584) 评论(0) 推荐(0) 编辑
摘要: 自己写了一个MySql辅助类,有需要的拿走:#--encoding:utf-8--#import MySQLdbclass MySQLHelper: myVersion=0.1 def __init__(self,host,user,password,charset="utf8"): ... 阅读全文
posted @ 2016-01-07 18:25 Bodi 阅读(1661) 评论(0) 推荐(0) 编辑
摘要: Python 链接MySql数据库,方法很简单:首先需要先 安装一个MySql链接插件:MySQL-python-1.2.3.win-amd64-py2.7.exe下载地址:http://dev.mysql.com/downloads/connector/python/在下载安装的时候,最好与Pyt... 阅读全文
posted @ 2016-01-07 17:33 Bodi 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 在Linux下软件分三种:1.绿色软件:即不用安装直接就能用的软件2.rpm安装包:以rpm结尾的可执行文件3.源码文件:没有进行过编译和打包的文件,需要编译后再进行安装一、绿色软件的安装这类软件安装最简单,只需要将复制到/usr/bin目录下面,即可完成安装;二、rpm安装包安装使用rpm命令来... 阅读全文
posted @ 2016-01-05 23:42 Bodi 阅读(628) 评论(0) 推荐(0) 编辑
摘要: Python 类声明语法:class 类名: 类体例:#--encoding:utf-8--#class AddressBookEntity: myVersion=0.1 def __init__(self,name,phone): self.name=na... 阅读全文
posted @ 2016-01-05 16:31 Bodi 阅读(1708) 评论(0) 推荐(0) 编辑
摘要: vi:VisualInterfacevim:VIiMproved全屏编辑器,Linux系统下最强大的两款编辑器,vi和vim,vi是Linux本身自带的一款编辑器,纯文本编辑不带任何效果;vim是vi的可以说是加强版在vi的基础上增加了许多格式化的功能,并且可以使代码命令以不同的色彩显示;Vi和vi... 阅读全文
posted @ 2016-01-04 21:26 Bodi 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 把函数当参数传递# 函数参数传递# 面向对象编程就是把对象传来传去# 面向函数编程就是把函数传来传去def mytest(num): return num * 2 # # 不光可以传递变量,还可以传递函数def convert(func, seq): print 'convert... 阅读全文
posted @ 2016-01-02 18:43 Bodi 阅读(637) 评论(0) 推荐(0) 编辑
摘要: #--encoding:utf-8--try: float('abc')except Exception,e: print e try: float(1.2)except Exception,e: print efinally: print 'Done!' #1... 阅读全文
posted @ 2016-01-02 13:48 Bodi 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 今天学习了Python中有关正则表达式的知识。关于正则表达式的语法,不作过多解释,网上有许多学习的资料。这里主要介绍Python中常用的正则表达式处理函数。re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。import retext ="JGood... 阅读全文
posted @ 2016-01-01 22:33 Bodi 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 1、字符串# 字符串数字之间转换# x = int("6")# print type(x) ## y = str(6)# print type(y) #注:在python中,字符串和数值型是可以直接通过调用函数转换。# 字符串长度方法# foo = 'abc'# print len(foo)# p... 阅读全文
posted @ 2016-01-01 22:31 Bodi 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 想要快速的学会一个Python的模块和方法,两个函数必须要知道,那就是dir()和help()dir():能够快速的以集合的型式列出该模块下的所有内容(类、常量、方法)例:#--encoding:utf-8--import osprint dir(os)结果:结果:['F_OK', 'O_APPEN... 阅读全文
posted @ 2016-01-01 18:35 Bodi 阅读(3588) 评论(0) 推荐(1) 编辑