上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 40 下一页
摘要: 需要 Netcat(在网络上通过 TCP 或 UDP 读写数据),CentOS 6.x 系统中默认没有安装,经过测试,如果通过 yum 直接安装,运行时会有 “nc: Protocol not available” 的错误,需要下载较低版本的 nc 才能正常使用。我们选择 Netcat 0.6.1 阅读全文
posted @ 2017-05-03 11:15 DarrenChan陈驰 阅读(628) 评论(0) 推荐(0)
摘要: 需求: 有如下访客访问次数统计表 t_access_times 访客 月份 访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01 5 A 2015-02 4 A 2015-02 6 B 2015-02 阅读全文
posted @ 2017-04-29 20:33 DarrenChan陈驰 阅读(2187) 评论(1) 推荐(0)
摘要: 1. 保存select查询结果的几种方式: 1、将查询结果保存到一张新的hive表中 2、将查询结果保存到一张已经存在的hive表中(用load的时候,可以是into或者overwrite into,这里是into或者overwrite) 3、将查询结果保存到指定的文件目录(可以是本地,也可以是hd 阅读全文
posted @ 2017-04-29 20:29 DarrenChan陈驰 阅读(3990) 评论(0) 推荐(0)
摘要: 1. 文件的打开与关闭 <1>打开文件 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件 open(文件名,访问模式) 示例如下: 说明: <2>关闭文件 close( ) 示例如下: 2. 文件的读写 <1>写数据(write) 使用write()可以完成向文件写入 阅读全文
posted @ 2017-04-29 14:55 DarrenChan陈驰 阅读(548) 评论(0) 推荐(0)
摘要: 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理 阅读全文
posted @ 2017-04-29 12:52 DarrenChan陈驰 阅读(2858) 评论(0) 推荐(0)
摘要: 需求: Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt 阅读全文
posted @ 2017-04-27 11:21 DarrenChan陈驰 阅读(1127) 评论(0) 推荐(0)
摘要: 需求: 利用mapReduce实现类似微博中查找共同粉丝的功能。如下: A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM: 阅读全文
posted @ 2017-04-23 22:46 DarrenChan陈驰 阅读(1175) 评论(1) 推荐(0)
摘要: 需求: 利用MapReduce程序,实现SQL语句中的join关联查询。 订单数据表order: 商品信息表product: 假如数据量巨大,两表的数据是以文件的形式存储在HDFS中,需要用mapreduce程序来实现一下SQL查询运算: 分析: 通过将关联的条件作为map输出的key,将两表满足j 阅读全文
posted @ 2017-04-23 21:44 DarrenChan陈驰 阅读(969) 评论(0) 推荐(0)
摘要: 1. 基于虚拟机的虚拟化和基于容器的虚拟化 非正式的说,虚拟化是通过软件手段对计算机硬件资源镜像整合管理和再分配的一种技术。最常用的就是基于虚拟机(Hypervisor-based)的虚拟化,经过40年的发展,基于虚拟机的虚拟化技术已经比较成熟,它通过一个软件层的封装,提供和物理硬件相同的输入输出表 阅读全文
posted @ 2017-04-19 20:49 DarrenChan陈驰 阅读(888) 评论(0) 推荐(0)
摘要: 在做Hadoop数据挖掘项目的时候,我们第一步是源数据的获取,即把相应的数据放置到HDFS中,以便Hadoop进行计算,手动将文件上传到HDFS中,未免太费时费力,所以我们可以采取像Flume一样的框架,或者采用Shell脚本进行文件的上传。下面主要提供Shell脚本的大致写法,仅供参考,可以根据不 阅读全文
posted @ 2017-04-19 08:16 DarrenChan陈驰 阅读(6831) 评论(0) 推荐(0)
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 40 下一页