DarrenChan陈驰

2017年5月3日

摘要：需要 Netcat（在网络上通过 TCP 或 UDP 读写数据），CentOS 6.x 系统中默认没有安装，经过测试，如果通过 yum 直接安装，运行时会有 “nc: Protocol not available” 的错误，需要下载较低版本的 nc 才能正常使用。我们选择 Netcat 0.6.1 阅读全文

posted @ 2017-05-03 11:15 DarrenChan陈驰阅读(628) 评论(0) 推荐(0)

2017年4月29日

Hive面试题——累计求和

摘要：需求：有如下访客访问次数统计表 t_access_times 访客月份访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01 5 A 2015-02 4 A 2015-02 6 B 2015-02 阅读全文

posted @ 2017-04-29 20:33 DarrenChan陈驰阅读(2187) 评论(1) 推荐(0)

Hive学习笔记——保存select结果，Join，多重插入

摘要： 1. 保存select查询结果的几种方式： 1、将查询结果保存到一张新的hive表中 2、将查询结果保存到一张已经存在的hive表中(用load的时候，可以是into或者overwrite into，这里是into或者overwrite) 3、将查询结果保存到指定的文件目录（可以是本地，也可以是hd 阅读全文

posted @ 2017-04-29 20:29 DarrenChan陈驰阅读(3990) 评论(0) 推荐(0)

[Python基础]Python文件处理小结

摘要： 1. 文件的打开与关闭 <1>打开文件在python，使用open函数，可以打开一个已经存在的文件，或者创建一个新文件 open(文件名，访问模式) 示例如下：说明: <2>关闭文件 close( ) 示例如下： 2. 文件的读写 <1>写数据(write) 使用write()可以完成向文件写入阅读全文

posted @ 2017-04-29 14:55 DarrenChan陈驰阅读(548) 评论(0) 推荐(0)

Hive学习笔记——Hive中的分桶

摘要：对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理阅读全文

posted @ 2017-04-29 12:52 DarrenChan陈驰阅读(2858) 评论(0) 推荐(0)

2017年4月27日

MapReduce实战（七）GroupingComparator

摘要：需求： Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt 阅读全文

posted @ 2017-04-27 11:21 DarrenChan陈驰阅读(1127) 评论(0) 推荐(0)

2017年4月23日

MapReduce实战（六）共同粉丝

摘要：需求：利用mapReduce实现类似微博中查找共同粉丝的功能。如下： A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM: 阅读全文

posted @ 2017-04-23 22:46 DarrenChan陈驰阅读(1175) 评论(1) 推荐(0)

MapReduce实战（五）实现关联查询

摘要：需求：利用MapReduce程序，实现SQL语句中的join关联查询。订单数据表order：商品信息表product：假如数据量巨大，两表的数据是以文件的形式存储在HDFS中，需要用mapreduce程序来实现一下SQL查询运算：分析：通过将关联的条件作为map输出的key，将两表满足j 阅读全文

posted @ 2017-04-23 21:44 DarrenChan陈驰阅读(969) 评论(0) 推荐(0)

2017年4月19日

[转]容器虚拟化

摘要： 1. 基于虚拟机的虚拟化和基于容器的虚拟化非正式的说，虚拟化是通过软件手段对计算机硬件资源镜像整合管理和再分配的一种技术。最常用的就是基于虚拟机（Hypervisor-based）的虚拟化，经过40年的发展，基于虚拟机的虚拟化技术已经比较成熟，它通过一个软件层的封装，提供和物理硬件相同的输入输出表阅读全文

posted @ 2017-04-19 20:49 DarrenChan陈驰阅读(888) 评论(0) 推荐(0)

批量上传文件到HDFS的Shell脚本

摘要：在做Hadoop数据挖掘项目的时候，我们第一步是源数据的获取，即把相应的数据放置到HDFS中，以便Hadoop进行计算，手动将文件上传到HDFS中，未免太费时费力，所以我们可以采取像Flume一样的框架，或者采用Shell脚本进行文件的上传。下面主要提供Shell脚本的大致写法，仅供参考，可以根据不阅读全文

posted @ 2017-04-19 08:16 DarrenChan陈驰阅读(6831) 评论(0) 推荐(0)

致力于成为精通大数据、后台开发和算法的全栈架构师

公告