2018年4月8日

02Spark的左连接

摘要:两个文件,一个是用户的数据,一个是交易的数据。 用户: 交易: 流程如下: 分为以下几个步骤: (1)分别读取user文件和transform文件,并转为两个RDD. * (2)对上面两个RDD执行maptopair操作。生成userpairRdd和transformpairRdd * (3)对tr 阅读全文

posted @ 2018-04-08 01:33 jim_shen 阅读 (86) 评论 (0) 编辑

2018年4月4日

05Hadoop-左外连接

摘要:场景:有两张表,一张用户表(user),交易表(transactions)。两张表的字段如下: 两份表数据做个左连接,查询出(商品名,地址)这种格式。 这样就是相当于交易表是左表,不管怎么样数据都要保留,然后从右边里面查出来弥补左表。 效果如下: 思路:写两个map,把两个表的数据都读进来,在red 阅读全文

posted @ 2018-04-04 21:11 jim_shen 阅读 (90) 评论 (0) 编辑

04Hadoop中的setPartitionerClass/SortComparator/GroupingComparator问题

摘要:map阶段 map阶段 1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。 2. 进入Mapper的map()方法,生成一个List。 3. 在map阶段的最后,会先调用job.setPartitione 阅读全文

posted @ 2018-04-04 20:15 jim_shen 阅读 (91) 评论 (0) 编辑

2018年4月2日

01Spark的TopN问题

摘要:和hadoop的目的一样,给你数据,然后取TopN。数据如下: 取出数据在排名前十的数据。 代码如下: 结果: 阅读全文

posted @ 2018-04-02 21:33 jim_shen 阅读 (114) 评论 (0) 编辑

03Hadoop的TopN的问题

摘要:TopN的问题分为两种:一种是建是唯一的,还有是建非唯一。我们这边做的就是建是唯一的。 这里的建指得是:下面数据的第一列。 有一堆数据,想根据第一列找出里面的Top10. 如下: 关键:在map和reduce阶段都使用了TreeMap这个数据结构,他有从小到大的排序功能,所以排第一的最小,依次增大。 阅读全文

posted @ 2018-04-02 13:57 jim_shen 阅读 (110) 评论 (0) 编辑

2018年3月29日

02Hadoop二次排序2

摘要:案例: 数据: 邮编 | 日期 |金额 ILMN,2013-12-05,97.65GOOD,2013-12-09,1078.14IBM,2013-12-09,177.46ILMN,2013-12-09,101.33ILMN,2013-12-06,99.25,GOOD,2013-12-06,1069. 阅读全文

posted @ 2018-03-29 18:55 jim_shen 阅读 (88) 评论 (0) 编辑

2018年3月28日

01Hadoop二次排序

摘要:我的目的: 示例: 2012,01,01,352011,12,23,-42012,01,01,432012,01,01,232011,12,23,52011,4,1,22011,4,1,56 结果: 201112 -4,520114 2,56201201 23,35,43 正式实现: 代码结构: 分 阅读全文

posted @ 2018-03-28 16:09 jim_shen 阅读 (136) 评论 (0) 编辑

2017年6月24日

Java中Comparable和Comparator区别

摘要:很好的一篇博客:http://blog.csdn.net/jq_ak47/article/details/61203817 http://www.cnblogs.com/cmxwt/p/6215253.html 阅读全文

posted @ 2017-06-24 00:10 jim_shen 阅读 (121) 评论 (0) 编辑

2017年6月12日

34对MyBatis的博客的整理心得

摘要:对本博客的mybatis重新读一下,做一个整理。如下: 1:为什么会有mybatis,因为原生的jdbc方式有很大问题: (1)数据库连接,使用时就创建,不使用立即释放,对数据库进行频繁连接开启和关闭,造成数据库资源浪费,影响 数据库性能。 设想:使用数据库连接池管理数据库连接。 (2)、将sql语 阅读全文

posted @ 2017-06-12 16:12 jim_shen 阅读 (248) 评论 (0) 编辑

2017年6月11日

31Spring的一些想法

摘要:看一遍以前的自己写的博客,记录下自己的一些想法,Spring分为两块:IOC和AOP.IOC就是在applicatcontext.xml中配置<<bean......>>这种。spring容器启动的时候,会根据配置文件去创建这些实例,然后放入到IOC容器中,什么依赖注入啊什么的,就是不用自己new了 阅读全文

posted @ 2017-06-11 19:53 jim_shen 阅读 (148) 评论 (0) 编辑

导航