随笔分类 - BigData-Hadoop

摘要:这两天和同事一起在想着如何把一个表的记录减少,表记录包含了:objectid(主小区信息),gridid(归属栅格),height(高度),rsrp(主小区rsrp),n_objectid(邻区),n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息,在分组合并记录时: 1)先按照ob 阅读全文
posted @ 2018-03-24 14:45 cctext 阅读(2075) 评论(0) 推荐(0) 编辑
摘要:参考:lxw大数据田地:http://lxw1234.com/archives/2015/04/193.htm 数据准备: GROUPING SETS 在一个GROUP BY查询中,根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL 备注:其中的 GROUPI 阅读全文
posted @ 2018-03-16 16:33 cctext 阅读(2105) 评论(0) 推荐(1) 编辑
摘要:数据准备: rank rank()over(order by 列名排序)的结果是不连续的,如果有4个人,其中有3个是并列第1名,那么最后的排序结果结果如:1 1 1 4 rank() over (partition by 分组字段 order by 排序字段 顺序) 注意:使用rank()over( 阅读全文
posted @ 2018-03-16 16:03 cctext 阅读(5918) 评论(0) 推荐(0) 编辑
摘要:参考自:大数据田地http://lxw1234.com/archives/2015/04/185.htm 数据准备: CUME_DIST –CUME_DIST 小于等于当前值的行数/分组内总行数–比如,统计小于等于当前薪水的人数,所占总人数的比例 PERCENT_RANK –PERCENT_RANK 阅读全文
posted @ 2018-03-16 15:58 cctext 阅读(765) 评论(0) 推荐(0) 编辑
摘要:参考自大数据田地:http://lxw1234.com/archives/2015/04/190.htm 测试数据准备: LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候 阅读全文
posted @ 2018-03-16 15:55 cctext 阅读(751) 评论(1) 推荐(0) 编辑
摘要:函数代码: 使用spark-submit提交函数时,抛出异常: 解决方案: 把当前MySparkJob集成Serializable 阅读全文
posted @ 2018-03-14 23:24 cctext 阅读(3665) 评论(1) 推荐(0) 编辑
摘要:建筑物配置信息: 向hdfs写入json文件: 从hdfs中读取json文件: 阅读全文
posted @ 2018-03-14 00:41 cctext 阅读(1998) 评论(0) 推荐(0) 编辑
摘要:Hadoop开发job需要定一个Map/Reduce/Job(启动MR job,并传入参数信息),以下代码示例实现的功能: 1)将一个用逗号分割的文件,替换为“|”分割的文件; 2)对小文件合并,将文件合并为reduceNum个文件。 DataMap.java DataReducer.java Da 阅读全文
posted @ 2018-03-13 11:20 cctext 阅读(2271) 评论(0) 推荐(0) 编辑
摘要:最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本,其中遇到将case when 替换为scala操作df的方式实现的问题: 代码数据: 错误代码: 错误的愿意就是这里的判定是否为空的地方。 正确用法: 疑问代码,如下代码在spark-shell中执行没有问题,但是使用sp 阅读全文
posted @ 2018-03-07 21:40 cctext 阅读(5615) 评论(1) 推荐(0) 编辑
摘要:代码示例: 阅读全文
posted @ 2018-03-06 17:24 cctext 阅读(1785) 评论(0) 推荐(0) 编辑
摘要:问题代码: 替换方案: 注意:如果你的业务可以,也可以把flatMap替换为map,我这里边是要求返回结果为一维List集合。 阅读全文
posted @ 2018-03-06 17:23 cctext 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:测试spark版本: 备注:spark1.5中没有提供rdd.combineByKeyWithClassTag算子,但提供的有rdd.combineByKey算子(spark2.1中依然保留)。 使用示例: 阅读全文
posted @ 2018-03-04 22:27 cctext 阅读(441) 评论(0) 推荐(0) 编辑
摘要:代码场景: 1)设定的几种数据场景,遍历所有场景:依次统计满足每种场景条件下的数据,并把统计结果存入hive; 2)已有代码如下: 备注: 在generateSampleBySenceType()函数内部包含有: 如果把代码修改: 则会提示:generateSampleBySenceType()内部 阅读全文
posted @ 2018-03-04 16:56 cctext 阅读(2221) 评论(0) 推荐(0) 编辑
摘要:在hive中,一般情况下通过 导出文件时,会遇本来表中本来字段值为null的字段导出时为\n。 解决方案: 备注: 1)设置 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 则:底层数据保存的是'\N 阅读全文
posted @ 2018-01-19 10:40 cctext 阅读(7930) 评论(3) 推荐(1) 编辑
摘要:今天遇到的一个大坑,话不多少,看sql和下边的查询结果: 查询结果: 解决方案: 查询结果: left outer join时的查询结果是: 阅读全文
posted @ 2018-01-15 03:41 cctext 阅读(2987) 评论(0) 推荐(0) 编辑
摘要:tommyduan_fingerlib 指纹库 栅格小区级别数据tommyduan_mr_grid_cell_result_all 统计 栅格小区级别数据业务:以tommyduan_mr_grid_cell_result_all为主,如果某个栅格(gridid,buildingid,floor)没有 阅读全文
posted @ 2018-01-14 18:52 cctext 阅读(1755) 评论(0) 推荐(0) 编辑
摘要:方案一:请参考《数据库“行专列”操作 使用row_number()over(partition by 分组字段 [order by 排序字段])》,该方案是sqlserver,oracle,mysql,hive均适用的。 在hive中的方案分为以下两种方案: 创建测试表,并插入测试数据: 方案二:使 阅读全文
posted @ 2018-01-13 20:55 cctext 阅读(7995) 评论(0) 推荐(2) 编辑
该文被密码保护。
posted @ 2018-01-10 21:54 cctext 阅读(6) 评论(0) 推荐(0) 编辑
摘要:本文简单介绍两种往SQLContext、HiveContext中注册自定义函数方法。 下边以sqlContext为例,在spark-shell下操作示例: 阅读全文
posted @ 2017-12-25 18:38 cctext 阅读(2061) 评论(0) 推荐(0) 编辑
摘要:更新hadoop fs 命令实现: 通过hadoop fs -du 或者 hadoop fs -count只能统计指定的某个hdfs路径(hive表目录)的总文件个数及文件的大小,但是通过hadoop命令没有办法实现批量处理hive中多个表一次进行统计,如果一次性统计多个hive表目录的文件个数、文 阅读全文
posted @ 2017-12-21 18:57 cctext 阅读(4603) 评论(0) 推荐(1) 编辑