BigData-Hadoop - 随笔分类(第2页) - cctext

spark2.1：读取hive中存储的多元组（string,double）失败

摘要：这两天和同事一起在想着如何把一个表的记录减少，表记录包含了：objectid(主小区信息)，gridid(归属栅格)，height(高度)，rsrp(主小区rsrp)，n_objectid(邻区)，n_rsrp(邻小区rsrp) 记录中一个主小区对应有多个邻区信息，在分组合并记录时： 1）先按照ob 阅读全文

posted @ 2018-03-24 14:45 cctext 阅读(2167) 评论(0) 推荐(0)

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

摘要：参考：lxw大数据田地：http://lxw1234.com/archives/2015/04/193.htm 数据准备： GROUPING SETS 在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL 备注：其中的 GROUPI 阅读全文

posted @ 2018-03-16 16:33 cctext 阅读(2151) 评论(0) 推荐(1)

Hive函数：rank()、dense_rank()

摘要：数据准备： rank rank()over(order by 列名排序)的结果是不连续的，如果有4个人，其中有3个是并列第1名，那么最后的排序结果结果如：1 1 1 4 rank() over (partition by 分组字段 order by 排序字段顺序) 注意：使用rank()over( 阅读全文

posted @ 2018-03-16 16:03 cctext 阅读(6601) 评论(0) 推荐(0)

Hive函数：CUME_DIST,PERCENT_RANK

摘要：参考自：大数据田地http://lxw1234.com/archives/2015/04/185.htm 数据准备： CUME_DIST –CUME_DIST 小于等于当前值的行数/分组内总行数–比如，统计小于等于当前薪水的人数，所占总人数的比例 PERCENT_RANK –PERCENT_RANK 阅读全文

posted @ 2018-03-16 15:58 cctext 阅读(827) 评论(0) 推荐(0)

Hive函数：LAG,LEAD,FIRST_VALUE,LAST_VALUE

摘要：参考自大数据田地：http://lxw1234.com/archives/2015/04/190.htm 测试数据准备： LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候阅读全文

posted @ 2018-03-16 15:55 cctext 阅读(803) 评论(1) 推荐(0)

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

摘要：函数代码：使用spark-submit提交函数时，抛出异常：解决方案：把当前MySparkJob集成Serializable 阅读全文

posted @ 2018-03-14 23:24 cctext 阅读(3863) 评论(1) 推荐(0)

spark2.1操作json（save/read）

摘要：建筑物配置信息：向hdfs写入json文件：从hdfs中读取json文件：阅读全文

posted @ 2018-03-14 00:41 cctext 阅读(2052) 评论(0) 推荐(0)

Hadoop MR编程

摘要：Hadoop开发job需要定一个Map/Reduce/Job（启动MR job，并传入参数信息），以下代码示例实现的功能： 1）将一个用逗号分割的文件，替换为“|”分割的文件； 2）对小文件合并，将文件合并为reduceNum个文件。 DataMap.java DataReducer.java Da 阅读全文

posted @ 2018-03-13 11:20 cctext 阅读(2310) 评论(0) 推荐(0)

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)

摘要：最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本，其中遇到将case when 替换为scala操作df的方式实现的问题：代码数据：错误代码：错误的愿意就是这里的判定是否为空的地方。正确用法：疑问代码，如下代码在spark-shell中执行没有问题，但是使用sp 阅读全文

posted @ 2018-03-07 21:40 cctext 阅读(5974) 评论(1) 推荐(0)

spark2.1：flatMap的用法

摘要：代码示例：阅读全文

posted @ 2018-03-06 17:24 cctext 阅读(1855) 评论(0) 推荐(0)

spark2.1：在RDD[unit].foreach(s=>{})内部调用sparkSession对象抛出NullPointException

摘要：问题代码：替换方案：注意：如果你的业务可以，也可以把flatMap替换为map，我这里边是要求返回结果为一维List集合。阅读全文

posted @ 2018-03-06 17:23 cctext 阅读(1188) 评论(0) 推荐(0)

spark2.1：rdd.combineByKeyWithClassTag的用法示例

摘要：测试spark版本：备注：spark1.5中没有提供rdd.combineByKeyWithClassTag算子，但提供的有rdd.combineByKey算子（spark2.1中依然保留）。使用示例：阅读全文

posted @ 2018-03-04 22:27 cctext 阅读(481) 评论(0) 推荐(0)

Spark：如何替换sc.parallelize(List(item1,item2)).collect().foreach(row=>{})为并行？

摘要：代码场景： 1）设定的几种数据场景，遍历所有场景：依次统计满足每种场景条件下的数据，并把统计结果存入hive； 2）已有代码如下：备注：在generateSampleBySenceType()函数内部包含有: 如果把代码修改：则会提示：generateSampleBySenceType()内部阅读全文

posted @ 2018-03-04 16:56 cctext 阅读(2328) 评论(0) 推荐(0)

hive：导出数据记录中null被替换为\n的解决方案

摘要：在hive中，一般情况下通过导出文件时，会遇本来表中本来字段值为null的字段导出时为\n。解决方案：备注： 1）设置 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 则：底层数据保存的是'\N 阅读全文

posted @ 2018-01-19 10:40 cctext 阅读(8577) 评论(3) 推荐(1)

Hive&SqlServerql：inner join on条件中如果两边都是空值的情况下，关联结果中会把数据给过滤掉。

摘要：今天遇到的一个大坑，话不多少，看sql和下边的查询结果：查询结果：解决方案：查询结果： left outer join时的查询结果是：阅读全文

posted @ 2018-01-15 03:41 cctext 阅读(3271) 评论(0) 推荐(0)

Hive：有表A与表B进行inner join，如果A分组内包含有数据，使用A，否则使用B分组下的数据

摘要：tommyduan_fingerlib 指纹库栅格小区级别数据tommyduan_mr_grid_cell_result_all 统计栅格小区级别数据业务：以tommyduan_mr_grid_cell_result_all为主，如果某个栅格（gridid,buildingid,floor）没有阅读全文

posted @ 2018-01-14 18:52 cctext 阅读(1815) 评论(0) 推荐(0)

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

摘要：方案一：请参考《数据库“行专列”操作使用row_number()over(partition by 分组字段 [order by 排序字段])》，该方案是sqlserver,oracle,mysql,hive均适用的。在hive中的方案分为以下两种方案：创建测试表，并插入测试数据：方案二：使阅读全文

posted @ 2018-01-13 20:55 cctext 阅读(8556) 评论(0) 推荐(2)

Hive：一次西安dba同事优化hive sql记录

该文被密码保护。

posted @ 2018-01-10 21:54 cctext 阅读(6) 评论(0) 推荐(0)

SQLContext、HiveContext自定义函数注册

摘要：本文简单介绍两种往SQLContext、HiveContext中注册自定义函数方法。下边以sqlContext为例，在spark-shell下操作示例：阅读全文

posted @ 2017-12-25 18:38 cctext 阅读(2130) 评论(0) 推荐(0)

通过java api统计hive库下的所有表的文件个数、文件大小

摘要：更新hadoop fs 命令实现：通过hadoop fs -du 或者 hadoop fs -count只能统计指定的某个hdfs路径(hive表目录)的总文件个数及文件的大小，但是通过hadoop命令没有办法实现批量处理hive中多个表一次进行统计，如果一次性统计多个hive表目录的文件个数、文阅读全文

posted @ 2017-12-21 18:57 cctext 阅读(5107) 评论(0) 推荐(1)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

随笔分类 - BigData-Hadoop

公告