随笔分类 - BigData-Hadoop

摘要:添加分区: 已经创建好的分区表: 分区字段包含:p_hour,p_city,p_loctype。 根据分区字段p_loctype删除分区: 删除日志: 阅读全文
posted @ 2017-12-21 14:53 cctext 阅读(94356) 评论(2) 推荐(1) 编辑
摘要:hadoop api提供了一些遍历文件的api,通过该api可以实现遍历文件目录: 并行执行sh的线程: 执行sh的java代码: submitsparkjob.sh 执行BatchSubmit.jar的命令: 阅读全文
posted @ 2017-11-10 23:32 cctext 阅读(2042) 评论(0) 推荐(0) 编辑
摘要:一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义 阅读全文
posted @ 2017-11-10 00:48 cctext 阅读(941) 评论(0) 推荐(0) 编辑
摘要:声明:本文转自《在Spark中自定义Kryo序列化输入输出API》 在Spark中内置支持两种系列化格式:(1)、Java serialization;(2)、Kryo serialization。在默认情况下,Spark使用的是Java的ObjectOutputStream系列化框架,它支持所有继 阅读全文
posted @ 2017-11-09 01:34 cctext 阅读(635) 评论(0) 推荐(0) 编辑
摘要:假设我们有一组个人信息,我们针对人的性别进行分组统计,并进行统计每个分组中的记录数。 输出步骤: 上边的信息中,个人信息中只有一个值,如果value是元组的话,需要定义出一个type: 阅读全文
posted @ 2017-11-08 21:23 cctext 阅读(708) 评论(0) 推荐(1) 编辑
摘要:作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Pa 阅读全文
posted @ 2017-11-07 20:04 cctext 阅读(1510) 评论(0) 推荐(0) 编辑
摘要:def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。 参考:http://lxw1234.com/archives/2015/07/356.htm 阅读全文
posted @ 2017-11-07 20:00 cctext 阅读(8895) 评论(0) 推荐(0) 编辑
摘要:抽样示例操作: 阅读全文
posted @ 2017-11-07 19:48 cctext 阅读(1783) 评论(0) 推荐(0) 编辑
摘要:在创建好一个分区表后,执行动态分区插入数据,抛出了错误: 解决方案: 在执行插入数据到分区时,添加参数设置: 阅读全文
posted @ 2017-11-06 18:32 cctext 阅读(7427) 评论(0) 推荐(1) 编辑
摘要:reduceByKey函数API: 该函数利用映射函数将每个K对应的V进行运算。 其中参数说明如下: - func:映射函数,根据需求自定义; - partitioner:分区函数; - numPartitions:分区数,默认的分区函数是HashPartitioner。 返回值:可以看出最终是返回 阅读全文
posted @ 2017-10-28 21:10 cctext 阅读(13732) 评论(0) 推荐(0) 编辑
摘要:通过SecureCRT工具连上linux后,通过beeline连接上hive后,在输错hive语句时,无论 Backspace还是delete 都删除不掉错误的语句,没有办法退格。 解决方案: 第一步:SecureCRT菜单选项栏中"选项(O)"-》"会话选项(S)...",点击打开: 第二步:在“ 阅读全文
posted @ 2017-10-28 20:32 cctext 阅读(2351) 评论(0) 推荐(1) 编辑
摘要:问题背景 最近遇到一个比较棘手的事情:hive sql优化: lib表(id,h,soj,noj,sp,np) --一个字典表 mitem表(md,mt,soj,noj,sp,np)--一天的数据,包含小时分区的表。 业务: 1)需要先把lib表与mitem表进行关联(关联条件是lib.soj=mi 阅读全文
posted @ 2017-10-24 00:47 cctext 阅读(2089) 评论(0) 推荐(0) 编辑
摘要:已知表myobject(objectid int) 按照objectid进行分页,其中objectid在表myobject中是唯一的(不重复)数据。 对表myobject进行分页 阅读全文
posted @ 2017-10-22 21:48 cctext 阅读(5939) 评论(0) 推荐(0) 编辑
摘要:hive也是支持索引的使用,但是如果表中已经有数据的情况下,创建索引的过程不是特别快。 已经拥有表: 创建索引: 备注:需要注意这里边创建索引实际上是插入了特定的数据到一个表。 原表更新数据: 备注:当表中已经拥有数据的情况下,必须执行该语句,否则索引没有起到效果。 删除索引: 查看索引: 阅读全文
posted @ 2017-10-22 01:38 cctext 阅读(6282) 评论(0) 推荐(0) 编辑
摘要:hadoop fs 更多用法,请参考官网:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html 以下是我的使用hadoop fs -du统计文件时使用的记录: hadoop fs -count 阅读全文
posted @ 2017-10-15 12:29 cctext 阅读(21093) 评论(0) 推荐(1) 编辑
摘要:背景: 目前工作中遇到一大批的数据,如果不压缩直接上传到ftp上就会遇到ftp空间资源不足问题,没办法只能压缩后上传,上穿完成后在linux上下载。但是linux客户端的资源只有20G左右一个压缩包解压后就要占用16G左右的空间,因此想在linux上直接解压已经太折腾了(因为我们一共需要处理的这样的 阅读全文
posted @ 2017-10-13 00:39 cctext 阅读(7915) 评论(1) 推荐(0) 编辑
摘要:在做测试数据时,往往会有ftp数据上传到hdfs的需求,一般需要手动操作,这样做太费事,于是有了下边代码实现的方式: ftp数据上传到hdfs函数: main调用函数: 使用yarn jar提交: 阅读全文
posted @ 2017-10-11 14:33 cctext 阅读(3957) 评论(0) 推荐(0) 编辑
摘要:来自:http://blog.csdn.net/u012102306/article/details/51637366 资源参数调优 了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各 阅读全文
posted @ 2017-09-20 16:12 cctext 阅读(960) 评论(0) 推荐(0) 编辑
摘要:背景:根据业务需要需要把60张主子表批量入库到hive表。 创建测试数据: 上传数据到服务器hdfs: 实现批量创建表及批量入库: 阅读全文
posted @ 2017-09-07 15:12 cctext 阅读(2130) 评论(0) 推荐(0) 编辑
摘要:scala集合转化为DS/DF 输出结果: 参考资料: https://stackoverflow.com/questions/39397652/convert-scala-list-to-dataframe-or-dataset 阅读全文
posted @ 2017-08-17 12:52 cctext 阅读(3813) 评论(1) 推荐(0) 编辑