随笔分类 -  BigData-Hadoop

摘要:测试代码: 测试结果: 阅读全文
posted @ 2017-08-17 11:59 cctext 阅读(976) 评论(0) 推荐(0) 编辑
摘要:在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。 一般情况下通过hive的参数设置: 一般情况下通过hive的参数设置: 通过df.repartition(xxx).persist()来实现小文件合并 通过df.repartition(xxx).pe 阅读全文
posted @ 2017-07-04 01:04 cctext 阅读(10587) 评论(0) 推荐(0) 编辑
摘要:创建测试表,来测试看看测试结果: 第一步:使用insert into 插入数据到表中: 第二步:不清理以上插入的记录,直接执行insert overwirte,并查询分析结果: 第三步:不清理上边步骤执行后的结果,接着执行以下sql语句,并查询结果: 阅读全文
posted @ 2017-06-20 14:37 cctext 阅读(40606) 评论(2) 推荐(1) 编辑
摘要:方案一: 方案二: 方案三: 使用sqlloader从spark任务提交节点读取文件导入到oracle。 为什么操作,原因直接从spark中读取hive中的数据使用网络IO连接到集群外的oracle服务器是spark集群不乐意做的事情,对SPARK宝贵的网络IO来说开销特别大。 阅读全文
posted @ 2017-06-15 15:16 cctext 阅读(5991) 评论(3) 推荐(2) 编辑
摘要:背景: 项目需要在spark任务提交服务器节点上自动提交任务到spark集群上。因此创建了一个固定时间监控任务项目,使用timer定时监控oracle数据库中是否有spark提交任务,如果有spark提交任务,就使用java.lang.ProcessBuilder对象调sh文件(spark-subm 阅读全文
posted @ 2017-04-24 15:32 cctext 阅读(926) 评论(0) 推荐(0) 编辑
摘要:http://hugh-wangp.iteye.com/blog/1612268 http://blog.csdn.net/opensure/article/details/46537969 使用静态分区,创建分区表p_test: 在创建分区表之前需要去人参数是否如下: 如果不是需要修改参数,创建分 阅读全文
posted @ 2017-03-23 03:50 cctext 阅读(789) 评论(0) 推荐(0) 编辑
摘要:背景: 在做项目过程中不可能hive表中都是非中文字段。在最近做的项目中就遇到需要在beeline界面上执行查询脚本,但脚本中包含中文,正常一个脚本用文本写好后,粘贴到beeline窗口运行时,发现中文是乱码,而且回车执行也抛出了错误。 解决方案: 使用"beeline -f 文件"解决问题,在我的 阅读全文
posted @ 2017-03-05 16:44 cctext 阅读(3652) 评论(0) 推荐(0) 编辑
摘要:集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of dire 阅读全文
posted @ 2016-12-15 15:40 cctext 阅读(4313) 评论(0) 推荐(0) 编辑
摘要:本文只是针对当前特定环境下,出现的问题找不到sqljdbc驱动的案例。具体出现原因,可能是spark版本问题,也可能是集群配置问题。 yarn-client方式下: 通过--jars参数指定驱动文件位置,提交后提示:“。。。No suitable driver found for jdbc:。。。” 阅读全文
posted @ 2016-12-13 20:50 cctext 阅读(6791) 评论(0) 推荐(0) 编辑
摘要:当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。 以下参数配置为例子: spark-submit --master yarn-cluster #使用集群调度模式(一般使用这个参数) --num-exec 阅读全文
posted @ 2016-12-09 02:40 cctext 阅读(5123) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.net/kejiaming/article/details/52084898 h 阅读全文
posted @ 2016-12-01 23:30 cctext 阅读(798) 评论(0) 推荐(0) 编辑
摘要:spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别: 使用spark-shell进入spark shell 交互界面: 输入命令: 回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。 参考文章: http://blog.csdn.net/xuyaoqiaoyaog 阅读全文
posted @ 2016-11-20 04:01 cctext 阅读(6426) 评论(0) 推荐(0) 编辑
摘要:DataFrame写入hive API: 将DataFrame数据写入hive指定数据表的分区中 将数据写入分区表的思路是:首先将DataFrame数据写入临时表,之后是由hiveContext.sql语句将数据写入hive分区表中。具体操作如下: 声明本文转自:http://www.aboutyu 阅读全文
posted @ 2016-11-20 03:43 cctext 阅读(16603) 评论(0) 推荐(0) 编辑
摘要:1、一般可以通过beeline(CDH默认是使用hive,就会进入hive操作窗口),代理方式登录hive; 2、使用数据库abc_hive_db:use abc_hive_db; 3、查看数据库中有哪些表:show tables ;有哪些特定表 show tables like '*tb_site 阅读全文
posted @ 2016-11-18 22:03 cctext 阅读(7076) 评论(0) 推荐(0) 编辑
摘要:背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: Scala代码实现“访问hive,并保存结果到hive表”的spark任务: 开发工具为IDEA16,开发语言为scala,开发包 阅读全文
posted @ 2016-11-18 19:39 cctext 阅读(12601) 评论(0) 推荐(0) 编辑
摘要:昨晚和同事一起看一个scala写的程序,程序都写完了,且在idea上debug运行是ok的。但我们不能调试的方式部署在客户机器上,于是打包吧。打包时,我们是采用把外部引入的五个包(spark-assembly-1.5.1-hadoop2.6.0.jar、commons-logging.jar、fas 阅读全文
posted @ 2016-11-14 10:04 cctext 阅读(5547) 评论(0) 推荐(1) 编辑
摘要:查询hdfs文件内容,如果文件过大时不能一次加载,可以使用: hadoop fs -cat /user/my/ab.txt |more 阅读全文
posted @ 2016-11-04 00:55 cctext 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso): 192.168.1.200 master 192.16 阅读全文
posted @ 2016-09-24 13:08 cctext 阅读(8174) 评论(0) 推荐(1) 编辑
摘要:操作系统环境准备: 准备几台服务器(我这里是三台虚拟机): linux ubuntu 14.04 server x64(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso) master:192.168.1. 阅读全文
posted @ 2016-09-19 16:08 cctext 阅读(2133) 评论(0) 推荐(0) 编辑
摘要:出现错误原因: 之前使用ssh登录过该机器,在~/.ssh/known_host中记录了该信息。 解决方案:删除known_host文件中的内容。 参考:http://www.cnblogs.com/york-hust/archive/2012/03/27/2420168.html 阅读全文
posted @ 2016-09-18 00:54 cctext 阅读(1559) 评论(0) 推荐(0) 编辑