BigData-Hadoop - 随笔分类(第4页) - cctext

摘要：测试代码：测试结果：阅读全文

posted @ 2017-08-17 11:59 cctext 阅读(995) 评论(0) 推荐(0)

摘要：在做spark开发过程中，时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。一般情况下通过hive的参数设置：一般情况下通过hive的参数设置：通过df.repartition(xxx).persist()来实现小文件合并通过df.repartition(xxx).pe 阅读全文

posted @ 2017-07-04 01:04 cctext 阅读(10848) 评论(0) 推荐(0)

Hive：insert into table 与 insert overwrite table 区别

摘要：创建测试表，来测试看看测试结果：第一步：使用insert into 插入数据到表中：第二步：不清理以上插入的记录，直接执行insert overwirte，并查询分析结果：第三步：不清理上边步骤执行后的结果，接着执行以下sql语句，并查询结果：阅读全文

posted @ 2017-06-20 14:37 cctext 阅读(40706) 评论(2) 推荐(1)

Spark：导入数据到oracle

摘要：方案一：方案二：方案三：使用sqlloader从spark任务提交节点读取文件导入到oracle。为什么操作，原因直接从spark中读取hive中的数据使用网络IO连接到集群外的oracle服务器是spark集群不乐意做的事情，对SPARK宝贵的网络IO来说开销特别大。阅读全文

posted @ 2017-06-15 15:16 cctext 阅读(6081) 评论(3) 推荐(2)

wrapper x64 版本发布到centos

摘要：背景：项目需要在spark任务提交服务器节点上自动提交任务到spark集群上。因此创建了一个固定时间监控任务项目，使用timer定时监控oracle数据库中是否有spark提交任务，如果有spark提交任务，就使用java.lang.ProcessBuilder对象调sh文件（spark-subm 阅读全文

posted @ 2017-04-24 15:32 cctext 阅读(952) 评论(0) 推荐(0)

Hive：动静态分区

摘要：http://hugh-wangp.iteye.com/blog/1612268 http://blog.csdn.net/opensure/article/details/46537969 使用静态分区，创建分区表p_test：在创建分区表之前需要去人参数是否如下：如果不是需要修改参数，创建分阅读全文

posted @ 2017-03-23 03:50 cctext 阅读(809) 评论(0) 推荐(0)

Hive:把一段包含中文的sql脚本粘贴到beeline client运行中文乱码

摘要：背景：在做项目过程中不可能hive表中都是非中文字段。在最近做的项目中就遇到需要在beeline界面上执行查询脚本，但脚本中包含中文，正常一个脚本用文本写好后，粘贴到beeline窗口运行时，发现中文是乱码，而且回车执行也抛出了错误。解决方案：使用"beeline -f 文件"解决问题，在我的阅读全文

posted @ 2017-03-05 16:44 cctext 阅读(3765) 评论(0) 推荐(0)

Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001

摘要：集群中遇到了文件个数超出限制的错误: 0）昨天晚上spark 任务突然抛出了异常：org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of dire 阅读全文

posted @ 2016-12-15 15:40 cctext 阅读(4428) 评论(0) 推荐(0)

Spark on Yarn:java.sql.SQLException: No suitable driver found for jdbc:microsoft:sqlserver://localhost\\db_instance_name:1433;databaseName=db_name

摘要：本文只是针对当前特定环境下，出现的问题找不到sqljdbc驱动的案例。具体出现原因，可能是spark版本问题，也可能是集群配置问题。 yarn-client方式下：通过--jars参数指定驱动文件位置，提交后提示：“。。。No suitable driver found for jdbc:。。。” 阅读全文

posted @ 2016-12-13 20:50 cctext 阅读(6930) 评论(0) 推荐(0)

Spark on Yarn：任务提交参数配置

摘要：当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。以下参数配置为例子： spark-submit --master yarn-cluster #使用集群调度模式(一般使用这个参数) --num-exec 阅读全文

posted @ 2016-12-09 02:40 cctext 阅读(5207) 评论(0) 推荐(0)

Spark:Join相关优化文章

摘要：http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.net/kejiaming/article/details/52084898 h 阅读全文

posted @ 2016-12-01 23:30 cctext 阅读(810) 评论(0) 推荐(0)

Spark:读取hdfs gz压缩包

摘要：spark 1.5.1是支持直接读取gz格式的压缩包的，和普通文件没有什么区别：使用spark-shell进入spark shell 交互界面：输入命令：回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。参考文章： http://blog.csdn.net/xuyaoqiaoyaog 阅读全文

posted @ 2016-11-20 04:01 cctext 阅读(6518) 评论(0) 推荐(0)

Hive：Spark中如何实现将rdd结果插入到hive1.3.0表中

摘要：DataFrame写入hive API：将DataFrame数据写入hive指定数据表的分区中将数据写入分区表的思路是：首先将DataFrame数据写入临时表，之后是由hiveContext.sql语句将数据写入hive分区表中。具体操作如下：声明本文转自：http://www.aboutyu 阅读全文

posted @ 2016-11-20 03:43 cctext 阅读(16799) 评论(0) 推荐(0)

Hive:常用的一些命令

摘要：1、一般可以通过beeline(CDH默认是使用hive，就会进入hive操作窗口)，代理方式登录hive; 2、使用数据库abc_hive_db：use abc_hive_db; 3、查看数据库中有哪些表：show tables ；有哪些特定表 show tables like '*tb_site 阅读全文

posted @ 2016-11-18 22:03 cctext 阅读(7141) 评论(0) 推荐(0)

Spark&Hive：如何使用scala开发spark访问hive作业，如何使用yarn resourcemanager。

摘要：背景：接到任务，需要在一个一天数据量在460亿条记录的hive表中，筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度：解析规则譬如： Scala代码实现“访问hive，并保存结果到hive表”的spark任务：开发工具为IDEA16,开发语言为scala,开发包阅读全文

posted @ 2016-11-18 19:39 cctext 阅读(12689) 评论(0) 推荐(0)

Spark&Hadoop:scala编写spark任务jar包，运行无法识别main函数，怎么办?

摘要：昨晚和同事一起看一个scala写的程序，程序都写完了，且在idea上debug运行是ok的。但我们不能调试的方式部署在客户机器上，于是打包吧。打包时，我们是采用把外部引入的五个包（spark-assembly-1.5.1-hadoop2.6.0.jar、commons-logging.jar、fas 阅读全文

posted @ 2016-11-14 10:04 cctext 阅读(5638) 评论(0) 推荐(1)

Spark+Hadoop+Hive集群上数据操作记录

摘要：查询hdfs文件内容，如果文件过大时不能一次加载，可以使用： hadoop fs -cat /user/my/ab.txt |more 阅读全文

posted @ 2016-11-04 00:55 cctext 阅读(1254) 评论(0) 推荐(0)

Hadoop+Spark:集群环境搭建

摘要：环境准备：在虚拟机下，大家三台Linux ubuntu 14.04 server x64 系统（下载地址：http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso）: 192.168.1.200 master 192.16 阅读全文

posted @ 2016-09-24 13:08 cctext 阅读(8211) 评论(0) 推荐(1)

Hadoop:搭建hadoop集群

摘要：操作系统环境准备：准备几台服务器（我这里是三台虚拟机）： linux ubuntu 14.04 server x64（下载地址：http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso） master:192.168.1. 阅读全文

posted @ 2016-09-19 16:08 cctext 阅读(2160) 评论(0) 推荐(0)

Linux:SSH错误"WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! "

摘要：出现错误原因：之前使用ssh登录过该机器，在~/.ssh/known_host中记录了该信息。解决方案：删除known_host文件中的内容。参考：http://www.cnblogs.com/york-hust/archive/2012/03/27/2420168.html 阅读全文

posted @ 2016-09-18 00:54 cctext 阅读(1578) 评论(0) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

随笔分类 - BigData-Hadoop

公告