摘要:
-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(ABC, BCD) -- 相乘 val rdd=sc.parallelize(List(1,2,... 阅读全文
posted @ 2018-01-09 17:58
Mars.wang
阅读(1575)
评论(0)
推荐(0)
摘要:
var hv=sc.textFile("hdfs://192.168.15.30:8020/user/hive/warehouse/ycapp.db/appindex") var hivedata=hv.map(_.split("\t")).map(e => ( e(1), e(2),e(0).toInt)) (String, String, String) = (9,2017-07-26,al... 阅读全文
posted @ 2018-01-09 17:44
Mars.wang
阅读(10503)
评论(2)
推荐(0)
摘要:
hadoop权威指南上有一个求历史最高温度的经典案例,源数据如下: -- sample.txt0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+999999999 阅读全文
posted @ 2018-01-09 17:40
Mars.wang
阅读(415)
评论(0)
推荐(0)
摘要:
-- Spark SQL 以编程方式指定模式 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val employee = sc.textFile("/root/wangbin/employee.txt") 1201,satish,25 1202,krishna,28 1203,amith,39 1204,javed,23 120... 阅读全文
posted @ 2018-01-09 17:37
Mars.wang
阅读(237)
评论(0)
推荐(0)
摘要:
-- 默认情况下,SparkContext对象在spark-shell启动时用namesc初始化。使用以下命令创建SQLContext。 val sqlcontext = new org.apache.spark.sql.SQLContext(sc) -- employee.json-将此文件放在currentscala>指针所在的目录中。 { {"id" : "1201", "name"... 阅读全文
posted @ 2018-01-09 17:34
Mars.wang
阅读(6849)
评论(0)
推荐(0)
摘要:
hbase shell 进入hbase命令行 list 显示HBASE表 status 系统上运行的服务器的细节和系统的状态 version 返回HBase系统使用的版本 table_help 引导如何使用表引用的命令 whoami 返回当前HBase用户 # 建表 create 'base_tes 阅读全文
posted @ 2018-01-09 17:30
Mars.wang
阅读(669)
评论(0)
推荐(0)
摘要:
除了string,boolean,date等基本数据类型之外,hive还支持三种高级数据类型: 1.ARRAY ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么 阅读全文
posted @ 2018-01-09 17:16
Mars.wang
阅读(3661)
评论(0)
推荐(0)
摘要:
大家都知道,hive的SQL操作非常方便,但是查询过程中需要启动MapReduce,无法做到实时响应。 hbase是hadoop家族中的分布式数据库,与传统关系数据库不同,它底层采用列存储格式,扩展性极高,响应时间也很快,当业务变化大时,可以作为mysql的补充。 幸运的是作为hadoop家族中比较 阅读全文
posted @ 2018-01-09 17:09
Mars.wang
阅读(220)
评论(0)
推荐(0)
摘要:
-- 清空表中的数据,保留表结构 truncate table tmp_userid; insert into tmp_userid values('123456'); -- 搜索库或表支持正则表达式 show tables 'sa*'; show tables in basename; -- 创建 阅读全文
posted @ 2018-01-09 16:57
Mars.wang
阅读(609)
评论(0)
推荐(0)
摘要:
在输出结果较多,需要输出到文件中时,可以在hive CLI之外执行hive -e "sql" > output.txt操作 但当SQL语句太长或太多时,这种方式不是很方便,可以考虑将SQL语句存为sql.hql文件中,然后执行 hive -f sql.hql >output.txt操作 如果是多个语 阅读全文
posted @ 2018-01-09 16:50
Mars.wang
阅读(970)
评论(0)
推荐(0)
浙公网安备 33010602011771号