12 2020 档案

摘要:map transformation算子 idea显示,map的输入参数是一个函数,其中函数的输入与数据有关,本次输入是一个字符串,输出可以是很多种数据类型 map 字符串转列表 data.map(fun1).foreach(println) def fun1(x:String):List[Stri 阅读全文
posted @ 2020-12-31 14:25 bioamin 阅读(258) 评论(0) 推荐(0)
摘要:filter是一个transformation 类的算子:过滤符合条件的记录数,true保留,false过滤掉。 查看idea提示:输入和数据有关系,本次输入的是一个元组(String,Int),输出是一个Boolean类型的变量 需求:就元组的第一个字符包含"Caused"的过滤输出 方式一: v 阅读全文
posted @ 2020-12-31 13:50 bioamin 阅读(554) 评论(0) 推荐(0)
摘要:foreach 是一个action算子,不会触发shuffle 读取数据后,查看idea提示,foreach算子要求输入一个函数,这个函数的输入和数据相关(本次是String类型的变量),返回值为空。 需求:读取数据,利用foreach算子,输入一个函数,输出时在每个数据的首部加一个字符串head。 阅读全文
posted @ 2020-12-31 11:43 bioamin 阅读(1502) 评论(0) 推荐(0)
摘要:import scala.io.Source val data:String=args(0) Source.fromFile(data).foreach{print} 完整代码如下: package com.cslc import scala.io.Source object Day01 { def 阅读全文
posted @ 2020-12-31 11:00 bioamin 阅读(215) 评论(0) 推荐(0)
摘要:kylin构建报错,日志如下: java.lang.RuntimeException: cannot get HiveTableMeta at org.apache.kylin.source.hive.HiveTable.<init>(HiveTable.java:50) at org.apache 阅读全文
posted @ 2020-12-30 19:17 bioamin 阅读(827) 评论(0) 推荐(0)
摘要:一、为什么要做数据质量: 在大数据ETL过程中,如何保障数据质量,减少用户投诉?做数据质量! 二、什么时候做数据质量: 数据发生跨平台转移,包括但不限于:1、ftp数据到hive;2、oracle数据到hive;3、mysql数据到hive;4、hive到click house; 三、常见的错误类型 阅读全文
posted @ 2020-12-30 17:08 bioamin 阅读(709) 评论(0) 推荐(0)
摘要:spark的groupByKey算子结果按key进行分组,生成了一组CompactBuffer结构的数据。CompactBuffer并不是scala里定义的数据结构,而是spark里的数据结构,它继承自一个迭代器和序列,所以它的返回值是一个很容易进行循环遍历的集合 val spark = Spark 阅读全文
posted @ 2020-12-29 13:32 bioamin 阅读(860) 评论(0) 推荐(0)
摘要:环境 : cdh5.15 parcels部署 登陆对应节点,查看对应的日志 tail -10000f /var/run/cloudera-scm-agent/process/ccdeploy_hadoop-conf_etchadoopconf.cloudera.hdfs_62604495017836 阅读全文
posted @ 2020-12-09 11:50 bioamin 阅读(1070) 评论(0) 推荐(0)