2022年8月5日
摘要: 1、groupBy不用考虑数据格式,而groupByKey必须是kv数据格式 2、groupBy需要指定分组规则,而groupByKey是根据key对value分组 3、返回值类型不同,groupBy是将整条数据放在集合中,groupByKey只是将value放在集合中,例如: val value1 阅读全文
posted @ 2022-08-05 16:33 吴玉川 阅读(327) 评论(0) 推荐(0)
摘要: 方法:mkString() 举例:glomRDD.collect().foreach(ele=>println(ele.mkString(","))) 阅读全文
posted @ 2022-08-05 09:59 吴玉川 阅读(293) 评论(0) 推荐(0)
  2022年5月31日
摘要: class Person(name: String, age: Int) 类似Java中的 class Person { public Person(String name, int age) { } } 这种情况下name,age只是构造方法的参数 属于局部变量 class Person(var 阅读全文
posted @ 2022-05-31 15:05 吴玉川 阅读(81) 评论(0) 推荐(0)
  2022年4月30日
摘要: 数据处理角度 Map算子是分区内一个数据一个数据的执行,类似于串行操作。而mapPartitions算子是以分区为单位进行批处理操作。 功能的角度 Map算子主要目的将数据源中的数据进行转换和改变。但是不会减少或增多数据。MapPartitions算子需要传递一个迭代器,返回一个迭代器,没有要求的元 阅读全文
posted @ 2022-04-30 17:03 吴玉川 阅读(90) 评论(0) 推荐(0)
  2020年3月27日
摘要: Rank,Dense_rank,Row_number函数为每条记录产生一个从1开始至N的自然数,N的值可能小于等于记录的总数。这3个函数的唯一区别在于当碰到相同数据时的排名策略。 ①ROW_NUMBER: Row_number函数返回一个唯一的值,当碰到相同数据时,排名按照记录集中记录的顺序依次递增 阅读全文
posted @ 2020-03-27 17:12 吴玉川 阅读(418) 评论(0) 推荐(0)
摘要: 分析函数语法: FUNCTION_NAME(<argument>,<argument>...) OVER (<Partition-Clause><Order-by-Clause><Windowing Clause>) 例: sum(sal) over (partition by deptno ord 阅读全文
posted @ 2020-03-27 14:22 吴玉川 阅读(2533) 评论(0) 推荐(0)
  2020年2月15日
摘要: 在mapreduce程序中 //设置输入和输出路径 FileInputFormat.setInputPaths(job,new Path("E:\\Date\\input")); FileOutputFormat.setOutputPath(job,new Path("E:\\Date\\out") 阅读全文
posted @ 2020-02-15 17:21 吴玉川 阅读(2232) 评论(0) 推荐(0)
  2020年2月12日
摘要: unix_timestamp 将某种格式的时间转换为时间戳 用法:unix_timestamp(String str) 如果参数str格式满足yyyy-MM-DD HH:mm:ss格式,例如:str值为2020-02-02 02:02:02,用法为 select unix_timestamp(202 阅读全文
posted @ 2020-02-12 11:18 吴玉川 阅读(4436) 评论(0) 推荐(0)