摘要: pyspark 编写 UDF函数 前言 以前用的是Scala,最近有个东西要用Python,就查了一下如何编写pyspark的UDF。 pyspark udf 1. 也是先定义一个函数,例如: 1. udf的注册,这里需要定义其返回值类型,可从 中引入,如下 1. udf的使用 参考 https:/阅读全文
posted @ 2018-05-07 15:10 wswang 阅读(233) 评论(0) 编辑
摘要: mysql load本地文件失败,提示access denied 解决方式 直接谷歌到stackoverflow,解决方式如下 参考 https://stackoverflow.com/questions/18437689/error 1148 the used command is not all阅读全文
posted @ 2018-04-19 17:53 wswang 阅读(27) 评论(0) 编辑
摘要: 起因 csv文件用Python处理之后,有的地方跟着一个^M,特别好奇,以为是处理过程中产生的,后来想了想不是。 解决办法 1. 尝试使用replace替换掉,但是失败了 2. 查询原因,谷歌一番,发现是Windows处理过的文件容易产生这个符号,但是我在Mac处理的,后来一想,我使用Excel处理阅读全文
posted @ 2018-04-03 14:43 wswang 阅读(68) 评论(0) 编辑
摘要: 起因 上午说数据有部分重复的,leader让我找原因,我说解析没问题,真有问题就是接收端有问题;原因也很充分:只有部分数据重复,如果解析有问题,那么所有的数据都应该重复。 结果leader还是想让我查下处理前的数据,我给说没必要,因为我们可以推断这个处理过程没问题,查处理前的数据=查处理后的数据,本阅读全文
posted @ 2018-03-29 16:50 wswang 阅读(30) 评论(0) 编辑
摘要: Spark shell引入第三方包 如何引入 spark shell jars path/nscala time_2.10 2.12.0.jar 若有多个jar包需要导入,中间用逗号隔开即可。 scala shell引入 scala classpath ~/Downloads/json4s nati阅读全文
posted @ 2018-02-24 19:23 wswang 阅读(252) 评论(0) 编辑
摘要: scala连接数据库 使用JDBC即可: 在sbt中添加对应依赖 在代码中引用 对应的参数如下: 参考 http://blog.cheyo.net/59.html阅读全文
posted @ 2018-02-07 14:39 wswang 阅读(87) 评论(0) 编辑
摘要: com.mysql.jdbc.Driver Not Found 提示很奇怪,在sbt文件中已经引用了,编译也没有问题: 原因 spark submit的时候没有提交对应jar,应该填上,如下: 非spark的jar包,都要写在这里。阅读全文
posted @ 2018-02-07 14:31 wswang 阅读(77) 评论(0) 编辑
摘要: 起因 对数据进行三个维度的排序,用的是 ,结果其中两个维度上结果返回正确,另外一个维度上结果出现了大的排在后面的结果,错误的结果大概如下: 正确维度上如下: 排查 1. 以为是数据取错了,又重复的手工操作了一遍,发现数据还是这样,想应该不是数据的问题 2. 又在怀疑是不是碰到了bug,但是这么多人用阅读全文
posted @ 2018-02-07 11:29 wswang 阅读(155) 评论(0) 编辑
摘要: groupBy 和SQL中groupby一样,只是后面必须结合聚合函数使用才可以。 例如: groupByKey 对Key Value形式的RDD的操作。 例如(取自 "link" ): reduceByKey 与groupByKey功能一样,只是实现不一样。本函数会先在每个分区聚合然后再进行总的统阅读全文
posted @ 2018-01-26 17:52 wswang 阅读(161) 评论(0) 编辑
摘要: forall 对集合中的元素进行某个判断,全部为true则返回true,反之返回false。 例如: exists 对集合中的元素进行某个判断,其中之一符合条件则返回true,反之返回false。和forall是一个对应的关系,相当于 and 和 or。 例如: foreach 对集合中元素进行某种阅读全文
posted @ 2018-01-25 17:26 wswang 阅读(133) 评论(0) 编辑