上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 28 下一页
摘要: 昨天搜了一下,感觉这篇文章很好,链接如下: https://foofish.net/python gc.html 阅读全文
posted @ 2018-06-29 16:55 wswang 阅读(187) 评论(0) 推荐(0)
摘要: 前言 本文写于2017年,时至今日,共享单车领域早已物是人非,再回过头来看当时的想法,也是感慨万千。 最早发表于简书,今日将其内容合并于博客园,欢迎各位交流。 1. 去年(2016)共享单车刚起来的时候,看到一个同事的发言,大概意思是:现代社会,以颜取胜,所以这次比拼我占摩拜。对于这种言论,我当时的 阅读全文
posted @ 2018-06-25 10:36 wswang 阅读(338) 评论(0) 推荐(0)
摘要: pyspark 编写 UDF函数 前言 以前用的是Scala,最近有个东西要用Python,就查了一下如何编写pyspark的UDF。 pyspark udf 1. 也是先定义一个函数,例如: 1. udf的注册,这里需要定义其返回值类型,可从 中引入,如下 1. udf的使用 参考 https:/ 阅读全文
posted @ 2018-05-07 15:10 wswang 阅读(11796) 评论(0) 推荐(0)
摘要: mysql load本地文件失败,提示access denied 解决方式 直接谷歌到stackoverflow,解决方式如下 参考 https://stackoverflow.com/questions/18437689/error 1148 the used command is not all 阅读全文
posted @ 2018-04-19 17:53 wswang 阅读(987) 评论(0) 推荐(0)
摘要: 起因 csv文件用Python处理之后,有的地方跟着一个^M,特别好奇,以为是处理过程中产生的,后来想了想不是。 解决办法 1. 尝试使用replace替换掉,但是失败了 2. 查询原因,谷歌一番,发现是Windows处理过的文件容易产生这个符号,但是我在Mac处理的,后来一想,我使用Excel处理 阅读全文
posted @ 2018-04-03 14:43 wswang 阅读(2452) 评论(0) 推荐(0)
摘要: 起因 上午说数据有部分重复的,leader让我找原因,我说解析没问题,真有问题就是接收端有问题;原因也很充分:只有部分数据重复,如果解析有问题,那么所有的数据都应该重复。 结果leader还是想让我查下处理前的数据,我给说没必要,因为我们可以推断这个处理过程没问题,查处理前的数据=查处理后的数据,本 阅读全文
posted @ 2018-03-29 16:50 wswang 阅读(182) 评论(0) 推荐(0)
摘要: Spark shell引入第三方包 如何引入 spark shell jars path/nscala time_2.10 2.12.0.jar 若有多个jar包需要导入,中间用逗号隔开即可。 scala shell引入 scala classpath ~/Downloads/json4s nati 阅读全文
posted @ 2018-02-24 19:23 wswang 阅读(6078) 评论(0) 推荐(1)
摘要: scala连接数据库 使用JDBC即可: 在sbt中添加对应依赖 在代码中引用 对应的参数如下: 参考 http://blog.cheyo.net/59.html 阅读全文
posted @ 2018-02-07 14:39 wswang 阅读(1763) 评论(0) 推荐(0)
摘要: com.mysql.jdbc.Driver Not Found 提示很奇怪,在sbt文件中已经引用了,编译也没有问题: 原因 spark submit的时候没有提交对应jar,应该填上,如下: 非spark的jar包,都要写在这里。 阅读全文
posted @ 2018-02-07 14:31 wswang 阅读(2102) 评论(0) 推荐(0)
摘要: 起因 对数据进行三个维度的排序,用的是 ,结果其中两个维度上结果返回正确,另外一个维度上结果出现了大的排在后面的结果,错误的结果大概如下: 正确维度上如下: 排查 1. 以为是数据取错了,又重复的手工操作了一遍,发现数据还是这样,想应该不是数据的问题 2. 又在怀疑是不是碰到了bug,但是这么多人用 阅读全文
posted @ 2018-02-07 11:29 wswang 阅读(3970) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 28 下一页