wswang - 博客园

2018年6月29日

摘要：昨天搜了一下，感觉这篇文章很好，链接如下： https://foofish.net/python gc.html 阅读全文

posted @ 2018-06-29 16:55 wswang 阅读(188) 评论(0) 推荐(0)

2018年6月25日

摘要：前言本文写于2017年，时至今日，共享单车领域早已物是人非，再回过头来看当时的想法，也是感慨万千。最早发表于简书，今日将其内容合并于博客园，欢迎各位交流。 1. 去年（2016）共享单车刚起来的时候，看到一个同事的发言，大概意思是：现代社会，以颜取胜，所以这次比拼我占摩拜。对于这种言论，我当时的阅读全文

posted @ 2018-06-25 10:36 wswang 阅读(345) 评论(0) 推荐(0)

2018年5月7日

pyspark 编写 UDF函数

摘要： pyspark 编写 UDF函数前言以前用的是Scala，最近有个东西要用Python，就查了一下如何编写pyspark的UDF。 pyspark udf 1. 也是先定义一个函数，例如： 1. udf的注册，这里需要定义其返回值类型，可从中引入，如下 1. udf的使用参考 https:/ 阅读全文

posted @ 2018-05-07 15:10 wswang 阅读(11801) 评论(0) 推荐(0)

2018年4月19日

mysql load本地文件失败，提示access denied

摘要： mysql load本地文件失败，提示access denied 解决方式直接谷歌到stackoverflow，解决方式如下参考 https://stackoverflow.com/questions/18437689/error 1148 the used command is not all 阅读全文

posted @ 2018-04-19 17:53 wswang 阅读(990) 评论(0) 推荐(0)

2018年4月3日

如何去掉文件里的^M

摘要：起因 csv文件用Python处理之后，有的地方跟着一个^M，特别好奇，以为是处理过程中产生的，后来想了想不是。解决办法 1. 尝试使用replace替换掉，但是失败了 2. 查询原因，谷歌一番，发现是Windows处理过的文件容易产生这个符号，但是我在Mac处理的，后来一想，我使用Excel处理阅读全文

posted @ 2018-04-03 14:43 wswang 阅读(2460) 评论(0) 推荐(0)

2018年3月29日

我错了一半？

摘要：起因上午说数据有部分重复的，leader让我找原因，我说解析没问题，真有问题就是接收端有问题；原因也很充分：只有部分数据重复，如果解析有问题，那么所有的数据都应该重复。结果leader还是想让我查下处理前的数据，我给说没必要，因为我们可以推断这个处理过程没问题，查处理前的数据=查处理后的数据，本阅读全文

posted @ 2018-03-29 16:50 wswang 阅读(186) 评论(0) 推荐(0)

2018年2月24日

Spark-shell引入第三方包

摘要： Spark shell引入第三方包如何引入 spark shell jars path/nscala time_2.10 2.12.0.jar 若有多个jar包需要导入，中间用逗号隔开即可。 scala shell引入 scala classpath ~/Downloads/json4s nati 阅读全文

posted @ 2018-02-24 19:23 wswang 阅读(6082) 评论(0) 推荐(1)

2018年2月7日

scala连接数据库

摘要： scala连接数据库使用JDBC即可：在sbt中添加对应依赖在代码中引用对应的参数如下：参考 http://blog.cheyo.net/59.html 阅读全文

posted @ 2018-02-07 14:39 wswang 阅读(1768) 评论(0) 推荐(0)

Spark提交任务提示 com.mysql.jdbc.Driver Class not found

摘要： com.mysql.jdbc.Driver Not Found 提示很奇怪，在sbt文件中已经引用了，编译也没有问题：原因 spark submit的时候没有提交对应jar，应该填上，如下：非spark的jar包，都要写在这里。阅读全文

posted @ 2018-02-07 14:31 wswang 阅读(2107) 评论(0) 推荐(0)

Spark orderBy(desc("col"))部分数据排序失败

摘要：起因对数据进行三个维度的排序，用的是，结果其中两个维度上结果返回正确，另外一个维度上结果出现了大的排在后面的结果，错误的结果大概如下：正确维度上如下：排查 1. 以为是数据取错了，又重复的手工操作了一遍，发现数据还是这样，想应该不是数据的问题 2. 又在怀疑是不是碰到了bug，但是这么多人用阅读全文

posted @ 2018-02-07 11:29 wswang 阅读(3976) 评论(0) 推荐(0)

Python，Docker，Linux

先用起来再说

公告