Kaivenblog - 博客园

2020年4月2日

摘要： Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供Clas 阅读全文

posted @ 2020-04-02 18:10 Kaivenblog 阅读(1378) 评论(0) 推荐(0)

2019年5月7日

numpy.bincount正确理解

摘要：今天看了个方法，numpy.bincount首先官网文档： numpy.bincount Count number of occurrences of each value in array of non-negative ints. The number of bins (of size 1) i 阅读全文

posted @ 2019-05-07 11:51 Kaivenblog 阅读(5462) 评论(0) 推荐(0)

2019年1月24日

python调用scala或java包

摘要：项目中用到python操作hdfs的问题，一般都是使用python的hdfs包，然而这个包初始化起来太麻烦，需要: 可以看到python需要指定master的地址，平时Scala使用的时候不用这样，如下：如果我们要在本地测试和生产打包发布的时候，python这样需要每次修改master地址的方式很阅读全文

posted @ 2019-01-24 11:40 Kaivenblog 阅读(2900) 评论(0) 推荐(0)

2018年7月14日

Windows配置本地Hadoop运行环境

摘要：很多人喜欢用Windows本地开发Hadoop程序，这里是一个在Windows下配置Hadoop的教程。首先去官网下载hadoop，这里需要下载一个工具winutils，这个工具是编译hadoop用的，下载完之后解压hadoop文件，然后把winutils.exe放到hadoop文件的bin目录下阅读全文

posted @ 2018-07-14 23:34 Kaivenblog 阅读(3515) 评论(0) 推荐(0)

2018年7月5日

Spark性能调优-高级篇

摘要：前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作阅读全文

posted @ 2018-07-05 14:51 Kaivenblog 阅读(3149) 评论(1) 推荐(0)

Spark性能调优-基础篇

摘要：前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果阅读全文

posted @ 2018-07-05 12:16 Kaivenblog 阅读(1509) 评论(0) 推荐(0)

2018年5月8日

python编码问题

摘要：在 Python 里，有三大类 string 类型，unicode（text string），str（byte string，二进制数据），basestring，是前两者的父类。其实，在语言设计领域，一串字节（sequences of bytes）是否应该当做字符串（string）一直是存在争议的阅读全文

posted @ 2018-05-08 15:44 Kaivenblog 阅读(169) 评论(0) 推荐(0)

Spark Yarn-cluster与Yarn-client

摘要：总览二者在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-Cluster适用于生产环境，而Yarn-Clientr更适用于交互，调试模式，以下是它们的区别 Spark插拨式资源管理 Spark支持Yarn,Mesos,Standalone 阅读全文

posted @ 2018-05-08 11:43 Kaivenblog 阅读(325) 评论(0) 推荐(0)

2018年3月20日

百度和谷歌的逆地址解析及GPS、谷歌地图和百度地图坐标之间的转换（python版）

摘要： PostGis用函数转换之后的4326坐标为GPS坐标，这个坐标不能直接在谷歌maps的API上面直接使用需要经过上面的转换，因为谷歌地图的国内参考坐标系为GCJ-02，而一般GPS为WGS84的坐标系。而且同一坐标百度和谷歌API逆向地址解析之后的结果不一致，这个需要后续验证：谷歌：https: 阅读全文

posted @ 2018-03-20 10:38 Kaivenblog 阅读(5331) 评论(0) 推荐(0)

2018年2月22日

HIVE和HADOOP的一些东西

摘要：今天刚上班就要更新一个hive表（新年好呀我想说...），由于建立的外表直接替换hdfs文件就行了，但是替换完发现少了二行数据，原来之前做了关联，这就要用到hive的insert了！先来说一下hive的外部表： 1、在导入数据到外部表，数据并没有移动到自己的数据仓库目录下，也就是说外部表中的数据并阅读全文

posted @ 2018-02-22 18:05 Kaivenblog 阅读(187) 评论(0) 推荐(0)

凯文の博客

持之以恒、勿忘初心、沉默是金

公告