摘要: Spark SQL支持数据源使用JDBC从其他数据库读取数据。 与使用JdbcRDD相比,应优先使用此功能。 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用,因为它不需要用户提供Clas 阅读全文
posted @ 2020-04-02 18:10 Kaivenblog 阅读(1225) 评论(0) 推荐(0) 编辑
摘要: 今天看了个方法,numpy.bincount首先官网文档: numpy.bincount Count number of occurrences of each value in array of non-negative ints. The number of bins (of size 1) i 阅读全文
posted @ 2019-05-07 11:51 Kaivenblog 阅读(5340) 评论(0) 推荐(0) 编辑
摘要: 项目中用到python操作hdfs的问题,一般都是使用python的hdfs包,然而这个包初始化起来太麻烦,需要: 可以看到python需要指定master的地址,平时Scala使用的时候不用这样,如下: 如果我们要在本地测试和生产打包发布的时候,python这样需要每次修改master地址的方式很 阅读全文
posted @ 2019-01-24 11:40 Kaivenblog 阅读(2815) 评论(0) 推荐(0) 编辑
摘要: 很多人喜欢用Windows本地开发Hadoop程序,这里是一个在Windows下配置Hadoop的教程。 首先去官网下载hadoop,这里需要下载一个工具winutils,这个工具是编译hadoop用的,下载完之后解压hadoop文件,然后把winutils.exe放到hadoop文件的bin目录下 阅读全文
posted @ 2018-07-14 23:34 Kaivenblog 阅读(3305) 评论(0) 推荐(0) 编辑
摘要: 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 阅读全文
posted @ 2018-07-05 14:51 Kaivenblog 阅读(3100) 评论(1) 推荐(0) 编辑
摘要: 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果 阅读全文
posted @ 2018-07-05 12:16 Kaivenblog 阅读(1484) 评论(0) 推荐(0) 编辑
摘要: 在 Python 里,有三大类 string 类型,unicode(text string),str(byte string,二进制数据),basestring,是前两者的父类。 其实,在语言设计领域,一串字节(sequences of bytes)是否应该当做字符串(string)一直是存在争议的 阅读全文
posted @ 2018-05-08 15:44 Kaivenblog 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 总览二者 在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-Cluster适用于生产环境,而Yarn-Clientr更适用于交互,调试模式,以下是它们的区别 Spark插拨式资源管理 Spark支持Yarn,Mesos,Standalone 阅读全文
posted @ 2018-05-08 11:43 Kaivenblog 阅读(280) 评论(0) 推荐(0) 编辑
摘要: PostGis用函数转换之后的4326坐标为GPS坐标,这个坐标不能直接在谷歌maps的API上面直接使用需要经过上面的转换,因为谷歌地图的国内参考坐标系为GCJ-02,而一般GPS为WGS84的坐标系。而且同一坐标百度和谷歌API逆向地址解析之后的结果不一致,这个需要后续验证: 谷歌:https: 阅读全文
posted @ 2018-03-20 10:38 Kaivenblog 阅读(4997) 评论(0) 推荐(0) 编辑
摘要: 今天刚上班就要更新一个hive表(新年好呀我想说...),由于建立的外表直接替换hdfs文件就行了,但是替换完发现少了二行数据,原来之前做了关联,这就要用到hive的insert了! 先来说一下hive的外部表: 1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并 阅读全文
posted @ 2018-02-22 18:05 Kaivenblog 阅读(161) 评论(0) 推荐(0) 编辑