willian_zhang - 博客园

2017年3月25日

摘要： 1.修改spark-env.sh 插入以上代码 2.启动spark集群，此时输入jps会出现 [root@master sbin]# jps 17394 Jps 16956 -- main class information unavailable 这是正常的 3.配置idea远程调试由于配置文件阅读全文

posted @ 2017-03-25 13:07 willian_zhang 阅读(2684) 评论(0) 推荐(0)

2017年3月23日

hive安装以及hive on spark

摘要： spark由于一些链式的操作，spark 2.1目前只支持hive1.2.1 到http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/ 网址下载hive1.2.1的部署包 2.配置系统环境变量/etc/profile 3. 解压 4.修改配置文件可不做任何阅读全文

posted @ 2017-03-23 22:43 willian_zhang 阅读(1449) 评论(0) 推荐(0)

spark SQL

摘要： spark sql是spark用来处理结构化数据的模块，它提供了一个编程抽象叫做dataframe，并且作为分布式sql查询引擎的作用与rdd类似，dataframe是一个分布式数据容器，除了数据以外，还记录了数据的结构信息，schema。 dsl风格 sql风格 sql风格要先用register 阅读全文

posted @ 2017-03-23 10:32 willian_zhang 阅读(167) 评论(0) 推荐(0)

2017年3月22日

spark 任务提交流程

摘要： 1.通过以上代码提交运行jar包， 2. 阅读全文

posted @ 2017-03-22 16:41 willian_zhang 阅读(485) 评论(0) 推荐(0)

2017年3月19日

sspark自定义排序

摘要：如上，加入存储数据的类，并重写比较方法即可阅读全文

posted @ 2017-03-19 11:14 willian_zhang 阅读(202) 评论(0) 推荐(0)

2017年3月18日

spark解决hash碰撞

摘要：问题背景：pairRDD 调用spark存入文件的api时，最后结果文件的个数（就是分区的个数）取决于PariRDD中的key的hash值, 解决后可是相同key的数据到同一个partitioner中解决方法：整个代码如下：阅读全文

posted @ 2017-03-18 23:14 willian_zhang 阅读(1184) 评论(0) 推荐(0)

2017年3月17日

spark rdd高级算子 scala版

摘要： mapPartitionsWithIndex 传入参数是一个接受两个参数的函数，第一参数是partition的编号，第二个参数是各个分区的数据迭代器 aggregate val rdd3 = sc.parallelize(List("12","23","345","4567"),2)rdd3.agg 阅读全文

posted @ 2017-03-17 16:38 willian_zhang 阅读(532) 评论(0) 推荐(0)

2017年3月13日

centos7.2安装python35

摘要：安装python3(自动安装pip3): yum install gcc yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel #不安装依赖可能安装完成后没有pip3 软件到阅读全文

posted @ 2017-03-13 11:16 willian_zhang 阅读(1191) 评论(0) 推荐(0)

2017年3月11日

python spark

摘要： 1: spark使用python3 pip3 install py4j (服务器和本机都要安装) 服务器提交python3脚本本机调试python脚本 Environment variables，点击后面的编辑框，在变量栏目中依次添加PYTHONPATH,值为spark目录／python，SPAR 阅读全文

posted @ 2017-03-11 09:10 willian_zhang 阅读(257) 评论(0) 推荐(0)

2017年3月10日

spark python算子讲解

摘要： 1：spark的算子分类 2：创建rdd的两种方式 2:spark python高级算子 1.mapPartitions 2.mapPartitionsWithIndex Similar to mapPartitions, but also provides a function with an i 阅读全文

posted @ 2017-03-10 12:48 willian_zhang 阅读(694) 评论(0) 推荐(0)