摘要:
1.修改spark-env.sh 插入以上代码 2.启动spark集群,此时输入jps会出现 [root@master sbin]# jps 17394 Jps 16956 -- main class information unavailable 这是正常的 3.配置idea远程调试 由于配置文件
阅读全文
posted @ 2017-03-25 13:07
willian_zhang
阅读(2682)
推荐(0)
摘要:
spark由于一些链式的操作,spark 2.1目前只支持hive1.2.1 到http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/ 网址下载hive1.2.1的部署包 2.配置系统环境变量/etc/profile 3. 解压 4.修改配置文件 可不做任何
阅读全文
posted @ 2017-03-23 22:43
willian_zhang
阅读(1447)
推荐(0)
摘要:
spark sql是spark用来处理结构化数据的模块,它提供了一个编程抽象叫做dataframe,并且作为分布式sql查询引擎的作用 与rdd类似,dataframe是一个分布式数据容器,除了数据以外,还记录了数据的结构信息,schema。 dsl风格 sql风格 sql风格要先用register
阅读全文
posted @ 2017-03-23 10:32
willian_zhang
阅读(167)
推荐(0)
摘要:
1.通过以上代码提交运行jar包, 2.
阅读全文
posted @ 2017-03-22 16:41
willian_zhang
阅读(481)
推荐(0)
摘要:
如上,加入存储数据的类,并重写比较方法即可
阅读全文
posted @ 2017-03-19 11:14
willian_zhang
阅读(198)
推荐(0)
摘要:
问题背景:pairRDD 调用spark存入文件的api时,最后结果文件的个数(就是分区的个数)取决于PariRDD中的key的hash值, 解决后可是相同key的数据到同一个partitioner中 解决方法: 整个代码如下:
阅读全文
posted @ 2017-03-18 23:14
willian_zhang
阅读(1182)
推荐(0)
摘要:
mapPartitionsWithIndex 传入参数是一个接受两个参数的函数,第一参数是partition的编号,第二个参数是各个分区的数据迭代器 aggregate val rdd3 = sc.parallelize(List("12","23","345","4567"),2)rdd3.agg
阅读全文
posted @ 2017-03-17 16:38
willian_zhang
阅读(530)
推荐(0)
摘要:
安装python3(自动安装pip3): yum install gcc yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel #不安装依赖可能安装完成后没有pip3 软件 到
阅读全文
posted @ 2017-03-13 11:16
willian_zhang
阅读(1190)
推荐(0)
摘要:
1: spark使用python3 pip3 install py4j (服务器和本机都要安装) 服务器提交python3脚本 本机调试python脚本 Environment variables,点击后面的编辑框,在变量栏目中依次添加PYTHONPATH,值为spark目录/python,SPAR
阅读全文
posted @ 2017-03-11 09:10
willian_zhang
阅读(255)
推荐(0)
摘要:
1:spark的算子分类 2:创建rdd的两种方式 2:spark python高级算子 1.mapPartitions 2.mapPartitionsWithIndex Similar to mapPartitions, but also provides a function with an i
阅读全文
posted @ 2017-03-10 12:48
willian_zhang
阅读(690)
推荐(0)