摘要:https://www.cnblogs.com/sharpxiajun/p/3151395.html 一、Mapreduce简介: 1、Mapreduce是一个计算框架,表现形式是有个输入(input),Mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(outpu
阅读全文
摘要:一、pig: pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。它包含了一种脚本语言,称为Pig Latin。(类似SQL) 二、pig本地安装(仅用于本地小代码测试): 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/pig/pig-0
阅读全文
摘要:一、查看一堆文件共有多少行 查看file1/file2目录下所有文件总共多少行 hadoop fs -text file1/file2/* | wc -l 二、正则表达式 hadoop fs -text file1/file2/* | grep ',' 匹配file1/file2/*文件中含逗号',
阅读全文
摘要:Hadoop: https://blog.csdn.net/mulangren1988/article/details/54860924Hadoop:1. Hadoop fs –fs [local | <file system URI>]: 列出在指定目录下的文件内容,支持pattern匹配。输出格
阅读全文
摘要:如果想在节点之间共享一份变量,spark提供了两种特定的共享变量,来完成节点之间的变量共享。 (1)广播变量(2)累加器 二、广播变量 概念: 广播变量允许程序员缓存一个只读的变量在每台机器上,而不是每个任务保存一个拷贝。例如,利用广播变量,我们能够以一种更有效率的方式将一个大数据量输入集合的副本分
阅读全文
摘要:1、交叉表(crosstab): pandas中也有,常和pivot_table比较。 查看家庭ID与评分的交叉表: 2、处理缺失值:fillna withColumn:新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型 将缺失值删除:dropna 3、处理重复值 查看有
阅读全文
摘要:1、读取: sparkDF = spark.read.csv(path) sparkDF = spark.read.text(path) 2、打印: sparkDF.show()【这是pandas中没有的】:打印内容 sparkDF.head():打印前面的内容 sparkDF.describe()
阅读全文
摘要:一、map操作,map(Transform) 二、collect操作,collect(Action) 三、使用PairRDD来做计算,类似key-value结构 采用groupByKey来。将资料按照Key值重新排序。 更好的解决方案:reduceByKey(Transform) reduceByK
阅读全文
摘要:别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark 1、启动spark (1)SparkSession 是 Spark SQL 的入口。 (2)通过 SparkSession.builder 来创建一个 Spa
阅读全文
摘要:1、确保已经安装jdk和anaconda3。【我安装的jdk为1.8,anaconda的python为3.6】 2、安装spark,到官网 http://spark.apache.org/downloads.html 上下载,我下载的是spark-2.3.1-bin-hadoop2.7.tgz。 (
阅读全文
摘要:使用xshell,学校服务器需要先联外网。 1、安装Linux头包(linux-header package): 2、安装virtualbox。【该rpm是centos7 64位新的版本】 3、安装vagrant 【选择合适的新版本】 4、vagrant默认被安装在了 /opt目录下。 先cd到va
阅读全文