大数据 - 随笔分类(第2页) - 吱吱了了

Mapreduce运行机制（1）

摘要：https://www.cnblogs.com/sharpxiajun/p/3151395.html 一、Mapreduce简介： 1、Mapreduce是一个计算框架，表现形式是有个输入（input)，Mapreduce操作这个输入(input)，通过本身定义好的计算模型，得到一个输出（outpu 阅读全文

posted @ 2019-06-06 16:17 吱吱了了阅读(888) 评论(0) 推荐(0)

pig学习

摘要：一、pig： pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。它包含了一种脚本语言，称为Pig Latin。（类似SQL）二、pig本地安装(仅用于本地小代码测试）：下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/pig/pig-0 阅读全文

posted @ 2019-05-27 18:21 吱吱了了阅读(1743) 评论(0) 推荐(0)

Hadoop 使用小命令（2）

摘要：一、查看一堆文件共有多少行查看file1/file2目录下所有文件总共多少行 hadoop fs -text file1/file2/* | wc -l 二、正则表达式 hadoop fs -text file1/file2/* | grep ',' 匹配file1/file2/*文件中含逗号'，阅读全文

posted @ 2019-05-22 16:01 吱吱了了阅读(2438) 评论(0) 推荐(0)

hadoop fs 常用命令（1）

摘要：Hadoop： https://blog.csdn.net/mulangren1988/article/details/54860924Hadoop：1. Hadoop fs –fs [local | <file system URI>]：列出在指定目录下的文件内容，支持pattern匹配。输出格阅读全文

posted @ 2019-05-17 09:55 吱吱了了阅读(4165) 评论(0) 推荐(0)

（5）pyspark----共享变量

摘要：如果想在节点之间共享一份变量，spark提供了两种特定的共享变量，来完成节点之间的变量共享。（1）广播变量（2）累加器二、广播变量概念：广播变量允许程序员缓存一个只读的变量在每台机器上，而不是每个任务保存一个拷贝。例如，利用广播变量，我们能够以一种更有效率的方式将一个大数据量输入集合的副本分阅读全文

posted @ 2018-10-12 14:14 吱吱了了阅读(5078) 评论(0) 推荐(0)

（4）pyspark---dataframe清理

摘要：1、交叉表（crosstab)： pandas中也有，常和pivot_table比较。查看家庭ID与评分的交叉表： 2、处理缺失值：fillna withColumn：新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型将缺失值删除：dropna 3、处理重复值查看有阅读全文

posted @ 2018-10-11 13:46 吱吱了了阅读(1885) 评论(0) 推荐(0)

（3）pyspark----dataframe和sql

摘要：1、读取： sparkDF = spark.read.csv(path) sparkDF = spark.read.text(path) 2、打印： sparkDF.show()【这是pandas中没有的】：打印内容 sparkDF.head()：打印前面的内容 sparkDF.describe() 阅读全文

posted @ 2018-10-11 12:48 吱吱了了阅读(1727) 评论(0) 推荐(0)

（2）RDD的基本操作

摘要：一、map操作，map(Transform) 二、collect操作,collect(Action) 三、使用PairRDD来做计算，类似key-value结构采用groupByKey来。将资料按照Key值重新排序。更好的解决方案：reduceByKey（Transform） reduceByK 阅读全文

posted @ 2018-10-10 14:32 吱吱了了阅读(388) 评论(0) 推荐(0)

（2）pyspark建立RDD以及读取文件成dataframe

摘要：别人的相关代码文件：https://github.com/bryanyang0528/hellobi/tree/master/pyspark 1、启动spark （1）SparkSession 是 Spark SQL 的入口。（2）通过 SparkSession.builder 来创建一个 Spa 阅读全文

posted @ 2018-10-09 12:35 吱吱了了阅读(3838) 评论(0) 推荐(0)

（1）安装----anaconda3下配置pyspark【单机】

摘要：1、确保已经安装jdk和anaconda3。【我安装的jdk为1.8，anaconda的python为3.6】 2、安装spark，到官网 http://spark.apache.org/downloads.html 上下载，我下载的是spark-2.3.1-bin-hadoop2.7.tgz。（阅读全文

posted @ 2018-10-09 11:46 吱吱了了阅读(3239) 评论(0) 推荐(0)

（1）安装vagrant和virtualbox

摘要：使用xshell，学校服务器需要先联外网。 1、安装Linux头包（linux-header package): 2、安装virtualbox。【该rpm是centos7 64位新的版本】 3、安装vagrant 【选择合适的新版本】 4、vagrant默认被安装在了 /opt目录下。先cd到va 阅读全文

posted @ 2018-09-30 15:58 吱吱了了阅读(684) 评论(0) 推荐(0)

随笔分类 - 大数据