文章分类 - 大数据
摘要:数据集: 下载地址:https://files-cdn.cnblogs.com/files/pipemm/hive_data.rar ratings.csv 格式: userid , movieid , rating(评分) , timestamp movies.csv 格式: movieid ,
阅读全文
摘要:Scala 函数式编程:感觉spark一般用scala写,甚至spark源码就是用scala实现的,所以就学习一下scala 基础 * 函数 求值策略 两种方式: call by value - 对函数实参求值,且仅求值一次 call by name - 函数实参每次在函数体内被用到才会求值(函数形
阅读全文
摘要:Spark练习 pyspark => Spark 2.4 , local 编写框架 from pyspark import SparkConf,SparkContext # 创建SparkConf:设置的是Spark相关参数信息 conf = SparkConf().setMaster("local
阅读全文
摘要:MapReduce Map: Reduce: hadoopStream提交: 验证: Spark pyspark代码: 验证: Hive 导入文章 create table wordcount_docs(line string); LOAD DATA INPATH '/The_Man_of_Prop
阅读全文
摘要:Spark(笔记) RDD: RDD是什么? 弹性 内存和磁盘之间同步数据 RDD可以变成另外一个RDD RDD内部存储数据类型丰富 存什么数据? RDD不存数据,只存数据的分区信息和读取方法(HDFS,其他RDD) 依赖(向上依赖): 顶部RDD 非顶部RDD:记录自己来源于谁 — lineage
阅读全文
摘要:Spark(笔记) spark运行模式: 本地模式 standalone模式:独立集群(封闭) yarn模式:(开放) yarn-client:AM(driver)在提交任务的本地启动 (交互 / 调试方便) yarn-cluster:AM(driver)在某个NN上启动 yarn-client:A
阅读全文
摘要:Spark 1. RDD abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Seri
阅读全文
摘要:HDFS Hadoop 1.0: 3个组件: Namenode SecondNamenode Datanode Namenode SecondNamenode Datanode namenode(主节点,master,只有一个,单点故障的风险)中间存储信息(元数据) 2种映射关系: datanode
阅读全文
摘要:Yarn: 定位:分布式操作系统 作用:资源整合——让系统的资源可以最大化的利用 在同一套硬件集群上同时可以运行MR任务,Spark任务,Storm任务等 Yarn中包含重要的角色:RM、NM、AM 1.jobtracker(主进程:任务调度、资源分配) 2.tasktracker(从进程:接受请求
阅读全文
摘要:Hive笔记 1. Hive是什么? 比如:select某一些字段,通过limit取出前几行,只需要把文件从上往下读top几行就可以了,不需要单独启动一个MR 比如 join 2. hive的本质 3. hive在工作中? update等 4. HiveSQL和传统SQL? 5. Hive的系统架构
阅读全文
摘要:恢复内容开始 关于W2V:简单的做个笔记 TF-IDF ——> BM25 Co-Occurrence ——> Word2Vec w2v主流的两种实现算法: 1.CBOW :周围词预估中心词 缺点:每个周围词学习效果相对差一些 2.Skip-Gram :中心词预估周围词 优点:学习效果好 缺点:学习速
阅读全文