大数据 - 文章分类 - 带了1个小才艺

HIVE 练习册

摘要：数据集：下载地址：https://files-cdn.cnblogs.com/files/pipemm/hive_data.rar ratings.csv 格式： userid , movieid , rating(评分) , timestamp movies.csv 格式： movieid , 阅读全文

posted @ 2019-09-23 00:14 带了1个小才艺阅读(178) 评论(0) 推荐(0)

Scala 入门笔记

摘要：Scala 函数式编程：感觉spark一般用scala写，甚至spark源码就是用scala实现的，所以就学习一下scala 基础 * 函数求值策略两种方式： call by value - 对函数实参求值，且仅求值一次 call by name - 函数实参每次在函数体内被用到才会求值（函数形阅读全文

posted @ 2019-09-22 11:28 带了1个小才艺阅读(128) 评论(0) 推荐(0)

Spark：pyspark-Demo 练习

摘要：Spark练习 pyspark => Spark 2.4 , local 编写框架 from pyspark import SparkConf,SparkContext # 创建SparkConf：设置的是Spark相关参数信息 conf = SparkConf().setMaster("local 阅读全文

posted @ 2019-09-21 13:00 带了1个小才艺阅读(3263) 评论(2) 推荐(1)

【复习】用hadoop各种组件实践wordCount

摘要：MapReduce Map: Reduce: hadoopStream提交：验证: Spark pyspark代码: 验证： Hive 导入文章 create table wordcount_docs(line string); LOAD DATA INPATH '/The_Man_of_Prop 阅读全文

posted @ 2019-09-08 12:07 带了1个小才艺阅读(180) 评论(0) 推荐(0)

大数据 — Spark笔记2

摘要：Spark（笔记） RDD： RDD是什么？弹性内存和磁盘之间同步数据 RDD可以变成另外一个RDD RDD内部存储数据类型丰富存什么数据？ RDD不存数据，只存数据的分区信息和读取方法（HDFS，其他RDD）依赖（向上依赖）：顶部RDD 非顶部RDD：记录自己来源于谁 — lineage 阅读全文

posted @ 2019-08-20 00:18 带了1个小才艺阅读(116) 评论(0) 推荐(0)

大数据 — Spark笔记1

摘要：Spark（笔记） spark运行模式：本地模式 standalone模式：独立集群（封闭） yarn模式：（开放） yarn-client：AM（driver）在提交任务的本地启动（交互 / 调试方便） yarn-cluster：AM（driver）在某个NN上启动 yarn-client：A 阅读全文

posted @ 2019-08-19 21:11 带了1个小才艺阅读(154) 评论(0) 推荐(0)

大数据 — Spark-RDD

摘要：Spark 1. RDD abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Seri 阅读全文

posted @ 2019-08-19 17:39 带了1个小才艺阅读(136) 评论(0) 推荐(0)

大数据 — Hadoop

摘要：HDFS Hadoop 1.0: 3个组件： Namenode SecondNamenode Datanode Namenode SecondNamenode Datanode namenode（主节点，master，只有一个，单点故障的风险）中间存储信息（元数据） 2种映射关系： datanode 阅读全文

posted @ 2019-08-10 14:58 带了1个小才艺阅读(152) 评论(0) 推荐(0)

大数据 — Yarn

摘要：Yarn: 定位：分布式操作系统作用：资源整合——让系统的资源可以最大化的利用在同一套硬件集群上同时可以运行MR任务，Spark任务，Storm任务等 Yarn中包含重要的角色：RM、NM、AM 1.jobtracker（主进程：任务调度、资源分配） 2.tasktracker（从进程：接受请求阅读全文

posted @ 2019-08-08 21:22 带了1个小才艺阅读(271) 评论(0) 推荐(0)

hive笔记

摘要：Hive笔记 1. Hive是什么？比如：select某一些字段，通过limit取出前几行，只需要把文件从上往下读top几行就可以了，不需要单独启动一个MR 比如 join 2. hive的本质 3. hive在工作中？ update等 4. HiveSQL和传统SQL？ 5. Hive的系统架构阅读全文

posted @ 2019-07-11 11:10 带了1个小才艺阅读(151) 评论(0) 推荐(0)

向量化——>Word2Vec神经网络

摘要：恢复内容开始关于W2V：简单的做个笔记 TF-IDF ——> BM25 Co-Occurrence ——> Word2Vec w2v主流的两种实现算法: 1.CBOW ：周围词预估中心词缺点：每个周围词学习效果相对差一些 2.Skip-Gram ：中心词预估周围词优点：学习效果好缺点：学习速阅读全文

posted @ 2019-06-16 23:05 带了1个小才艺阅读(521) 评论(0) 推荐(0)

emmm

文章分类 - 大数据

公告