摘要:1. Hadoop Ecosystem 存储:HDFS (Hadoop distributed file system) 计算:MapReduce 资源调度(resource negotiator):YARN 2. the master-slave architecture of Hadoop ma
阅读全文
摘要:1. 最后老师的答案输出为0.748,用来检测代码正确性 2. estimator有三个,分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit,即一个training的过程。fit之后estimator转变为transformer。token
阅读全文
摘要:1. Spark Shuffle 回顾一下MapReduce的shuffle,即先按照key聚合,再对key进行排序 而spark中的shuffle不一定按key排序,shuffle前称为MapTask阶段,shuffle之后称为ReduceTask阶段 每一个分区分配一个MapTask shuff
阅读全文
摘要:1. FlatMap要求传入的函数是一个集合,将输入的所有list打散放入同一个list中输出 2. Filter返回一个Boolean,collect之后打印符合条件的 3. ReduceByKey将key相同的元素根据需求合并起来,如将相同Key对应的Value相加 rdd.reduceByKe
阅读全文
摘要:1. 环境变量PATH是告诉系统当我们在命令行输入一个命令时(如python,Scala),若当前目录下找不到这个程序,就去PATH里面找 2. echo $PATH查看当前系统环境变量 #注意设置环境变量时候的顺序 3. MapReduce Hadoop体系里面用来计算的部分(数据存储,计算,工作
阅读全文
摘要:1. hadoop分为三部分 Hadoop distributed file system(HDFS) MapReduce YARN(Yet Another Resource Neigotiator) Hadoop2.0才开始有的 2. NameNode可以理解为元数据,不实际存储数据本身(只有一个
阅读全文
摘要:1. Hadoop是一个open-source software framework以分布式方式存储大数据,并行处理大数据,建立在大型商品硬件集群上 2. Hadoop can handle volume, velocity, variety 3. 对volume而言,Hadoop提供: 冗余、容错
阅读全文
摘要:1. 大数据流程 数据源 -- 数据采集 -- 数据存储 -- 数据计算 -- 数据应用 2. 最重要的V volume,variety(不同种类),velocity(速度)
阅读全文
摘要:1. veracity (quality) how correct the data is, shows if we can trust the data challenging因为易于发生,影响巨大且难以控制 2. variability variety指same data, different
阅读全文
摘要:1. not double pass, all homeworks submitted through give. All exams questions are short answers 2. consultation is Friday through zoom from 1 to 2 3.
阅读全文