随笔分类 -  comp9313

final
摘要:1. Hadoop Ecosystem 存储:HDFS (Hadoop distributed file system) 计算:MapReduce 资源调度(resource negotiator):YARN 2. the master-slave architecture of Hadoop ma 阅读全文

posted @ 2021-01-20 08:19 Eleni 阅读(134) 评论(1) 推荐(0)

project 2
摘要:1. 最后老师的答案输出为0.748,用来检测代码正确性 2. estimator有三个,分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit,即一个training的过程。fit之后estimator转变为transformer。token 阅读全文

posted @ 2020-08-17 10:14 Eleni 阅读(235) 评论(0) 推荐(0)

班课5
摘要:1. Spark Shuffle 回顾一下MapReduce的shuffle,即先按照key聚合,再对key进行排序 而spark中的shuffle不一定按key排序,shuffle前称为MapTask阶段,shuffle之后称为ReduceTask阶段 每一个分区分配一个MapTask shuff 阅读全文

posted @ 2020-07-06 20:22 Eleni 阅读(201) 评论(0) 推荐(0)

班课4
摘要:1. FlatMap要求传入的函数是一个集合,将输入的所有list打散放入同一个list中输出 2. Filter返回一个Boolean,collect之后打印符合条件的 3. ReduceByKey将key相同的元素根据需求合并起来,如将相同Key对应的Value相加 rdd.reduceByKe 阅读全文

posted @ 2020-07-03 08:19 Eleni 阅读(119) 评论(0) 推荐(0)

班课3
摘要:1. 环境变量PATH是告诉系统当我们在命令行输入一个命令时(如python,Scala),若当前目录下找不到这个程序,就去PATH里面找 2. echo $PATH查看当前系统环境变量 #注意设置环境变量时候的顺序 3. MapReduce Hadoop体系里面用来计算的部分(数据存储,计算,工作 阅读全文

posted @ 2020-06-22 10:47 Eleni 阅读(95) 评论(0) 推荐(0)

班课2
摘要:1. hadoop分为三部分 Hadoop distributed file system(HDFS) MapReduce YARN(Yet Another Resource Neigotiator) Hadoop2.0才开始有的 2. NameNode可以理解为元数据,不实际存储数据本身(只有一个 阅读全文

posted @ 2020-06-16 15:40 Eleni 阅读(115) 评论(0) 推荐(0)

班课2
摘要:1. Hadoop是一个open-source software framework以分布式方式存储大数据,并行处理大数据,建立在大型商品硬件集群上 2. Hadoop can handle volume, velocity, variety 3. 对volume而言,Hadoop提供: 冗余、容错 阅读全文

posted @ 2020-06-12 12:31 Eleni 阅读(143) 评论(2) 推荐(0)

班课1
摘要:1. 大数据流程 数据源 -- 数据采集 -- 数据存储 -- 数据计算 -- 数据应用 2. 最重要的V volume,variety(不同种类),velocity(速度) 阅读全文

posted @ 2020-06-08 16:09 Eleni 阅读(107) 评论(0) 推荐(0)

lecture 2
摘要:1. veracity (quality) how correct the data is, shows if we can trust the data challenging因为易于发生,影响巨大且难以控制 2. variability variety指same data, different 阅读全文

posted @ 2020-06-05 14:30 Eleni 阅读(126) 评论(0) 推荐(0)

lecture 1
摘要:1. not double pass, all homeworks submitted through give. All exams questions are short answers 2. consultation is Friday through zoom from 1 to 2 3. 阅读全文

posted @ 2020-06-02 16:26 Eleni 阅读(125) 评论(0) 推荐(0)

导航