comp9313 - 随笔分类 - Eleni

final

摘要：1. Hadoop Ecosystem 存储：HDFS (Hadoop distributed file system) 计算：MapReduce 资源调度(resource negotiator)：YARN 2. the master-slave architecture of Hadoop ma 阅读全文

posted @ 2021-01-20 08:19 Eleni 阅读(138) 评论(1) 推荐(0)

project 2

摘要：1. 最后老师的答案输出为0.748，用来检测代码正确性 2. estimator有三个，分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit，即一个training的过程。fit之后estimator转变为transformer。token 阅读全文

posted @ 2020-08-17 10:14 Eleni 阅读(236) 评论(0) 推荐(0)

班课5

摘要：1. Spark Shuffle 回顾一下MapReduce的shuffle，即先按照key聚合，再对key进行排序而spark中的shuffle不一定按key排序，shuffle前称为MapTask阶段，shuffle之后称为ReduceTask阶段每一个分区分配一个MapTask shuff 阅读全文

posted @ 2020-07-06 20:22 Eleni 阅读(201) 评论(0) 推荐(0)

班课4

摘要：1. FlatMap要求传入的函数是一个集合，将输入的所有list打散放入同一个list中输出 2. Filter返回一个Boolean，collect之后打印符合条件的 3. ReduceByKey将key相同的元素根据需求合并起来，如将相同Key对应的Value相加 rdd.reduceByKe 阅读全文

posted @ 2020-07-03 08:19 Eleni 阅读(120) 评论(0) 推荐(0)

班课3

摘要：1. 环境变量PATH是告诉系统当我们在命令行输入一个命令时（如python，Scala），若当前目录下找不到这个程序，就去PATH里面找 2. echo $PATH查看当前系统环境变量 #注意设置环境变量时候的顺序 3. MapReduce Hadoop体系里面用来计算的部分（数据存储，计算，工作阅读全文

posted @ 2020-06-22 10:47 Eleni 阅读(96) 评论(0) 推荐(0)

班课2

摘要：1. hadoop分为三部分 Hadoop distributed file system(HDFS) MapReduce YARN(Yet Another Resource Neigotiator) Hadoop2.0才开始有的 2. NameNode可以理解为元数据，不实际存储数据本身（只有一个阅读全文

posted @ 2020-06-16 15:40 Eleni 阅读(116) 评论(0) 推荐(0)

班课2

摘要：1. Hadoop是一个open-source software framework以分布式方式存储大数据，并行处理大数据，建立在大型商品硬件集群上 2. Hadoop can handle volume, velocity, variety 3. 对volume而言，Hadoop提供：冗余、容错阅读全文

posted @ 2020-06-12 12:31 Eleni 阅读(144) 评论(2) 推荐(0)

班课1

摘要：1. 大数据流程数据源 -- 数据采集 -- 数据存储 -- 数据计算 -- 数据应用 2. 最重要的V volume，variety（不同种类），velocity（速度）阅读全文

posted @ 2020-06-08 16:09 Eleni 阅读(107) 评论(0) 推荐(0)

lecture 2

摘要：1. veracity (quality) how correct the data is, shows if we can trust the data challenging因为易于发生，影响巨大且难以控制 2. variability variety指same data, different 阅读全文

posted @ 2020-06-05 14:30 Eleni 阅读(127) 评论(0) 推荐(0)

lecture 1

摘要：1. not double pass, all homeworks submitted through give. All exams questions are short answers 2. consultation is Friday through zoom from 1 to 2 3. 阅读全文

posted @ 2020-06-02 16:26 Eleni 阅读(129) 评论(0) 推荐(0)

随笔分类 - comp9313

final

project 2

班课5

班课4

班课3

班课2

班课2

班课1

lecture 2

lecture 1

导航

公告