2019 年 11月 22 日随笔档案 - ShadowFiend

2019年11月22日

摘要： 1、Flume简介 (1) Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。 (2) Flume基于流式架构，容错性强，也很灵活简单。 (3) Flume、Kafka用来实时进行数据收集，Spark、Flink用来实阅读全文

posted @ 2019-11-22 11:28 ShadowFiend 阅读(796) 评论(0) 推荐(2)

【Hadoop】MapReduce练习：多job关联实现倒排索引

摘要：概述倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分阅读全文

posted @ 2019-11-22 10:25 ShadowFiend 阅读(335) 评论(0) 推荐(0)

【Hadoop】MapReduce练习：分科目等级并按分区统计学生以及人数

摘要：需求背景：学校的学生的是一个非常大的生成数据的集体，比如每次考试的成绩现有一个班级的学生一个月的考试成绩数据。科目姓名分数需求：求出每门成绩中属于甲级的学生人数和总人数乙级的学生人数和总人数丙级的学生人数和总人数甲级（90及以上）乙级（80到89）丙级（阅读全文

posted @ 2019-11-22 10:24 ShadowFiend 阅读(1221) 评论(0) 推荐(0)

ShadowFiend

You cannot improve your past, but you can improve your future. Once time is wasted, life is wasted.

公告