摘要: 1、Flume简介 ​ (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 ​ (2) Flume基于流式架构,容错性强,也很灵活简单。 ​ (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 阅读全文
posted @ 2019-11-22 11:28 ShadowFiend 阅读(703) 评论(0) 推荐(2) 编辑
摘要: 概述 倒排索引 (英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分 阅读全文
posted @ 2019-11-22 10:25 ShadowFiend 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 需求 ​ 背景:学校的学生的是一个非常大的生成数据的集体,比如每次考试的成绩 ​ 现有一个班级的学生一个月的考试成绩数据。 ​ 科目 姓名 分数 ​ 需求:求出每门成绩中属于甲级的学生人数和总人数 ​ 乙级的学生人数和总人数 ​ 丙级的学生人数和总人数 ​ 甲级(90及以上)乙级(80到89)丙级( 阅读全文
posted @ 2019-11-22 10:24 ShadowFiend 阅读(1114) 评论(0) 推荐(0) 编辑