11 2019 档案
摘要:简述 WordCount(单词计数)一直是大数据入门的经典案例,下面用java和scala实现Flink的WordCount代码; 采用IDEA + Maven + Flink 环境;文末附 pom 文件和相关技术点总结; Java实现Flink批处理版本 运行输出结果如下: Java实现Flink
阅读全文
摘要:报错内容 flink执行jar时,报如下错误: 问题原因 1. 输入路径确实不存在该文件; 2. 输入路径的文件并不在flink集群的TaskManager上,而放在了JobManager节点上了。 解决方式 1. 对于不存在的文件,修改为有该文件的路径; 2. 如果flink输入文件的是本地文件,
阅读全文
摘要:1、Flume简介 (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 (2) Flume基于流式架构,容错性强,也很灵活简单。 (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实
阅读全文
摘要:概述 倒排索引 (英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分
阅读全文
摘要:需求 背景:学校的学生的是一个非常大的生成数据的集体,比如每次考试的成绩 现有一个班级的学生一个月的考试成绩数据。 科目 姓名 分数 需求:求出每门成绩中属于甲级的学生人数和总人数 乙级的学生人数和总人数 丙级的学生人数和总人数 甲级(90及以上)乙级(80到89)丙级(
阅读全文

浙公网安备 33010602011771号