后山前堂客

2020年2月18日

摘要： import java.util.HashMap import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord} object KafkaWordProducer { def main( 阅读全文

posted @ 2020-02-18 09:47 后山前堂客阅读(1292) 评论(0) 推荐(0)

2020年2月17日

SparkStreaming连接kafka

摘要：下载依赖 https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11/2.1.0，放到 $SPARK_HOME/jars/kafka 目录中下载 spark-streaming-kafka- 阅读全文

posted @ 2020-02-17 15:51 后山前堂客阅读(261) 评论(0) 推荐(0)

MacBook Pro 中kafka的安装和测试

摘要： // 确认现在jps状态[@wooluwakerdeMBP:config]$ jps 70341 Jps 67943 Launcher 66986 // 终端1：启动ZK 服务 [@wooluwakerdeMBP:kafka_2.11-2.2.2]$ bin/zookeeper-server-sta 阅读全文

posted @ 2020-02-17 14:13 后山前堂客阅读(346) 评论(0) 推荐(0)

SparkStreaming 1st Demo

摘要：通过spark-shell启动StreamingContext，实时监控文件夹 1 打开terminal 1，输入如下： import org.apache.spark.streaming._ // SparkStreaming将输入流数据按照5秒钟进行数据切分 val ssc = new Stre 阅读全文

posted @ 2020-02-17 10:40 后山前堂客阅读(155) 评论(0) 推荐(0)

2020年2月16日

Spark解析json

摘要： import org.apache.spark.{SparkConf, SparkContext} import scala.util.parsing.json.JSON object JSONParse { def main(args: Array[String]): Unit = { val i 阅读全文

posted @ 2020-02-16 23:57 后山前堂客阅读(1259) 评论(0) 推荐(0)

Spark设置日志级别

摘要：默认是INFO级别，输出内容太多，影响真正输出结果的查找，需要修改成 WARN 或 ERROR 级别 1 spark根目录conf/log4j.properties.template拷贝到工程的resources目录下，并改名成 log4j.properties 2 修改log4j.properti 阅读全文

posted @ 2020-02-16 23:25 后山前堂客阅读(1583) 评论(0) 推荐(0)

RDD编程基础-RDD操作

摘要： scala> val rdd1 = sc.textFile("file:///Users/***/spark/test_data/word.txt")scala> rdd1.filter(x=>x.contains("huahua")) foreach printlnhuahua hadoop sp 阅读全文

posted @ 2020-02-16 22:22 后山前堂客阅读(323) 评论(0) 推荐(0)

RDD编程基础-RDD创建

摘要：通过文件系统加载数据创建RDD textFile(URI) URI：可以使本地文件系统、HDFS、Amazon S3 通过并行集合（数组）创建RDD val rdd = sc.parallize(array) 阅读全文

posted @ 2020-02-16 18:18 后山前堂客阅读(193) 评论(0) 推荐(0)

MacBook Pro启动hadoop报错：ssh: connect to host localhost port 22: Connection refused

摘要：解决方案：解决方法是选择系统偏好设置->选择共享->点击远程登录阅读全文

posted @ 2020-02-16 18:01 后山前堂客阅读(480) 评论(0) 推荐(0)

数据中台-问题1

摘要： P145 以下两点的描述不理解：性能好：数据冗余： P145 可通过多奇妙场景，以维度-事实矩阵的形式说明维度模型的可扩展性 P151 总线矩阵或事实-维度矩阵，也可以放到该页中 P148 “早上小王在小卖部话5元钱购买了一个面包”：这句话中应该是有四个维度吧？时间-人/参与者-地点阅读全文

posted @ 2020-02-16 11:43 后山前堂客阅读(281) 评论(0) 推荐(0)

公告