问题不大1 - 博客园

2019年12月17日

摘要： object Hive_ODS_PaidMember { private val logger = LoggerFactory.getLogger(Hive_ODS_PaidMember.getClass) val prop = new Properties() val is: InputStrea 阅读全文

posted @ 2019-12-17 16:05 问题不大1 阅读(351) 评论(0) 推荐(0)

2019年12月16日

pom文件

摘要： <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch 阅读全文

posted @ 2019-12-16 09:27 问题不大1 阅读(295) 评论(0) 推荐(0)

spark影评

摘要： package movieratingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Row, SparkSession}import org.apache.sp 阅读全文

posted @ 2019-12-16 09:26 问题不大1 阅读(276) 评论(0) 推荐(0)

2019年7月18日

kafka入门

摘要：基本概念： 1、什么是kafka？ Kafka是一个高吞吐量、分布式的发布订阅消息系统。据kafka官方网站介绍，当前的kafka已经定位为一个分布式流式处理平台（ a distributed streaming platform）,它最初由LinkedIn公司开发，后来成为Apache项目的一部分阅读全文

posted @ 2019-07-18 16:45 问题不大1 阅读(477) 评论(0) 推荐(0)

2019年7月15日

lag lead first_value last_value应用场景

摘要： http://lxw1234.com/archives/2015/04/190.htm https://www.cnblogs.com/hd-zg/p/5947337.html 阅读全文

posted @ 2019-07-15 14:07 问题不大1 阅读(337) 评论(0) 推荐(0)

2019年7月11日

kafka生产者与消费者

摘要： package kafka; import org.apache.kafka.clients.producer.Callback; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerRecord; import org.apache.... 阅读全文

posted @ 2019-07-11 17:14 问题不大1 阅读(779) 评论(0) 推荐(0)

2019年7月10日

flink_初识02kafkawordcount

摘要： 1.启动zookeeper服务 ./bin/zookeeper-server-start.sh config/zookeeper.properties 2.开启kafka服务 .\bin\windows\kafka-server-start.bat .\config\server.propertie 阅读全文

posted @ 2019-07-10 17:58 问题不大1 阅读(364) 评论(0) 推荐(0)

flink_初识01

摘要： 1.flink wordcount pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM 阅读全文

posted @ 2019-07-10 14:14 问题不大1 阅读(264) 评论(0) 推荐(0)

2019年6月28日

hive_非常用

摘要： 1.count(distinct xxx) 窗口函数 hive 2.x版本支持： count(distinct cust_num) over(partition by xxx order by xxx) -- 分组内去重求和 hive1.x版本不支持：改版 size(collect_set(cust 阅读全文

posted @ 2019-06-28 14:31 问题不大1 阅读(406) 评论(0) 推荐(0)

2019年6月10日

spark性能调优-- 数据倾斜

摘要： 1.数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的阅读全文

posted @ 2019-06-10 15:52 问题不大1 阅读(359) 评论(0) 推荐(0)

问题不大

公告