会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
问题不大
博客园
首页
新随笔
联系
订阅
管理
2019年12月17日
spark_hive_to_hbase
摘要: object Hive_ODS_PaidMember { private val logger = LoggerFactory.getLogger(Hive_ODS_PaidMember.getClass) val prop = new Properties() val is: InputStrea
阅读全文
posted @ 2019-12-17 16:05 问题不大1
阅读(341)
评论(0)
推荐(0)
2019年12月16日
pom文件
摘要: <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch
阅读全文
posted @ 2019-12-16 09:27 问题不大1
阅读(291)
评论(0)
推荐(0)
spark影评
摘要: package movieratingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Row, SparkSession}import org.apache.sp
阅读全文
posted @ 2019-12-16 09:26 问题不大1
阅读(268)
评论(0)
推荐(0)
2019年7月18日
kafka入门
摘要: 基本概念: 1、什么是kafka? Kafka是一个高吞吐量、分布式的发布订阅消息系统。据kafka官方网站介绍,当前的kafka已经定位为一个分布式流式处理平台( a distributed streaming platform),它最初由LinkedIn公司开发,后来成为Apache项目的一部分
阅读全文
posted @ 2019-07-18 16:45 问题不大1
阅读(467)
评论(0)
推荐(0)
2019年7月15日
lag lead first_value last_value应用场景
摘要: http://lxw1234.com/archives/2015/04/190.htm https://www.cnblogs.com/hd-zg/p/5947337.html
阅读全文
posted @ 2019-07-15 14:07 问题不大1
阅读(335)
评论(0)
推荐(0)
2019年7月11日
kafka生产者与消费者
摘要: package kafka; import org.apache.kafka.clients.producer.Callback; import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerRecord; import org.apache....
阅读全文
posted @ 2019-07-11 17:14 问题不大1
阅读(769)
评论(0)
推荐(0)
2019年7月10日
flink_初识02kafkawordcount
摘要: 1.启动zookeeper服务 ./bin/zookeeper-server-start.sh config/zookeeper.properties 2.开启kafka服务 .\bin\windows\kafka-server-start.bat .\config\server.propertie
阅读全文
posted @ 2019-07-10 17:58 问题不大1
阅读(361)
评论(0)
推荐(0)
flink_初识01
摘要: 1.flink wordcount pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM
阅读全文
posted @ 2019-07-10 14:14 问题不大1
阅读(258)
评论(0)
推荐(0)
2019年6月28日
hive_非常用
摘要: 1.count(distinct xxx) 窗口函数 hive 2.x版本支持: count(distinct cust_num) over(partition by xxx order by xxx) -- 分组内去重求和 hive1.x版本不支持:改版 size(collect_set(cust
阅读全文
posted @ 2019-06-28 14:31 问题不大1
阅读(400)
评论(0)
推荐(0)
2019年6月10日
spark性能调优-- 数据倾斜
摘要: 1.数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的
阅读全文
posted @ 2019-06-10 15:52 问题不大1
阅读(349)
评论(0)
推荐(0)
下一页
公告