摘要:
使用 operator state的方式有以下几种: 方式一: stateful function(RichFunction) 实现 CheckpointFunction 接口 必须实现两个方法:Void snapshotState(FunctionSnapshotContext context)
阅读全文
posted @ 2020-06-27 21:03
风清_云淡
阅读(779)
推荐(0)
摘要:
join 是sql语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余,更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 sparksql作为大数据领域的sql实现,自然也对join操作做了不少优化,今天主要看一下在spark sql中对于join,常见
阅读全文
posted @ 2020-06-15 09:10
风清_云淡
阅读(1847)
推荐(0)
摘要:
讨论一下kafka参数的配置 1、acks 参数配置 acks这个参数有三个值:0,1,-1,但是不用的参数对应的含义不同,那如果我们想要保证数据不丢失,acks 值应该设置为哪个参数呢? 0:代表生产者只要把消息发送出去以后就认为消息发送成功了,这种方式有可能会导致数据丢失,因为有可能消息发送到服
阅读全文
posted @ 2020-06-14 18:15
风清_云淡
阅读(909)
推荐(0)
摘要:
有时候可能会进行hadoop集群数据拷贝的情况,可用以下命令进行拷贝 需要在目标集群上来进行操作 hadoop distcp hdfs://192.168.1.233:8020/user/hive/warehouse/test_data.db/dwi_test_data_d /user/hive/w
阅读全文
posted @ 2020-06-10 11:13
风清_云淡
阅读(406)
推荐(0)
摘要:
介绍YARN组件的功能及应用场景 1、ResourceManager(RM) RM是一个全局的资源管理器,集群中只有一个。它负责整个Hadoop系统的资源管理和分配,包括处理客户端请求、启动监控 ApplicationMaster、监控NodeManager、 资源的分配与调度等。它主要由两个组件构
阅读全文
posted @ 2020-06-08 11:06
风清_云淡
阅读(430)
推荐(0)
摘要:
1、今天在进行hive测试的时候,发现hive一直进不去,并且报了这个错误。 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 网上查找了下原因: https://blog.csdn
阅读全文
posted @ 2020-05-10 10:19
风清_云淡
阅读(572)
推荐(0)
摘要:
cloudermanager安装包地址:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.3.0_x86_64.tar.gz, 红色部分为版本号,修改红色部分即可获取不同版本的安装包 CDH安装包地址:http://archi
阅读全文
posted @ 2020-04-25 19:04
风清_云淡
阅读(4063)
推荐(0)
摘要:
1、sparkSql处理核心:Catalyst工作流程(本质:把sql、dataframe相结合,以树tree的形式来存储、优化) 2、catalyst工作流程 1)Parser(解析器):SqlParser生成LogicPlan Tree 主要是先进行词法分析,再进行语法非分析 词法分析:将输入的
阅读全文
posted @ 2020-04-25 19:03
风清_云淡
阅读(1018)
推荐(0)
摘要:
参考来源: https://blog.csdn.net/u011748319/article/details/90269818 1、推荐算法 1.1、协同过滤 协同过滤是目前应用最广泛的推荐算法,它仅仅通过了解用户与物品之间的关系进行推荐,而根本不会考虑到物品本身的属性。 可分成两类: 1、基于用户
阅读全文
posted @ 2020-04-07 18:50
风清_云淡
阅读(2780)
推荐(0)
摘要:
中台的定义:企业级能力复用平台。 1、企业级 企业级定义了中台的范围。不是说一个企业只能有一个中台,也不代表一个中台就是只能包含一家企业,企业级更多代表的是中台处理的问题在 企业级别,即至少包含多条业务线或服务多个前台产品(团队),如果一个中台只为了支持一条业务线或产品线,那就不是中台,即使它用了服
阅读全文
posted @ 2020-03-31 08:38
风清_云淡
阅读(233)
推荐(0)