随笔分类 -  大数据 / hive

摘要:大表 180亿 小表 3000 采用map join hive中in (select ) 与 inner join的区别 阅读全文
posted @ 2025-03-20 19:34 钱塘江畔 阅读(10) 评论(0) 推荐(0)
摘要:# 直接连接IP beeline !connect jdbc:hive2://1.1.6.1:10000 # 通过zookeeper服务发现 beeline -u 'jdbc:hive2://1.1.6.2:2181,1.1.6.6:2181,1.1.6.14:2181/;serviceDiscov 阅读全文
posted @ 2025-03-20 19:20 钱塘江畔 阅读(26) 评论(0) 推荐(0)
摘要:# -*- coding=utf-8 -*- from impala.dbapi import connect as impylaConnect master_host='192.168.1.17' master_port=10000 master_authMechanism='PLAIN' mas 阅读全文
posted @ 2025-03-19 22:04 钱塘江畔 阅读(16) 评论(0) 推荐(0)
摘要:Hive外联表HBase 详细参见官网 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration # hive内部表 创建hive表映射hbase表, 前提是hbase表不存在 drop ttt则,hbase表也会drop c 阅读全文
posted @ 2025-03-19 22:02 钱塘江畔 阅读(35) 评论(0) 推荐(0)
摘要:-- UDF注意: hive中的数组类型作为 入参,udf中应写 ArrayList 而不是 String[],否则会报错 -- No matching method for class cn.com.dtmobile.hiveUdf.MyUDF with (array<string>). Poss 阅读全文
posted @ 2025-03-19 21:40 钱塘江畔 阅读(26) 评论(0) 推荐(0)
摘要:get_json_object get_json_object(json_string, field_path) -- 对json字符串get_json_object(json_string, field_path) 获取lng/lat , 序号 为单独字段 新表生成 with tmp as ( s 阅读全文
posted @ 2025-03-19 21:19 钱塘江畔 阅读(77) 评论(0) 推荐(0)
摘要:1.执行流程 2.慢的原因 阅读全文
posted @ 2024-05-28 15:58 钱塘江畔 阅读(36) 评论(0) 推荐(0)
摘要:HiveServer2的架构 Hive 核心服务HiveServer2(HS2)的前世今生,最后提供代码实例 阅读全文
posted @ 2023-05-04 14:51 钱塘江畔 阅读(25) 评论(0) 推荐(0)
摘要:Hive时间日期函数一文详解+代码实例 # 字符串转日期 select date_sub(from_unixtime(unix_timestamp('20210608', 'yyyyMMdd'), 'yyyy-MM-dd'), 7); # 字符串转日期再格式化 select date_format( 阅读全文
posted @ 2023-03-14 11:13 钱塘江畔 阅读(20) 评论(0) 推荐(0)
摘要:1. 背景 在查看yarn任务时,只能看到application_id,无法直接根据application_name得知是哪个任务,设置job_name 2. 操作 不同引擎参数不同 ## mapreduce引擎 ## yarn1 set mapred.job.name=xxx; ## yarn2 阅读全文
posted @ 2022-04-22 11:00 钱塘江畔 阅读(1836) 评论(0) 推荐(0)