上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 21 下一页
摘要: 操作系统:CentOS Linux release 7.4.1708 (Core) 研发环境 软件环境:cdh5.15.1 记录时间:20190729 修改hive的配置参数,使其支持行级insert、update、delete操作 服务端: hive-site.xml 的 Hive 服务高级配置代 阅读全文
posted @ 2019-07-30 10:34 bioamin 阅读(886) 评论(0) 推荐(0)
摘要: 迁移背景: 1、hive有30多个库,最大的库有100多张表,这中情况下必须采用 脚本式 迁移 2、2个hive版本不一致,元数据mysql表结构不一致,不能采用mysql数据库覆盖方式 3、hive数据仓库只迁移一部分,另外一部分后续迁移,不能采用mysql数据库覆盖方式 4. 2个集群暂时未开启 阅读全文
posted @ 2019-07-24 10:50 bioamin 阅读(596) 评论(0) 推荐(0)
摘要: 1.在本地安装jdk环境和scala环境 2.读取本地文件: scala> import scala.io.Source import scala.io.Source scala> val lines=Source.fromFile("F:/ziyuan_badou/file.txt").getLi 阅读全文
posted @ 2019-06-08 23:30 bioamin 阅读(1389) 评论(0) 推荐(0)
摘要: 本博客参照github上的案例进行学习记录 github地址:https://github.com/ljcan/Hive_Project #下载数据集wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100 阅读全文
posted @ 2019-06-04 10:33 bioamin 阅读(1194) 评论(0) 推荐(0)
摘要: 题目1:计算用户发过多少朋友圈、获得多少点赞 用你擅长的语言计算,数据如下: T1:10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2:1000w行数据,注:没有被点赞的日记不记录 log_i 阅读全文
posted @ 2019-05-31 20:27 bioamin 阅读(550) 评论(0) 推荐(0)
摘要: 依赖: <properties> <scala.version>2.11.12</scala.version> <spark.version>2.3.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.sc 阅读全文
posted @ 2019-05-31 17:18 bioamin 阅读(434) 评论(0) 推荐(0)
摘要: hive的写法和sql类似,却又有一点不一样,本次采用模拟数据编写hql统计访问次数: 求出当月的访问次数,截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。 数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0 阅读全文
posted @ 2019-05-31 00:13 bioamin 阅读(1332) 评论(0) 推荐(0)
摘要: cloudera公司发行的CDH中 hive的有三种角色:gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接 默认端口hive server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)ga 阅读全文
posted @ 2019-05-31 00:09 bioamin 阅读(771) 评论(0) 推荐(0)
摘要: 基础每天学习: 1.行转列: case ... when ...then....else ...end as xxx 2. “fields terminated by”:字段与字段之间的分隔符。“collection items terminated by”:一个字段中各个子元素 item 的分隔符 阅读全文
posted @ 2019-05-30 23:33 bioamin 阅读(252) 评论(0) 推荐(0)
摘要: hive练习第6天 1.hive基础:order by,sort by,distribute by,cluster by order by 全局排序 所有的map结果提交至一个reduce里,如果在严格模式下,order by 需要指定 limit 数据条数,不然数据量巨大的情况下 会造成崩溃无输出 阅读全文
posted @ 2019-05-30 23:15 bioamin 阅读(642) 评论(1) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 21 下一页