bioamin

2019年7月30日

摘要：操作系统：CentOS Linux release 7.4.1708 (Core) 研发环境软件环境：cdh5.15.1 记录时间：20190729 修改hive的配置参数，使其支持行级insert、update、delete操作服务端： hive-site.xml 的 Hive 服务高级配置代阅读全文

posted @ 2019-07-30 10:34 bioamin 阅读(893) 评论(0) 推荐(0)

2019年7月24日

hive数据迁移从apache2.x迁移到cdh hive 1.x

摘要：迁移背景： 1、hive有30多个库，最大的库有100多张表，这中情况下必须采用脚本式迁移 2、2个hive版本不一致，元数据mysql表结构不一致，不能采用mysql数据库覆盖方式 3、hive数据仓库只迁移一部分，另外一部分后续迁移，不能采用mysql数据库覆盖方式 4. 2个集群暂时未开启阅读全文

posted @ 2019-07-24 10:50 bioamin 阅读(609) 评论(0) 推荐(0)

2019年6月8日

spark学习02天-scala读取文件，词频统计

摘要： 1.在本地安装jdk环境和scala环境 2.读取本地文件： scala> import scala.io.Source import scala.io.Source scala> val lines=Source.fromFile("F:/ziyuan_badou/file.txt").getLi 阅读全文

posted @ 2019-06-08 23:30 bioamin 阅读(1400) 评论(0) 推荐(0)

2019年6月4日

hive学习09天-Hive结合python对电影浏览量以及评分数据分析

摘要：本博客参照github上的案例进行学习记录 github地址：https://github.com/ljcan/Hive_Project #下载数据集wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100 阅读全文

posted @ 2019-06-04 10:33 bioamin 阅读(1205) 评论(0) 推荐(0)

2019年5月31日

hive学习08天-map及reduce共有几次排序

摘要：题目1：计算用户发过多少朋友圈、获得多少点赞用你擅长的语言计算，数据如下： T1：10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2：1000w行数据，注：没有被点赞的日记不记录 log_i 阅读全文

posted @ 2019-05-31 20:27 bioamin 阅读(557) 评论(0) 推荐(0)

spark学习第一天-词频统计demo

摘要：依赖： <properties> <scala.version>2.11.12</scala.version> <spark.version>2.3.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.sc 阅读全文

posted @ 2019-05-31 17:18 bioamin 阅读(446) 评论(0) 推荐(0)

hive学习02天-访问次数统计

摘要： hive的写法和sql类似，却又有一点不一样，本次采用模拟数据编写hql统计访问次数：求出当月的访问次数，截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0 阅读全文

posted @ 2019-05-31 00:13 bioamin 阅读(1344) 评论(0) 推荐(0)

Hive学习01-快速了解hive以及常见的面试问题

摘要： cloudera公司发行的CDH中 hive的有三种角色：gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接默认端口hive server2 主要用于jdbc连接（很多bi产品都靠jdbc连接，比如hue，帆软等软件）ga 阅读全文

posted @ 2019-05-31 00:09 bioamin 阅读(784) 评论(0) 推荐(0)

2019年5月30日

hive学习07-常见的优化

摘要：基础每天学习： 1.行转列： case ... when ...then....else ...end as xxx 2. “fields terminated by”：字段与字段之间的分隔符。“collection items terminated by”：一个字段中各个子元素 item 的分隔符阅读全文

posted @ 2019-05-30 23:33 bioamin 阅读(259) 评论(0) 推荐(0)

hive学习06-youtube数据集

摘要： hive练习第6天 1.hive基础：order by，sort by，distribute by，cluster by order by 全局排序所有的map结果提交至一个reduce里，如果在严格模式下，order by 需要指定 limit 数据条数，不然数据量巨大的情况下会造成崩溃无输出阅读全文

posted @ 2019-05-30 23:15 bioamin 阅读(657) 评论(1) 推荐(0)

追寻创业的梦想

公告