会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
bioamin
追寻创业的梦想
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
6
7
8
9
10
11
12
13
14
···
21
下一页
2019年7月30日
cdh hive开启事物机制
摘要: 操作系统:CentOS Linux release 7.4.1708 (Core) 研发环境 软件环境:cdh5.15.1 记录时间:20190729 修改hive的配置参数,使其支持行级insert、update、delete操作 服务端: hive-site.xml 的 Hive 服务高级配置代
阅读全文
posted @ 2019-07-30 10:34 bioamin
阅读(886)
评论(0)
推荐(0)
2019年7月24日
hive数据迁移 从apache2.x迁移到cdh hive 1.x
摘要: 迁移背景: 1、hive有30多个库,最大的库有100多张表,这中情况下必须采用 脚本式 迁移 2、2个hive版本不一致,元数据mysql表结构不一致,不能采用mysql数据库覆盖方式 3、hive数据仓库只迁移一部分,另外一部分后续迁移,不能采用mysql数据库覆盖方式 4. 2个集群暂时未开启
阅读全文
posted @ 2019-07-24 10:50 bioamin
阅读(596)
评论(0)
推荐(0)
2019年6月8日
spark学习02天-scala读取文件,词频统计
摘要: 1.在本地安装jdk环境和scala环境 2.读取本地文件: scala> import scala.io.Source import scala.io.Source scala> val lines=Source.fromFile("F:/ziyuan_badou/file.txt").getLi
阅读全文
posted @ 2019-06-08 23:30 bioamin
阅读(1389)
评论(0)
推荐(0)
2019年6月4日
hive学习09天-Hive结合python对电影浏览量以及评分数据分析
摘要: 本博客参照github上的案例进行学习记录 github地址:https://github.com/ljcan/Hive_Project #下载数据集wget http://files.grouplens.org/datasets/movielens/ml-100k.zip unzip ml-100
阅读全文
posted @ 2019-06-04 10:33 bioamin
阅读(1194)
评论(0)
推荐(0)
2019年5月31日
hive学习08天-map及reduce共有几次排序
摘要: 题目1:计算用户发过多少朋友圈、获得多少点赞 用你擅长的语言计算,数据如下: T1:10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2:1000w行数据,注:没有被点赞的日记不记录 log_i
阅读全文
posted @ 2019-05-31 20:27 bioamin
阅读(550)
评论(0)
推荐(0)
spark学习第一天-词频统计demo
摘要: 依赖: <properties> <scala.version>2.11.12</scala.version> <spark.version>2.3.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.sc
阅读全文
posted @ 2019-05-31 17:18 bioamin
阅读(434)
评论(0)
推荐(0)
hive学习02天-访问次数统计
摘要: hive的写法和sql类似,却又有一点不一样,本次采用模拟数据编写hql统计访问次数: 求出当月的访问次数,截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。 数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0
阅读全文
posted @ 2019-05-31 00:13 bioamin
阅读(1332)
评论(0)
推荐(0)
Hive学习01-快速了解hive以及常见的面试问题
摘要: cloudera公司发行的CDH中 hive的有三种角色:gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接 默认端口hive server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)ga
阅读全文
posted @ 2019-05-31 00:09 bioamin
阅读(771)
评论(0)
推荐(0)
2019年5月30日
hive学习07-常见的优化
摘要: 基础每天学习: 1.行转列: case ... when ...then....else ...end as xxx 2. “fields terminated by”:字段与字段之间的分隔符。“collection items terminated by”:一个字段中各个子元素 item 的分隔符
阅读全文
posted @ 2019-05-30 23:33 bioamin
阅读(252)
评论(0)
推荐(0)
hive学习06-youtube数据集
摘要: hive练习第6天 1.hive基础:order by,sort by,distribute by,cluster by order by 全局排序 所有的map结果提交至一个reduce里,如果在严格模式下,order by 需要指定 limit 数据条数,不然数据量巨大的情况下 会造成崩溃无输出
阅读全文
posted @ 2019-05-30 23:15 bioamin
阅读(642)
评论(1)
推荐(0)
上一页
1
···
6
7
8
9
10
11
12
13
14
···
21
下一页
公告