会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BoomOoO
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
12
下一页
2019年1月24日
Windows 10 安装 Mongod
摘要: 因为新换了Windows 10 电脑,需要在新电脑重新安装所有的软件,包括mongodb 下载文件:首先在mongodb的官方网站上下载最新版本的mongodb安装程序,https://www.mongodb.com/,滚动网页至Try MongoDB for free 选择Community Se
阅读全文
posted @ 2019-01-24 17:33 BoomOoO
阅读(210)
评论(0)
推荐(0)
2019年1月17日
正则表达式之 \b
摘要: 引用网上一段话: \b 是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是 \b 并不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。 如果需要更精确的说法,
阅读全文
posted @ 2019-01-17 11:05 BoomOoO
阅读(12231)
评论(3)
推荐(4)
2019年1月16日
collect_list/collect_set(列转行)
摘要: Hive中collect相关的函数有collect_list和collect_set。 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。 做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录: 1 2 3 4 5 create
阅读全文
posted @ 2019-01-16 11:31 BoomOoO
阅读(599)
评论(0)
推荐(0)
2019年1月11日
Group BY
摘要: 一,GROUP BY 执行理解 先来看下表1,表名为test: 表1 执行如下SQL语句: SELECT name from test GROUP BY name ; 你应该很容易知道运行的结果,没错,就是下表2: 表2 可是为了能够更好的理解“group by”多个列“和”聚合函数“的应用,我建议
阅读全文
posted @ 2019-01-11 18:21 BoomOoO
阅读(590)
评论(0)
推荐(0)
2019年1月2日
H指数
摘要: H指数是用来综合衡量学者发表论文的数量和质量的指标,若某学者共发表N篇论文,H指数是指存在h 篇论文至少每篇有h 引用量,剩下的N-h篇中,每篇都不超过h引用量 计算H指数的方法:1、排序法思路:先将数组排序,我们就可以知道对于某个应用数,有多少文献的引用数大于这个数。对于引用数citations[
阅读全文
posted @ 2019-01-02 17:36 BoomOoO
阅读(906)
评论(0)
推荐(0)
2018年11月29日
数据倾斜2
摘要: 数据倾斜 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。
阅读全文
posted @ 2018-11-29 15:00 BoomOoO
阅读(185)
评论(0)
推荐(0)
Hive数据倾斜
摘要: 数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算
阅读全文
posted @ 2018-11-29 14:59 BoomOoO
阅读(233)
评论(0)
推荐(0)
2018年11月28日
Map Reduce
摘要: MapReduce客户端程序提交job之后,就会退出,那么如何判断mr程序有没有执行成功呢?1、到yarn的网页上看 8088端口;2、可以让客户端程序不退出,等待mr程序运行完成以后,再退出 具体实现,将客户端程序中 job.submit() 换成 job.waitForCompletion(tr
阅读全文
posted @ 2018-11-28 20:52 BoomOoO
阅读(180)
评论(0)
推荐(0)
2018年11月27日
yarn
摘要: Yarn :分布式计算程序(比如mapreduce程序,或者Spark程序,Stom)的运行调度平台;它本身也是一个分布式系统在Hadoop的 yarn-site.sh 中配置主节点主节点:ResourceManager从节点:NodeManage启动: start-yarn.sh 注意:一定要在配
阅读全文
posted @ 2018-11-27 20:39 BoomOoO
阅读(128)
评论(0)
推荐(0)
Mapreduce的api编程
摘要: KEYIN:输入的KEY是maptask所读取到的一行文本的起始偏移量,longVALUEIN:输入的VALUE的类型,输入的VALUE是maptask所读取到的一行文本内容,StringKEYOUT:我们在本逻辑中输出单词做key,StringVALUEOUT:我们在本逻辑中输出1作value,I
阅读全文
posted @ 2018-11-27 20:37 BoomOoO
阅读(245)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
12
下一页
公告