会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Alcesttt
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2019年8月30日
sqoop 导入增量数据到hive
摘要: 版本 hive:apache-hive-2.1.0 sqoop:sqoop-1.4.6 hadoop:hadoop-2.7.3 导入方式 1.append方式 2.lastmodified方式,必须要加--append(追加)或者--merge-key(合并,一般填主键) 创建mysql表并添加数据
阅读全文
posted @ 2019-08-30 18:50 Alcesttt
阅读(7415)
评论(1)
推荐(1)
2019年8月26日
Hadoop 二次排序
摘要: 需求 求每年的最高气温,年份升序,温度求最高 数据源内容如下 temperature.txt 思路 需要排序2次,先比较年份,再比较相同年份下,温度最高的值,也就是说需要对2个纬度的值做排序。但是hadoop只能够在key上进行排序,所以气温和年份的值都得放在key里面,也就是需要创建自定义组合ke
阅读全文
posted @ 2019-08-26 09:59 Alcesttt
阅读(287)
评论(0)
推荐(0)
2019年8月24日
Spark foreachpartiton和mappartition的异同
摘要: 相同 都是对分区进行操作 不同 1、foreachpartition是Action操作,mappartition是Transformation操作 2、foreachpartition无返回值,mappartition有返回值 3、foreachpartition一般都是在程序末尾比如说要落地数据到
阅读全文
posted @ 2019-08-24 21:41 Alcesttt
阅读(824)
评论(0)
推荐(0)
2019年8月23日
hadoop 实现多文件输出
摘要: 需求 不同的key输出到不同的文件 txt文件 multiple.txt Java 结果 part-r-00000为框架自动生成的空文件,可忽略
阅读全文
posted @ 2019-08-23 19:45 Alcesttt
阅读(541)
评论(0)
推荐(1)
spark 实现多文件输出
摘要: 需求 不同的key输出到不同的文件 txt文件 multiple.txt scala代码 import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.spark.{SparkConf, SparkCon
阅读全文
posted @ 2019-08-23 19:34 Alcesttt
阅读(848)
评论(0)
推荐(0)
2019年8月22日
Scala 中 call by name & call by value 的区别
摘要: call by value:会先计算参数的值,然后再传递给被调用的函数 call by name:参数会到实际使用的时候才计算 定义方法 def return1():Int = { println("calling...") 1 } def callByValue(x: Int) = { print
阅读全文
posted @ 2019-08-22 23:50 Alcesttt
阅读(297)
评论(0)
推荐(0)
Hadoop读写mysql
摘要: 需求 两张表,一张click表记录某广告某一天的点击量,另一张total_click表记录某广告的总点击量 建表 pom依赖 代码 自定义类 Writable是为了与MapReduce进行对接,而DBWritable是为了与MySQL进行对接。 Map Reduce App
阅读全文
posted @ 2019-08-22 16:43 Alcesttt
阅读(352)
评论(0)
推荐(0)
2019年8月20日
spark coalesce和repartition的区别和使用场景
摘要: 区别: repartition底层调用的是coalesce方法,默认shuffle coalesce方法的shuffle参数默认为false,默认不shuffle 使用场景: 如果你减少分区数,考虑使用coalesce,这样可以避免执行shuffle。但是假如内存不够用,可能会引起内存溢出。
阅读全文
posted @ 2019-08-20 22:20 Alcesttt
阅读(647)
评论(0)
推荐(0)
2019年8月19日
Hadoop HDFS读写流程
摘要: 读取: 1) 客户端调用 DistributedFileSystem 的 Open() 方法打开文件。2) DistributedFileSystem 用 RPC 连接到 NameNode,请求获取文件的数据块的信息;NameNode 返回文件的部分或者全部数据块列表;对于每个数据块,NameNod
阅读全文
posted @ 2019-08-19 21:01 Alcesttt
阅读(469)
评论(0)
推荐(0)
2018年5月6日
centos6 命令界面切换到图形界面
摘要: 接着,敲命令:startx 或 init 5
阅读全文
posted @ 2018-05-06 22:12 Alcesttt
阅读(6969)
评论(0)
推荐(0)
上一页
1
2
3
下一页
公告