上一页 1 2 3 4 5 6 7 8 9 10 ··· 56 下一页

2020年11月22日

摘要: package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文
posted @ 2020-11-22 11:33 happygril3 阅读(72) 评论(0) 推荐(0)
摘要: Mapjoin1.适用于一张表十分小(小于15M,HIVE[25M]),一张表很大得场景2.map端完成join,不需要reduce,不需要shuffer(分组全排序),不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文
posted @ 2020-11-22 11:01 happygril3 阅读(258) 评论(0) 推荐(0)

2020年11月20日

摘要: Mapreduce实例——Reduce端join 原理 在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理 (1)Map端的主要工作,为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作 阅读全文
posted @ 2020-11-20 18:04 happygril3 阅读(246) 评论(0) 推荐(0)
摘要: 在MapReduce中,OutputFormat描述经reducer处理后输出的数据的格式,将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat,输出到纯文本文件,格式为 key + " " + value。 DBOutputFormat,输出到DB Sequ 阅读全文
posted @ 2020-11-20 09:44 happygril3 阅读(145) 评论(0) 推荐(0)
摘要: package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文
posted @ 2020-11-20 09:40 happygril3 阅读(231) 评论(0) 推荐(0)

2020年11月18日

摘要: (1)针对循环的优化 每次你调用str.upper, Python都会计算这个式子的值。然而,如果你把这个求值赋值给一个变量,那么求值的结果就能提前知道,Python程序就能运行得更快。 因此,关键就是尽可能减小Python在循环中的工作量。因为Python解释执行的特性,在上面的例子中会大大减慢它 阅读全文
posted @ 2020-11-18 15:34 happygril3 阅读(373) 评论(0) 推荐(0)
摘要: __new__是用来创造一个类的实例的(constructor) __init__是用来初始化一个实例的(initializer)。 class newStyleClass(object): def __new__(cls): print("__new__ is called") return su 阅读全文
posted @ 2020-11-18 14:59 happygril3 阅读(86) 评论(0) 推荐(0)
摘要: 字典是通过哈希表实现的。字典也被称为哈希数组等。 字典 哈希数组 键 (哈希函数)--数组索引 值 数组值 哈希函数的目的是使键均匀地分布在数组中,并且可以在内存中以O(1)的时间复杂度进行寻址,从而实现快速查找和修改。 哈希表中哈希函数的设计困难在于将数据均匀分布在哈希表中,从而尽量减少哈希碰撞和 阅读全文
posted @ 2020-11-18 14:08 happygril3 阅读(1211) 评论(0) 推荐(0)
摘要: Python的GC模块 主要运用了“引用计数”(reference counting)来跟踪和回收垃圾。 在引用计数的基础上,还可以通过“标记-清除”(mark and sweep)解决容器对象可能产生的循环引用的问题。 通过“分代回收”(generation collection)以空间换取时间来 阅读全文
posted @ 2020-11-18 13:41 happygril3 阅读(112) 评论(0) 推荐(0)

2020年11月17日

摘要: Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable: WritableComparable比Writable多了一个compareTo方法,用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文
posted @ 2020-11-17 16:56 happygril3 阅读(74) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 56 下一页

导航