happygril3

计数器

摘要： package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo 阅读全文

posted @ 2020-11-22 11:33 happygril3 阅读(72) 评论(0) 推荐(0)

MapJoin

摘要： Mapjoin1.适用于一张表十分小（小于15M,HIVE[25M]），一张表很大得场景2.map端完成join，不需要reduce，不需要shuffer（分组全排序），不需要数据倾斜 package com.atguigu.mapJoin; import org.apache.hadoop.con 阅读全文

posted @ 2020-11-22 11:01 happygril3 阅读(258) 评论(0) 推荐(0)

reduce_join

摘要： Mapreduce实例——Reduce端join 原理在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理（1）Map端的主要工作，为来自不同表（文件）的key/value对打标签以区别不同来源的记录。然后用连接字段作阅读全文

posted @ 2020-11-20 18:04 happygril3 阅读(246) 评论(0) 推荐(0)

OutputFormat

摘要：在MapReduce中，OutputFormat描述经reducer处理后输出的数据的格式，将用户提供的key/value键值对写入到特定格式的文件中 TextOutputFormat，输出到纯文本文件，格式为 key + " " + value。 DBOutputFormat，输出到DB Sequ 阅读全文

posted @ 2020-11-20 09:44 happygril3 阅读(145) 评论(0) 推荐(0)

reducer

摘要： package com.atguigu.groupingComparator; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import ja 阅读全文

posted @ 2020-11-20 09:40 happygril3 阅读(231) 评论(0) 推荐(0)

运行效率

摘要：（1）针对循环的优化每次你调用str.upper, Python都会计算这个式子的值。然而，如果你把这个求值赋值给一个变量，那么求值的结果就能提前知道，Python程序就能运行得更快。因此，关键就是尽可能减小Python在循环中的工作量。因为Python解释执行的特性，在上面的例子中会大大减慢它阅读全文

posted @ 2020-11-18 15:34 happygril3 阅读(373) 评论(0) 推荐(0)

__new__和__init__

摘要： __new__是用来创造一个类的实例的（constructor） __init__是用来初始化一个实例的（initializer）。 class newStyleClass(object): def __new__(cls): print("__new__ is called") return su 阅读全文

posted @ 2020-11-18 14:59 happygril3 阅读(86) 评论(0) 推荐(0)

字典底层实现原理

摘要：字典是通过哈希表实现的。字典也被称为哈希数组等。字典哈希数组键（哈希函数）--数组索引值数组值哈希函数的目的是使键均匀地分布在数组中，并且可以在内存中以O(1)的时间复杂度进行寻址，从而实现快速查找和修改。哈希表中哈希函数的设计困难在于将数据均匀分布在哈希表中，从而尽量减少哈希碰撞和阅读全文

posted @ 2020-11-18 14:08 happygril3 阅读(1211) 评论(0) 推荐(0)

垃圾回收机制

摘要： Python的GC模块主要运用了“引用计数”（reference counting）来跟踪和回收垃圾。在引用计数的基础上，还可以通过“标记-清除”（mark and sweep）解决容器对象可能产生的循环引用的问题。通过“分代回收”（generation collection）以空间换取时间来阅读全文

posted @ 2020-11-18 13:41 happygril3 阅读(112) 评论(0) 推荐(0)

序列化

摘要： Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable： WritableComparable比Writable多了一个compareTo方法，用来判断key是否唯一或者说是不是相同。 Hadoop为Key的数据类型必须实现Writa 阅读全文

posted @ 2020-11-17 16:56 happygril3 阅读(74) 评论(0) 推荐(0)

导航

公告