2014年5月16日

外部表与partition

摘要：在建立普通表的时候，如果数据是有分区的，在ADD DATA的时候需要指明分区，比方下面的例子；user表，包含 id bigint，name string，然后按照时间（date）来进行分区，路径存储在/user/*/test/下面，partition文件分别在/user/*/test/dt=201... 阅读全文

posted @ 2014-05-16 14:01 enjoyOurLife 阅读(185) 评论(0) 推荐(0)

2014年5月15日

mysql innoDB 与 myISAM

摘要：转载文章出处 http://www.pureweber.com/article/myisam-vs-innodb/使用MySQL当然会接触到MySQL的存储引擎，在新建数据库和新建数据表的时候都会看到。MySQL默认的存储引擎是MyISAM，其他常用的就是InnoDB了。至于到底用哪种存储引擎比较... 阅读全文

posted @ 2014-05-15 17:50 enjoyOurLife 阅读(193) 评论(0) 推荐(0)

2014年5月7日

hive 中 union all

摘要： hive 中的union all是不能在sql语句的第一层使用的，否则会报Top level UNION is not supported currently 错误；例如如下的方式：select id,name from user where type = 1union allselect id,n... 阅读全文

posted @ 2014-05-07 23:28 enjoyOurLife 阅读(1684) 评论(0) 推荐(0)

2014年5月3日

MapReduce 实现数据join操作

摘要：前段时间有一个业务需求，要在外网商品（TOPB2C）信息中加入联营自营识别的字段。但存在的一个问题是，商品信息和自营联营标示数据是两份数据；商品信息较大，是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join，将联营自营标识信息加入的商品信息中，最终生成我需要的数... 阅读全文

posted @ 2014-05-03 23:01 enjoyOurLife 阅读(3039) 评论(0) 推荐(0)

使用hadoop multipleOutputs对输出结果进行不一样的组织

摘要： MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。... 阅读全文

posted @ 2014-05-03 22:07 enjoyOurLife 阅读(1078) 评论(0) 推荐(0)

Hadoop MRUnit使用（一）

摘要：之前在写MR job的时候，由于要在云梯，或者一淘的开发集群上运行；所以处理方法是，在本地打成jar包，然后scp到客户端网关机上，然后在提交job运行。这样的问题时，有时候如果遇到一些逻辑上的问题，job跑挂了。必须在本地修改程序，然后重新打包，scp，再运行，这样比较麻烦；询问了一圈，觉得采用M... 阅读全文

posted @ 2014-05-03 21:40 enjoyOurLife 阅读(648) 评论(0) 推荐(0)

2013年10月21日

mahout中kmeans算法和Canopy算法实现原理

摘要：本文讲一下mahout中kmeans算法和Canopy算法实现原理。一. Kmeans是一个很经典的聚类算法，我想大家都非常熟悉。虽然算法较为简单，在实际应用中却可以有不错的效果；其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学起，就当抛砖引玉了。1. 首先来简单的回顾一下KMeans算法：(1) 根据事先给定的k值建立初始划分，得到k个Cluster，比如，可以随机选择k个点作为k个Cluster的重心，又或者用其他算法得到的Cluster作为初始重心；(2)、计算每个点到各个Cluster重心的距离，将它加入到最近的那个Cluster；(3)、重新阅读全文

posted @ 2013-10-21 10:47 enjoyOurLife 阅读(2492) 评论(0) 推荐(1)

2013年8月22日

python字符decode与encode的问题

摘要：同事在工作中遇到一个字符编码的问题；问题是：从mysql数据库中读出来的varchar类型数据在python是unicode类型的。但他却对这个unicode字符进行了decode，因为他以为读出来的是utf-8(python中的str类型)。程序中报错了。但比较奇怪的是，另一个大神同事也做了同样的事情，却没有报错。细细比较代码起来，发现没出错的同事的代码中多了一行reload(sys)sys.setdefaultencoding('utf-8')个人猜测，当python在做decode操作的时候，比如a.decode('utf-8'),如果a不是utf-8类型阅读全文

posted @ 2013-08-22 17:18 enjoyOurLife 阅读(337) 评论(0) 推荐(0)

淘宇瀚做一个好的SRE；任何时候都要有从零开始的勇气；
博客园首页新随笔联系订阅管理