• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
淘宇瀚
做一个好的SRE;任何时候都要有从零开始的勇气;
博客园 首页 新随笔 联系 订阅 订阅 管理
上一页 1 2 3 4 5

2014年5月16日

外部表与partition
摘要: 在建立普通表的时候,如果数据是有分区的,在ADD DATA的时候需要指明分区,比方下面的例子;user表,包含 id bigint,name string,然后按照时间(date)来进行分区,路径存储在/user/*/test/下面,partition文件分别在/user/*/test/dt=201... 阅读全文
posted @ 2014-05-16 14:01 enjoyOurLife 阅读(184) 评论(0) 推荐(0)
 
 

2014年5月15日

mysql innoDB 与 myISAM
摘要: 转载文章 出处 http://www.pureweber.com/article/myisam-vs-innodb/使用MySQL当然会接触到MySQL的存储引擎,在新建数据库和新建数据表的时候都会看到。MySQL默认的存储引擎是MyISAM,其他常用的就是InnoDB了。至于到底用哪种存储引擎比较... 阅读全文
posted @ 2014-05-15 17:50 enjoyOurLife 阅读(192) 评论(0) 推荐(0)
 
 

2014年5月7日

hive 中 union all
摘要: hive 中的union all是不能在sql语句的第一层使用的,否则会报Top level UNION is not supported currently 错误;例如如下的方式:select id,name from user where type = 1union allselect id,n... 阅读全文
posted @ 2014-05-07 23:28 enjoyOurLife 阅读(1683) 评论(0) 推荐(0)
 
 

2014年5月3日

MapReduce 实现数据join操作
摘要: 前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数... 阅读全文
posted @ 2014-05-03 23:01 enjoyOurLife 阅读(3039) 评论(0) 推荐(0)
 
使用hadoop multipleOutputs对输出结果进行不一样的组织
摘要: MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。... 阅读全文
posted @ 2014-05-03 22:07 enjoyOurLife 阅读(1076) 评论(0) 推荐(0)
 
Hadoop MRUnit使用(一)
摘要: 之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M... 阅读全文
posted @ 2014-05-03 21:40 enjoyOurLife 阅读(647) 评论(0) 推荐(0)
 
 

2013年10月21日

mahout中kmeans算法和Canopy算法实现原理
摘要: 本文讲一下mahout中kmeans算法和Canopy算法实现原理。一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉。虽然算法较为简单,在实际应用中却可以有不错的效果;其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了。1. 首先来简单的回顾一下KMeans算法:(1) 根据事先给定的k值建立初始划分,得到k个Cluster,比如,可以随机选择k个点作为k个Cluster的重心,又或者用其他算法得到的Cluster作为初始重心;(2)、计算每个点到各个Cluster重心的距离,将它加入到最近的那个Cluster;(3)、重新 阅读全文
posted @ 2013-10-21 10:47 enjoyOurLife 阅读(2487) 评论(0) 推荐(1)
 
 

2013年8月22日

python字符decode与encode的问题
摘要: 同事在工作中遇到一个字符编码的问题;问题是:从mysql数据库中读出来的varchar类型数据在python是unicode类型的。但他却对这个unicode字符进行了decode,因为他以为读出来的是utf-8(python中的str类型)。程序中报错了。但比较奇怪的是,另一个大神同事也做了同样的事情,却没有报错。细细比较代码起来,发现没出错的同事的代码中多了一行reload(sys)sys.setdefaultencoding('utf-8')个人猜测,当python在做decode操作的时候,比如a.decode('utf-8'),如果a不是utf-8类型 阅读全文
posted @ 2013-08-22 17:18 enjoyOurLife 阅读(337) 评论(0) 推荐(0)
 
 
上一页 1 2 3 4 5

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3