日常工具 - 随笔分类 - LongYou

摘要：一张图告诉你如何分析数据以及选择算法阅读全文

posted @ 2014-10-12 13:17 LongYou 阅读(549) 评论(0) 推荐(0)

摘要：Mahout应用（一）Mahout 是应用于hadoop上的数据挖掘工具（废话不多说）这里先简单介绍一下mahout的一般使用方法。拿kmeans为列子Mahout中的kmeans所需要的输入比较特殊需要的输入类型为VectorWritable类型并且是SequenceFile格式存储（一般来讲为了方便查看数据我比较喜欢直接用Text格式直接存储）使用SequenceFile主要是因为可压缩和数据读入速度，mahout认为我们的输出绝大多数不需要看而是为了当做以后的输入。VectorWritable的应用我们以后再说。Mahout中有一个类叫做InputDriver是用来将输入的文件转化成Ve 阅读全文

posted @ 2014-03-14 18:20 LongYou 阅读(1215) 评论(0) 推荐(0)

GraphChi介绍

摘要：GraphChi介绍最近在研究graphchi，它是一个在单机上处理图的一个很强大的框架。给大家一些链接可以学习它：论文：http://select.cs.cmu.edu/publications/paperdir/osdi2012-kyrola-blelloch-guestrin.pdf 例子：http://code.google.com/p/graphchi/wiki/ExampleApps 官方网站：http://code.google.com/p/graphchi/wiki/ExampleApps 阅读全文

posted @ 2013-12-31 09:14 LongYou 阅读(2292) 评论(0) 推荐(0)

hive优化之------控制hive任务中的map数和reduce数

摘要：一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m 阅读全文

posted @ 2013-10-11 15:17 LongYou 阅读(2636) 评论(0) 推荐(0)

Map/Reduce中Join查询实现

摘要：在做这个Join查询的时候，必然涉及数据，我这里设计了2张表，分别较data.txt和info.txt，字段之间以/t划分。 data.txt内容如下： 2010011003abc 2010021005def 2010031006ghi 2010041003jkl 2010051004mno 2010061005pqr info.txt内容如下： 1003kaka 1004da 1005jue 1006zhao 期望输出结果： 1003201001abckaka 1003201004jklkaka 1004201005mnoda 1005201002defjue 1005201006pqrju 阅读全文

posted @ 2013-10-10 09:57 LongYou 阅读(795) 评论(0) 推荐(0)

java 中正则正则表达式匹配 url

摘要：不多说 [http|https]+[://]+[0-9A-Za-z:/[-]_#[?][=][.][&]]* 这个就是匹配网络上的网址又称 url 。最起码绝大部分的taobao url 可以完全匹配上阅读全文

posted @ 2013-07-30 09:52 LongYou 阅读(8399) 评论(0) 推荐(0)

hive 中出现struct 结构化的问题

摘要：如果你使用udf，udaf，udtf中的某一个并且查询日志中出现如下之类的struct错误java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:104) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:74) at org.apache.hadoop.util.ReflectionUtils.set 阅读全文

posted @ 2013-07-24 11:05 LongYou 阅读(1655) 评论(2) 推荐(0)

有关ftp批量传送文件或文件夹

摘要：以ftp 批量上传文件时可以用 mput file1 file2 .. 但是这样没传送一个就会问是否传送下一个，那么可以使用prompt这个命令。这是个双向开关，执行一次是取消提示，在执行一次是打开提示。那么如果我想上传某一个文件夹比如a文件夹那么cd a 然后进入ftp服务器关闭提示然后 mput * 即可。阅读全文

posted @ 2013-07-18 09:44 LongYou 阅读(1044) 评论(0) 推荐(0)

LongYou

随笔分类 - 日常工具

公告