随笔分类 - 日常工具
摘要:Mahout应用(一)Mahout 是应用于hadoop上的数据挖掘工具(废话不多说)这里先简单介绍一下mahout的一般使用方法。拿kmeans为列子Mahout中的kmeans所需要的输入比较特殊需要的输入类型为VectorWritable类型并且是SequenceFile格式存储(一般来讲为了方便查看数据我比较喜欢直接用Text格式直接存储)使用SequenceFile主要是因为可压缩和数据读入速度,mahout认为我们的输出绝大多数不需要看而是为了当做以后的输入。VectorWritable的应用我们以后再说。Mahout中有一个类叫做InputDriver是用来将输入的文件转化成Ve
阅读全文
摘要:GraphChi介绍最近在研究graphchi,它是一个在单机上处理图的一个很强大的框架。给大家一些链接可以学习它:论文:http://select.cs.cmu.edu/publications/paperdir/osdi2012-kyrola-blelloch-guestrin.pdf 例子:http://code.google.com/p/graphchi/wiki/ExampleApps 官方网站:http://code.google.com/p/graphchi/wiki/ExampleApps
阅读全文
摘要:一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m
阅读全文
摘要:在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以/t划分。 data.txt内容如下: 2010011003abc 2010021005def 2010031006ghi 2010041003jkl 2010051004mno 2010061005pqr info.txt内容如下: 1003kaka 1004da 1005jue 1006zhao 期望输出结果: 1003201001abckaka 1003201004jklkaka 1004201005mnoda 1005201002defjue 1005201006pqrju
阅读全文
摘要:不多说 [http|https]+[://]+[0-9A-Za-z:/[-]_#[?][=][.][&]]* 这个就是匹配 网络上的网址 又称 url 。最起码 绝大部分的taobao url 可以完全匹配上
阅读全文
摘要:如果你使用udf,udaf,udtf中的某一个并且查询日志中出现如下之类的struct错误java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:104) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:74) at org.apache.hadoop.util.ReflectionUtils.set
阅读全文
摘要:以ftp 批量上传文件时 可以用 mput file1 file2 .. 但是这样没传送一个就会问是否传送下一个 ,那么可以使用prompt这个命令。这是个双向开关,执行一次是取消提示,在执行一次是打开提示。那么如果我想上传某一个文件夹 比如a文件夹 那么cd a 然后进入ftp服务器 关闭提示 然后 mput * 即可。
阅读全文

浙公网安备 33010602011771号