java20130722 - 博客园

Win7 配置 Nutch 1.2

2013-05-01 08:28 by java20130722, 142 阅读, 0 推荐, 收藏,

摘要：Win7环境下配置nutch-1.2Step1：安装jdkStep2：安装tomcatStep3：安装cygwinStep4：安装和配置nutch-1.2Step5：测试nutch-1.2的爬虫功能Step6：测试nutch-1.2的检索功能Step1：安装jdk网上已有许多很好的教程了，这里不再赘述，只是强调两点Jdk的安装路径中不能有中文Jdk的安装路径中不能有空格Step2：安装tomcat网上已经有许多成熟的教程了，不再赘述了。Apache-tomcat官网：http://tomcat.apache.org/Step3：安装cygwinCygwin官网：http://www.cygwi 阅读全文

0 Comment

Sqlite 分页查询

2013-04-30 10:23 by java20130722, 426 阅读, 0 推荐, 收藏,

摘要：Sqlite 分页查询有张表为T_user; T_user 里面有二十条数据。id(1-20)sqlite 分页查询语句：查询前五条：select * from T_user limit 5 offset 0; 或者select * from T_user limit 0,5; 阅读全文

0 Comment

Hadoop JVM复用配置

2013-04-27 17:33 by java20130722, 273 阅读, 0 推荐, 收藏,

摘要：Hadoop默认为每个task（map task 或者 reduce task）启动一个jvm。鉴于目前小文件过多的问题，设置了jvm复用，即一个job内，多个task共享jvm，避免多次启动jvm，浪费资源和时间。测试Job信息：map：4715个reduce：20个input： 34Goutput: 25G优化前：1464 s优化后：1375 sJob运行时间减少 6%CPU使用率情况：*注意: mapred.job.reuse.jvm.num.tasks这个参数是客户端参数，修改不需要重启tasktracker，可以在提交job的shell或者代码中设置。阅读全文

0 Comment

hive一些参数

2013-04-27 15:37 by java20130722, 245 阅读, 0 推荐, 收藏,

摘要：Group ByMap 端部分聚合：并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。基于 Hash参数包括：hive.map.aggr = true是否在 Map 端进行聚合，默认为 Truehive.groupby.mapaggr.checkinterval = 100000在 Map 端进行聚合操作的条目数目有数据倾斜的时候进行负载均衡hive.groupby.skewindata = false当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果阅读全文

0 Comment

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

2013-04-27 15:15 by java20130722, 450 阅读, 0 推荐, 收藏,

摘要：Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy，其中lzo、snappy需要操作系统安装native库才可以支持下面这张表，是比较官方一点的统计，不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的，压缩比最高，GZIP不能被分块并行的处理；Snappy和LZO差不多，稍微胜出一点，cpu消耗的比GZIP少。通常情况下，想在CPU和IO之间取得平衡的话，用Snappy和lzo比较常见一些。Comparison between compression algorithmsAlgorithm% remainingEncodingDecodingGZIP13. 阅读全文

0 Comment

从一个经典案例看优化mapred.map.tasks的重要性

2013-04-27 09:52 by java20130722, 550 阅读, 0 推荐, 收藏,

摘要：我所在公司所使用的生产Hive环境的几个参数配置如下：dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true，而dfs.block.size与hive.merge.size.per.task的搭配使得合并后的绝大部分文件都在300MB左右。CASE 1：现在我们假设有3个300MB大小的文件，那么goalsize = min(900MB/2,256MB) = 256MB 阅读全文

0 Comment

hiveQL 本地mapreduce

2013-04-26 15:42 by java20130722, 296 阅读, 0 推荐, 收藏,

摘要：如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。。比如：Sql代码hive>select1fromdual;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorStartingJob=job_201208151631_2040444,TrackingURL=http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201208151631_20404 阅读全文

0 Comment

hive并行执行job

2013-04-26 15:10 by java20130722, 890 阅读, 0 推荐, 收藏,

摘要：用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。set hive.exec.parallel=true; //打开任务并行执行set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度，默认为8。对于同一个SQL产生的JOB,如果不存在依赖的情况下，将会并行启动JOB，比如：Sql代码from(selectphone,to_phone,substr(to_phone,-1)askeyfromyouni_contact4_lxwwher 阅读全文

0 Comment

记录一下Hive中间和最终结果压缩

2013-04-26 15:08 by java20130722, 491 阅读, 0 推荐, 收藏,

摘要：中间Lzo,最终GzipJava代码setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setmapred.output.compression.type=BLOCK;setmapred.compress.map.output=true;setmapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;sethive.exec.compress.o 阅读全文

0 Comment

map和reduce 个数的设定（Hive优化）经典

2013-04-25 14:44 by java20130722, 362 阅读, 0 推荐, 收藏,

摘要：一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20 阅读全文

0 Comment

About