代码改变世界

Win7 配置 Nutch 1.2

2013-05-01 08:28 by java20130722, 137 阅读, 0 推荐, 收藏,
摘要:Win7环境下配置nutch-1.2Step1:安装jdkStep2:安装tomcatStep3:安装cygwinStep4:安装和配置nutch-1.2Step5:测试nutch-1.2的爬虫功能Step6:测试nutch-1.2的检索功能Step1:安装jdk网上已有许多很好的教程了,这里不再赘述,只是强调两点Jdk的安装路径中不能有中文Jdk的安装路径中不能有空格Step2:安装tomcat网上已经有许多成熟的教程了,不再赘述了。Apache-tomcat官网:http://tomcat.apache.org/Step3:安装cygwinCygwin官网:http://www.cygwi 阅读全文

Sqlite 分页查询

2013-04-30 10:23 by java20130722, 420 阅读, 0 推荐, 收藏,
摘要:Sqlite 分页查询有张表为T_user; T_user 里面有二十条数据。id(1-20)sqlite 分页查询语句:查询前五条:select * from T_user limit 5 offset 0; 或者select * from T_user limit 0,5; 阅读全文

Hadoop JVM复用配置

2013-04-27 17:33 by java20130722, 270 阅读, 0 推荐, 收藏,
摘要:Hadoop默认为每个task(map task 或者 reduce task) 启动一个jvm。鉴于目前小文件过多的问题,设置了jvm复用,即一个job内,多个task共享jvm,避免多次启动jvm,浪费资源和时间。测试Job信息:map:4715个reduce:20个input: 34Goutput: 25G优化前:1464 s优化后:1375 sJob运行时间减少 6%CPU使用率情况:*注意: mapred.job.reuse.jvm.num.tasks这个参数是客户端参数,修改不需要重启tasktracker,可以在提交job的shell或者代码中设置。 阅读全文

hive一些参数

2013-04-27 15:37 by java20130722, 241 阅读, 0 推荐, 收藏,
摘要:Group ByMap 端部分聚合:并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。基于 Hash参数包括:hive.map.aggr = true是否在 Map 端进行聚合,默认为 Truehive.groupby.mapaggr.checkinterval = 100000在 Map 端进行聚合操作的条目数目有数据倾斜的时候进行负载均衡hive.groupby.skewindata = false当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果 阅读全文

关于几种压缩算法以及hadoop和hbase中的压缩配置说明

2013-04-27 15:15 by java20130722, 441 阅读, 0 推荐, 收藏,
摘要:Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取得平衡的话,用Snappy和lzo比较常见一些。Comparison between compression algorithmsAlgorithm% remainingEncodingDecodingGZIP13. 阅读全文

从一个经典案例看优化mapred.map.tasks的重要性

2013-04-27 09:52 by java20130722, 548 阅读, 0 推荐, 收藏,
摘要:我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true,而dfs.block.size与hive.merge.size.per.task的搭配使得合并后的绝大部分文件都在300MB左右。CASE 1:现在我们假设有3个300MB大小的文件,那么goalsize = min(900MB/2,256MB) = 256MB 阅读全文

hiveQL 本地mapreduce

2013-04-26 15:42 by java20130722, 291 阅读, 0 推荐, 收藏,
摘要:如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。比如:Sql代码hive>select1fromdual;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorStartingJob=job_201208151631_2040444,TrackingURL=http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201208151631_20404 阅读全文

hive并行执行job

2013-04-26 15:10 by java20130722, 871 阅读, 0 推荐, 收藏,
摘要:用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。set hive.exec.parallel=true; //打开任务并行执行set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度,默认为8。对于同一个SQL产生的JOB,如果不存在依赖的情况下,将会并行启动JOB,比如:Sql代码from(selectphone,to_phone,substr(to_phone,-1)askeyfromyouni_contact4_lxwwher 阅读全文

记录一下Hive中间和最终结果压缩

2013-04-26 15:08 by java20130722, 489 阅读, 0 推荐, 收藏,
摘要:中间Lzo,最终GzipJava代码setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setmapred.output.compression.type=BLOCK;setmapred.compress.map.output=true;setmapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;sethive.exec.compress.o 阅读全文

map和reduce 个数的设定 (Hive优化)经典

2013-04-25 14:44 by java20130722, 361 阅读, 0 推荐, 收藏,
摘要:一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20 阅读全文
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 58 下一页