hadoop的partitioner
摘要:hadoop的partitioner是用来控制map的输出到reducer的。可以添加自定义的partioner函数来控制map的输出,来控制将制定的结果输出到特定的reducer文件中。以便于结果的定位。一般是根据map输出的key进行做控制,返回一个int值,来指定将map的输出到哪个reducer中。refer http://www.cnblogs.com/xwdreamer/archive/2011/10/27/2296943.html
阅读全文
posted @
2013-02-27 10:49
@且听风吟@
阅读(147)
推荐(0)
[转载]PyDev for Eclipse 简介
摘要:PyDev 简介 2003年7月16日,以 Fabio Zadrozny 为首的三人开发小组在全球最大的开放源代码软件开发平台和仓库 SourceForge 上注册了一款新的项目,该项目实现了一个功能强大的 Eclipse插件,用户可以完全利用 Eclipse 来进行 Python 应用程序的开发和调试。这个能够将 Eclipse当作 Python IDE 的项目就是 PyDev。 Py...
阅读全文
posted @
2013-02-27 10:21
@且听风吟@
阅读(211)
推荐(0)
解决Eclipse java was started but returned exit code = 1问题
摘要:解决Eclipse java was started but returned exit code = 1问题 运行Eclipse的时候出现Eclipse java was started but returned exit code = 1 然后就打不开了 查网上好多方法说修改eclipse.ini ,但是怎么都不行。 最后找到解决方法: 把Eclipse的目录搬到没有中文...
阅读全文
posted @
2013-02-27 10:12
@且听风吟@
阅读(2138)
推荐(0)
linux 文件大小ll和du不一致问题
摘要:今天出现了程序的日志文件占用的磁盘空间大小通过ll和du 来查看大小不一致。 通过ll –h 来看占用的空间比du –sh 打了很多,磁盘被占满了。 查了些资料发现是文件空洞的问题. 后来同事提醒,日志文件保存时候使用> 将其保存,对文件进行清除和日志切割(logrotate)时,容易出现文件空洞。 需要使用“>>” 可以避免该问题。修改后问题确实解决了。 在此Mark一下。 refe...
阅读全文
posted @
2013-02-26 11:34
@且听风吟@
阅读(1664)
推荐(0)
YII 学习一: YII 初试
摘要:首先配置环境:可以参见上次随笔 nginx+php 配置我的环境为Ubuntu 10.10 nginx+php+mysql同时按照:http://blog.csdn.net/happyrabbit456/article/details/8498539 说明逐步尝试然后数据库环境,我需要使用mysql,则需要修改protected/config/main.php 将mysql需要使用的取消注释 1: 'db'=>;array( 2: 'connectionString' =>; 'mysql:host=localhost;dbname=test
阅读全文
posted @
2013-02-07 14:21
@且听风吟@
阅读(211)
推荐(0)
nginx+ php 安装配置实用
摘要:ubuntu 环境 10.10 安装nginx 1: sudo apt-get install nginxUbuntu安装之后的文件结构大致为: 所有的配置文件都在/etc/nginx下,并且每个虚拟主机已经安排在了/etc/nginx/sites-available下 程序文件在/usr/sbin/nginx 日志放在了/var/log/ngin...
阅读全文
posted @
2013-02-07 11:30
@且听风吟@
阅读(282)
推荐(0)
[转载][开源框架推荐]VTD-XML:世界上最快的XML处理框架
摘要:转载:http://blog.csdn.net/kimmking/article/details/8424319DOM方式是直接把xml文件全部加载到内存,然后建立dom树,特点:可读可写,支持XPath,但是非常慢,占用内存为xml的10倍数量级,无法处理大文件。 SAX方式则是事件通知机制,一点点的处理xml,每分析一个节点,调用用户自己实现的处理逻辑,特点:非常快,几乎不占用内存,只能读,并且只能读一次,不能读取指定内容也不能重复读,API也比dom难用的多。VTD-XML则兼容了这两个xml处理技术的优势,其先按二进制方式扫描一遍xml文件,针对所有的节点做一个二进制索引,这个需要的内
阅读全文
posted @
2013-02-06 11:05
@且听风吟@
阅读(302)
推荐(0)
[转载]Gearman(分布式任务调度框架) 简介
摘要:http://www.kuqin.com/system-analysis/20121209/333922.html 看到先记下来。回头试验下 在@hacker101的围脖上看到了这个框架,看了下官网,觉得很适合爬虫、多进程并行处理等任务。 看看官方提供的几个例子: Mass PDF quote email Synchronous Image Resize Shard-...
阅读全文
posted @
2013-02-05 17:54
@且听风吟@
阅读(468)
推荐(0)
[转载]Linux大文件传输
摘要:http://www.kuqin.com/linux/20120207/317913.html 我们经常需要在机器之间传输文件。比如备份,复制数据等等。这个是很常见,也是很简单的。用scp或者rsync就能很好的完成任务。但是如果文件很大,需要占用一些传输时间的时候,怎样又快又好地完成任务就很重要了。在我的测试用例中,一个最佳的方案比最差的方案,性能提高了10倍。 复制文件 如果我们是复...
阅读全文
posted @
2013-02-05 15:44
@且听风吟@
阅读(348)
推荐(0)