WordCount bug修复录

WordCount已写完一段时间了,但是它依然存在bug。昨天与同学的WordCount对拍,发现两者的结果不一致。经询问,我们俩对用户需求的理解完全一致。

首先观察不一致的地方,同学的版本的输出文件总是比我的输出文件要小。仔细观察后发现,同学的输出中没有对空字符串(即纯数字的单词在extended模式下删除后缀数字的结果)的输出。他改掉该bug后,输出数据大小一样了,但是内容依然有不一样的地方。

但是输入文件太多,不好定位到谁出错、哪里出错,于是我们开始观察对方的代码,依然未找到错误。

我们于是用一个大文本文件作为输入,我们的输出不一致。通过人肉搜索词频,发现是我出错。然后发现是由于我对中文的处理不当造成的。修改好该bug后,我们的输出结果终于一致了。

但是,我的程序执行速度要慢于他的,但是性能分析工具并没有找到哪里是瓶颈。所以我认为应该是由于我的程序先运行,于是把磁盘文件缓存,随后他的程序后运行便不许再读磁盘造成的。

posted @ 2012-09-22 10:36  wanganran  阅读(176)  评论(0编辑  收藏  举报