wordcount的博客。

1)在开始工作前,本来是预计三个晚上完成,第一个晚上完成普通模式(3小时),第二个晚上完成扩展模式并在窗口化的情况下进行测试(3小时),第三个晚上转为命令行控制并加以完善(2小时)。

2)实际情况基本与预期相同,但是因为今天收到的用户需求变更的通知,多花了一下午时间(4.5h)对程序本身进行修改,尤其是字母序的定义上,与室友争议了较长时间,在处理字母序上也花了大部分的时间。

 

3)不知道为什么VS2012在自己电脑上运行不正常,因此编程还是用的2010,在同学机器上进行的测试。但是2012的性能分析未成功过,这也是较多同学的代码都出现过的问题,自己目测程序里花时间最长的应该还是词语排序上。

 

4)以某一个样例为例

 

原文本:

4329879 wo shi  liU22 jun wei
10061162
10061162
lIu
junwei
shi
wo
bu shi ni
Liu21
LIU12
Wei
YAOQIU21
ni3

正常统计(同词频下字母序优先).CompareOrdinal 实现

shi: 3
Wei: 2
LIU12: 1
Liu21: 1
YAOQIU21: 1
jun: 1
junwei: 1
lIu: 1
liU22: 1

扩展版输出:

LIU12: 4
shi: 3
Wei: 2
YAOQIU21: 1
jun: 1
junwei: 1

 5)在本次练习中,主要是对词频处理以及排序上有了更多的体会,如.sort与.compare的缺陷等等,也比如输入中readalltext遇见乱码时的处理方式等等,本来以为一个hashtable能解决的问题实际上并不是开始设想的简单,处于学习的阶段,我还有很长的路要走。

 

ps:

上完课后的优化:

上课的时候翻才到手的《移山之道》时,发现在自己程序里调用xxx.count或者xxx.lenth相当频繁,而书上则建议先用一个变量如k来存储这些长度,需要用那些长度时用直接调用K即可,但是在经过约1+小时的代码优化/精简,发现不但效率上没什么提高,输出结果还发生了错误,真心无奈了。

posted on 2012-09-24 16:51  ********  阅读(179)  评论(0编辑  收藏  举报