摘要:1. 任务 为了实现一些机械分词算法,准备使用“国家语委语料库”的分词词表,在线下载到得词表文件是一个Excel文件。本文的任务就是使用Perl从该Execl文件中提取所有的词语。词表文件格式如下: 需要的词语的位置在从第8行开始的,第B列的所有单元格。一共有14629个词语。(PS:语料库的分词词表包含8万多个词语,但是在线下载到是出现次数在50次以上的词语,只有这1万多)。2. 使用什么模块 通过阅读一些博文发现,PERL的Spreadsheet::ParseExcel模块支持Excel的读操作。3. 如何下载模块(windows xp上的草莓PERL)在命令行下输入:cpan Sprea 阅读全文
posted @ 2012-01-30 16:07 xiaodongrush 阅读(19879) 评论(1) 推荐(3) 编辑