eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2007年9月10日

摘要: PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考。 阅读全文

posted @ 2007-09-10 13:20 eaglet 阅读(19195) 评论(12) 推荐(1) 编辑