PDEagle的技术博客

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2011年9月30日

摘要: 互信息在自然语言处理中常有应用,最近我爬取了百度百科五十万个网页,利用中科院ICTCLAS分词系统,借助于互信息的方法,做了一个考察两个中文句子之间的语义相似度的模型。把结果整理于下。先谈谈整个思路。爬取网页并从中抽取出干净的段落,这个没有难点。初始工作完成後,就对这些文章进行分词,去掉一些停用词、人名、无意义的助词等等,得到另一份数据。这份数据一篇文章就用一些词來表示。比如:红三军 司令部 旧址 省级 重点 文物 保护 单位 位于 重庆 酉阳县 南端 南 腰 界 乡 桶 子 领导 红三军 建立 黔 东 特区 同年 率 红 军团 红 军团 会师 南 腰 界 红军 军事 指挥 中心 红三军 司令 阅读全文
posted @ 2011-09-30 09:22 PDEagle 阅读(1310) 评论(2) 推荐(1)