随笔档案「2011年9月30日」：互信息应用于语义相似度的测试 ... - PDEagle

公告

2011年9月30日

摘要：互信息在自然语言处理中常有应用，最近我爬取了百度百科五十万个网页，利用中科院ICTCLAS分词系统，借助于互信息的方法，做了一个考察两个中文句子之间的语义相似度的模型。把结果整理于下。先谈谈整个思路。爬取网页并从中抽取出干净的段落，这个没有难点。初始工作完成後，就对这些文章进行分词，去掉一些停用词、人名、无意义的助词等等，得到另一份数据。这份数据一篇文章就用一些词來表示。比如：红三军司令部旧址省级重点文物保护单位位于重庆酉阳县南端南腰界乡桶子领导红三军建立黔东特区同年率红军团红军团会师南腰界红军军事指挥中心红三军司令阅读全文

posted @ 2011-09-30 09:22 PDEagle 阅读(1310) 评论(2) 推荐(1)

PDEagle的技术博客

公告