摘要: (一) 国家语委1国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。2古代汉语语料库http://ww... 阅读全文
posted @ 2014-09-25 16:27 勿妄 阅读(19220) 评论(0) 推荐(1) 编辑
摘要: 转载:码农场 » TextRank算法提取关键词的Java实现谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在 Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理... 阅读全文
posted @ 2014-09-25 15:43 勿妄 阅读(2960) 评论(0) 推荐(0) 编辑
摘要: (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling ... 阅读全文
posted @ 2014-09-25 14:51 勿妄 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 转载:http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。... 阅读全文
posted @ 2014-09-25 14:31 勿妄 阅读(250) 评论(0) 推荐(0) 编辑