所以燃

2014年5月27日

网络挖掘技术——Recommendation

摘要: 1.Personalization Includes:Recommending、Filtering、Predicting。 a)Non-Personalized b)Content-Based c)Collaborative Filtering: User-Based d)Cold-Start Problem: 阅读全文

posted @ 2014-05-27 22:16 Jizhiyuan 阅读(345) 评论(0) 推荐(0) 编辑

网络挖掘技术——微博文本特征提取

摘要: 文本特征向量 经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文... 阅读全文

posted @ 2014-05-27 19:42 Jizhiyuan 阅读(2565) 评论(0) 推荐(0) 编辑

网络挖掘技术——text mining

摘要: 一、中文分词:分词就是利用计算机识别出文本中词汇的过程。 1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控 ;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/BMM,全切分)、统计分词(生成式/判别式)、理解分词。 a)生成式分词:建立学习样本的生成模型,再... 阅读全文

posted @ 2014-05-27 19:28 Jizhiyuan 阅读(2447) 评论(0) 推荐(0) 编辑

导航