随笔分类 -  机器学习及自然语言处理

关注算法在工商业领域的应用及相关知识的汇总
摘要:基于词的分析与处理是自然语言处理尤其是中文文本分析中非常基础的技术,一般会根据词的语义划分来设定不同 的分析方向,比如情感分析、观点挖掘、舆情监控等。从语言学角度来讲,词的语义划分主观性太大,不太好控制,通常为了让语义划分变得客观,都需要首先分析词的语法意义,通常这个阶段叫做词性标注。下面是中文词语在语法角度的划分:|--实词 |--名词(专有名词、普通名词) |--具体名词 |--表示事物:树木、月饼 |--表示人物:作家、教师 |--表示时间:黑夜、春节 |--表示... 阅读全文
posted @ 2012-12-19 11:50 BrightSea 阅读(758) 评论(0) 推荐(0)
摘要:在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件下面就几个重点相似度计算方法做介绍:皮尔森相关度类名:PearsonCorrelationSimilarity原理:用来反映两个变量线性相关程度的统计量范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小。说明:1、. 阅读全文
posted @ 2012-06-20 09:57 BrightSea 阅读(11406) 评论(1) 推荐(1)
摘要:Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中 阅读全文
posted @ 2011-08-23 10:04 BrightSea 阅读(7446) 评论(0) 推荐(1)