Apache Mahout 简介
摘要:from:http://www.ibm.com/developerworks/cn/java/j-mahout/通过可伸缩、商业友好的机器学习来构建智能应用程序在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据。 这其中就蕴含着机器学习领域以及本文章所介绍项目的前景:Apache Mahout(见参考资料)。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密切相关,并且经常需要使用各种技巧,包括统计学
阅读全文
posted @
2011-10-10 15:43
PhoenixZq
阅读(420)
推荐(0)
MapReduce 编程模型在日志分析方面的应用
摘要:from:http://www.ibm.com/developerworks/cn/java/java-lo-mapreduce/index.html简介日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的对应实现,涵盖在 MapReduce 编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机制等。文章分三部分展开:首先介绍 MapReduce 编程模型,对
阅读全文
posted @
2011-10-10 15:41
PhoenixZq
阅读(3662)
推荐(1)
日志分析方法概述
摘要:日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899
阅读全文
posted @
2011-10-09 20:31
PhoenixZq
阅读(455)
推荐(0)