随笔分类 -  数据分析

摘要:1.K-means算法K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用... 阅读全文
posted @ 2014-11-28 16:10 minxinfeng 阅读(2549) 评论(0) 推荐(0)
摘要:Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立... 阅读全文
posted @ 2014-11-28 14:46 minxinfeng 阅读(328) 评论(0) 推荐(0)
摘要:系统日志和事件的数据存储形式主要有两类:无结构的日志数据、结构化或者半结构化的日志事件数据。1.无结构的日志数据:每条日志或者时间都是以一条文本记录或者短文的形式存储在日志文件中,如常见的日志文件:linux日志、Apache服务器日志、Hadoop日志等的日志数据都是记录在一个纯文本日志文件中。整... 阅读全文
posted @ 2014-11-28 11:01 minxinfeng 阅读(671) 评论(0) 推荐(0)
摘要:自动化计算包括计算系统的self-configuring(自动配置)、self-healing(自动修复)、self-optimizing(自动优化)、sekf-protection(自动保护),能够帮助企业节约大量系统管理成本。系统日志是记录生产设备运行过程中产生的记录数据,记录了操作系统运行状态... 阅读全文
posted @ 2014-11-26 17:16 minxinfeng 阅读(684) 评论(0) 推荐(1)
摘要:日志是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。下面以Web日志为例,进行相关的阐述。一.为什么要进行日志分析Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息,最简单的,我们可以从中获取网站每类页面的... 阅读全文
posted @ 2014-11-14 17:01 minxinfeng 阅读(637) 评论(0) 推荐(0)