摘要: 本文基于Kafka 0.8 1. 引言 Kafka是LinkedIn开发并开源出来的一个高吞吐的分布式消息系统。其具有以下特点: 1) 支持高Throughput的应用2) scale out:无需停机即可扩展机器3) 持久化:通过将数据持久化到硬盘以及replication防止数据丢失4) 支持o 阅读全文
posted @ 2020-11-11 14:46 lenomail 阅读(72) 评论(0) 推荐(0)
摘要: 引言 为什么要搭建该系统 Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。 活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。 活动数据包括页面访问量(page 阅读全文
posted @ 2020-11-11 11:38 lenomail 阅读(275) 评论(0) 推荐(0)
摘要: K均值聚类算法 一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定 阅读全文
posted @ 2020-11-11 10:44 lenomail 阅读(1337) 评论(0) 推荐(0)