zourui4271

数据挖掘的数据预处理

摘要： 1.原始数据存在的几个问题：不一致；重复；含噪声；维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则应该是从原始数据中选取合适的属性作为数据挖掘属性，这个选取过程应参考的原则是：尽可能赋予属性名和属性值明确的含义；统一多数据源的属性值编码；阅读全文

posted @ 2017-04-17 17:25 zourui4271 阅读(491) 评论(0) 推荐(0)

日志实时收集和计算的简单方案

摘要：作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以上），因此，我们使用Flume将数据收集到HDFS，然后进行清洗和分析。后来，根据业务需要，我阅读全文

posted @ 2017-04-17 08:43 zourui4271 阅读(503) 评论(0) 推荐(0)

spark ml 的例子

摘要：一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水阅读全文

posted @ 2017-04-17 08:27 zourui4271 阅读(1514) 评论(0) 推荐(0)

K-Means

摘要： K-Means是聚类算法中的一种，其中K表示类别数，Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K值及初始质心K值是聚类结果中类别的数量。阅读全文

posted @ 2017-04-11 08:43 zourui4271 阅读(206) 评论(0) 推荐(0)

介绍列式存储的好文章

摘要：最近看到一篇很好资料，里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了，牛啊！最喜欢的就是这种浅显易懂就把背景知识讲得明明白白，而不是长篇大论的讲概念。 1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的阅读全文

posted @ 2017-04-10 14:44 zourui4271 阅读(324) 评论(0) 推荐(0)

Mongodb 存储日志信息

摘要：线上运行的服务会产生大量的运行及访问日志，日志里会包含一些错误、警告、及用户行为等信息，通常服务会以文本的形式记录日志信息，这样可读性强，方便于日常定位问题，但当产生大量的日志之后，要想从大量日志里挖掘出有价值的内容，则需要对数据进行进一步的存储和分析。本文以存储 web 服务的访问日志为例，介绍阅读全文

posted @ 2017-04-10 13:49 zourui4271 阅读(2055) 评论(0) 推荐(0)

广播变量

摘要： spark集群由两类集群构成：一个驱动程序，多个执行程序。 1、广播变量 broadcast 广播变量为只读变量，它由运行sparkContext的驱动程序创建后发送给会参与计算的节点。也可被非驱动程序所在节点（即工作节点）访问，访问是调用该变量的value方法。广播变量是存储在内存中。 sc. 阅读全文

posted @ 2017-04-10 10:25 zourui4271 阅读(508) 评论(0) 推荐(0)

回归和梯度下降

摘要：回归与梯度下降：回归在数学上来说是给定一个点集，能够用一条曲线去拟合之，如果这个曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归，回归还有很多的变种，如locally weighted回归，logistic回归，等等，这个将在后面去讲。用一个很简单的例子来说明回归，这阅读全文

posted @ 2017-04-09 12:20 zourui4271 阅读(157) 评论(0) 推荐(0)

朴素贝叶斯的解释

摘要：一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业疾病打喷嚏　护士感冒打喷嚏　农夫过敏头痛建筑工人　脑震荡头痛建筑工人　感冒打喷嚏　教师感冒头痛教师脑震荡现在又来了第七个病人，是一个打阅读全文

posted @ 2017-04-05 15:42 zourui4271 阅读(451) 评论(0) 推荐(0)

情感分析实例

摘要：以下的样本代码用Pyhton写成，主要使用了scrapy， sklearn两个库。所以，什么是情感分析(Sentiment Analysis)? 情感分析又叫意见挖掘(Opinion Mining), 是一个研究人们对某种事物，例如产品，话题，政策的意见，情绪或者态度的领域。随着网路上意见型数据阅读全文

posted @ 2017-04-05 10:35 zourui4271 阅读(1573) 评论(0) 推荐(0)

公告