zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 55 下一页

2017年4月17日 #

摘要: 1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; 阅读全文
posted @ 2017-04-17 17:25 zourui4271 阅读(491) 评论(0) 推荐(0)

摘要: 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完 成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我 阅读全文
posted @ 2017-04-17 08:43 zourui4271 阅读(503) 评论(0) 推荐(0)

摘要: 一、关于spark ml pipeline与机器学习 一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水 阅读全文
posted @ 2017-04-17 08:27 zourui4271 阅读(1514) 评论(0) 推荐(0)

2017年4月11日 #

摘要: K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。K值及初始质心K值是聚类结果中类别的数量。 阅读全文
posted @ 2017-04-11 08:43 zourui4271 阅读(206) 评论(0) 推荐(0)

2017年4月10日 #

摘要: 最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的 阅读全文
posted @ 2017-04-10 14:44 zourui4271 阅读(324) 评论(0) 推荐(0)

摘要: 线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误、警告、及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖掘出有价值的内容,则需要对数据进行进一步的存储和分析。 本文以存储 web 服务的访问日志为例,介绍 阅读全文
posted @ 2017-04-10 13:49 zourui4271 阅读(2055) 评论(0) 推荐(0)

摘要: spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 广播变量是存储在内存中。 sc. 阅读全文
posted @ 2017-04-10 10:25 zourui4271 阅读(508) 评论(0) 推荐(0)

2017年4月9日 #

摘要: 回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这 阅读全文
posted @ 2017-04-09 12:20 zourui4271 阅读(157) 评论(0) 推荐(0)

2017年4月5日 #

摘要: 一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震荡 现在又来了第七个病人,是一个打 阅读全文
posted @ 2017-04-05 15:42 zourui4271 阅读(451) 评论(0) 推荐(0)

摘要: 以下的样本代码用Pyhton写成,主要使用了scrapy, sklearn两个库。 所以,什么是情感分析(Sentiment Analysis)? 情感分析又叫意见挖掘(Opinion Mining), 是一个研究人们对某种事物,例如产品,话题,政策的意见,情绪或者态度的领域。 随着网路上意见型数据 阅读全文
posted @ 2017-04-05 10:35 zourui4271 阅读(1573) 评论(0) 推荐(0)

上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 55 下一页