2017年7月17日

hadoop_hive_zookeeper_kafka_spark平台搭建

摘要: hadoop_hive_zookeeper_kafka_spark平台搭建 阅读全文

posted @ 2017-07-17 16:50 奔跑的火柴人 阅读(575) 评论(0) 推荐(0)

2017年5月1日

SVM

摘要: (1)线性可分支撑向量机;(2)线性支持向量机;(3)非线性支撑向量机。在这里线性可分支撑机是后续算法的基础,通常都是在线性可分的目标函数基础之上加入核函数或者松弛因子,进而得到复杂的模型达到分类的目的。 (1)线性可分支撑向量机 首先线性可分数据集意味着在空间中两类数据集没有交集,我们可以通过寻找 阅读全文

posted @ 2017-05-01 19:39 奔跑的火柴人 阅读(303) 评论(0) 推荐(0)

2016年12月24日

PCA原理与实践

摘要: 在对数据进行预处理时,我们经常会遇到数据的维数非常之大,如果不进行相应的特征处理,那么算法的资源开销会很大,这在很多场景下是我们不能接受的。而对于数据的若干维度之间往往会存在较大的相关性,如果能将数据的维度之间进行相应的处理,使它们在保留最大数据信息的同时降低维度之间的相关性,就可以达到降维的效果。 阅读全文

posted @ 2016-12-24 16:33 奔跑的火柴人 阅读(392) 评论(0) 推荐(0)

2016年12月13日

kmeans算法实践

摘要: 这几天学习了无监督学习聚类算法Kmeans,这是聚类中非常简单的一个算法,它的算法思想与监督学习算法KNN(K近邻算法)的理论基础一样都是利用了节点之间的距离度量,不同之处在于KNN是利用了有标签的数据进行分类,而Kmeans则是将无标签的数据聚簇成为一类。接下来主要是我对《机器学习实战》算法示例的 阅读全文

posted @ 2016-12-13 21:20 奔跑的火柴人 阅读(1293) 评论(2) 推荐(0)

导航