随笔分类 -  机器学习算法

目前这部分主要是用来学习算法,转载一些别人的理论总结和代码实现,通过结合代码和理论可能会能更好的学习这个算法
摘要:基于上面的一篇博客k-means利用sklearn实现k-means #!/usr/bin/env python # coding: utf-8 # In[1]: import numpy as np import matplotlib.pyplot as plt from sklearn.clus 阅读全文
posted @ 2020-11-11 19:25 +D 阅读(499) 评论(0) 推荐(0)
摘要:基于上面一篇博客k-近邻利用sklearns实现knn #!/usr/bin/env python # coding: utf-8 # In[1]: import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors i 阅读全文
posted @ 2020-11-11 19:23 +D 阅读(501) 评论(0) 推荐(0)
摘要:通过这个博客学习:机器学习实战(四)——基于概率论的分类方法:朴素贝叶斯 代码是之前找来学习的一份,讲解比较详细,结合代码更容易对算法形成理解吧。 from numpy import * def loadDataSet(): postingList = [ ['my', 'dog', 'has', 阅读全文
posted @ 2020-10-17 15:23 +D 阅读(113) 评论(0) 推荐(0)
摘要:通过这个博客学习:数据挖掘十大算法(四):Apriori(关联分析算法) 代码也是摘自上面博客,对照代码理解理论部分可能更加有助于对该算法的理解 from numpy import * # 构造数据 def loadDataSet(): return [[1, 3, 4], [2, 3, 5], [ 阅读全文
posted @ 2020-10-10 16:30 +D 阅读(167) 评论(0) 推荐(0)
摘要:理论部分从这里复习 决策树(呆呆的猫) 机器学习实战(三)——决策树(呆呆的猫) 代码也摘自上面博客,可以通过这个代码结合上面理论学习 from math import log import operator """ 函数说明:计算给定数据集的经验熵(香农熵) Parameters: dataSet 阅读全文
posted @ 2020-10-10 14:39 +D 阅读(172) 评论(0) 推荐(0)
摘要:首先K-近邻是个分类问题,属于所谓的有监督学习 1、工作原理: 计算一个点A与样本空间所有点之间的距离,取出与该点最近的K个点,然后统计出K个点里面所属分类比例最大的分类,则该点A就属于这个所占比例最大的分类 2、算法步骤: 计算距离:给定测试对象,计算它与训练集中的每个对象的距离 找最近的K个邻居 阅读全文
posted @ 2020-09-20 14:39 +D 阅读(191) 评论(0) 推荐(0)
摘要:前面理论部分转自 https://www.jianshu.com/p/fc91fed8c77b 说到聚类,应先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类:分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一 阅读全文
posted @ 2020-09-19 17:38 +D 阅读(328) 评论(0) 推荐(0)