随笔档案「2021年7月」 - xinxinmama

3.1.3递归构建决策树

摘要：1 #通过统计classList(标签列)中每种值的个数，得到次数最多的标签 2 def majorityCnt(classList): 3 classCount = {} 4 for vote in classList: 5 if vote not in classCount.keys(): 6 阅读全文

posted @ 2021-07-23 14:04 xinxinmama 阅读(198) 评论(0) 推荐(0)

常用语句块

摘要：序号描述代码备注 1、获得数据集某特征列/标签列特征列： 1 for i in range(numFeatures): 2 featList = [example[i] for example in dataSet] 标签列： 1 classList = [example[-1] for 阅读全文

posted @ 2021-07-23 14:03 xinxinmama 阅读(69) 评论(0) 推荐(0)

3.1.2 划分数据集

摘要：1 #按照给定特征划分数据集 2 def splitDataSet1(dataSet,axis,value): #eg:splitDataSet(myDat,0,0) 3 retDataSet = [] 4 for featVec in dataSet: #eg:featVec:[1,1,'mayb 阅读全文

posted @ 2021-07-22 17:10 xinxinmama 阅读(153) 评论(0) 推荐(0)

3.1.1信息增益

摘要：1 #计算给定数据集的香农熵 2 from math import log 3 4 def calcShannonEnt(dataSet): 5 numEntries = len(dataSet) #样本条目数 6 labelCounts = {} 7 for featVec in dataSet: 阅读全文

posted @ 2021-07-22 05:19 xinxinmama 阅读(61) 评论(0) 推荐(0)

2.3测试算法：使用k-近邻算法识别手写数字

摘要：1 #将每个32*32图像阵列转为1*1024特征值阵列 2 def img2vector(filename): 3 returnVect = zeros((1,1024)) #初始化returnVect为1行1024列的全零阵列 4 fr = open(filename) 5 for i in r 阅读全文

posted @ 2021-07-21 17:24 xinxinmama 阅读(99) 评论(0) 推荐(0)

2.2.5 使用算法，构建完整可用系统

摘要：1 def classifyPerson(): 2 resultList = ['not at all.','in small doses.','in large doses.'] 3 percentTats = float(input('pencentage of time spent playi 阅读全文

posted @ 2021-07-20 08:56 xinxinmama 阅读(36) 评论(0) 推荐(0)

2.2.4 测试算法：作为完整程序验证分类器

摘要：1 def datingclassTest(): 2 hoRatio = 0.20 3 datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 4 normMat,ranges,minVals = autoNorm(datingD 阅读全文

posted @ 2021-07-19 17:01 xinxinmama 阅读(142) 评论(0) 推荐(0)

2.1.2 从文本中解析数据（k近邻算法）

摘要：1 #kNN(k近邻算法）分类器函数 2 def classify0(inX,dataSet,labels,k): 3 #参数列表：inX~用于分类的输入向量 4 # dataSet~输入的训练样本集 5 # labels~标签向量 6 # k~用于选择最近邻居的数目 7 8 dataSetSiz 阅读全文

posted @ 2021-07-19 17:00 xinxinmama 阅读(85) 评论(0) 推荐(0)

2.2.3 准备数据：归一化数值

摘要：1 def autoNorm(dataSet): 2 minVals = dataSet.min(0) #min(0)从列中选取最小值，注意参数为0 3 maxVals = dataSet.max(0) #max(0)从列中选取最大值，注意参数为0 4 ranges = maxVals - minV 阅读全文

posted @ 2021-07-19 16:59 xinxinmama 阅读(123) 评论(0) 推荐(0)

2.2.2 分析数据：使用Matplotlib创建散点图

摘要：1 import kNN 2 import matplotlib 3 import matplotlib.pyplot as plt 4 fig = plt.figure() #创建图像 5 ax = fig.add_subplot(111) #添加子图像（1行1列中的第一个） 6 ax.scatt 阅读全文

posted @ 2021-07-19 16:57 xinxinmama 阅读(142) 评论(0) 推荐(0)

机器学习实战：2.2.1 准备数据：从文本文件中解析数据

摘要：1 #将文本记录到转换NumPy的解析程序 2 #输入：文件名字符串 3 #输出：训练样本矩阵和类标签向量 4 def file2matrix(filename): 5 fr = open(filename) 6 arrayOLines = fr.readlines() # arrayOLines 阅读全文

posted @ 2021-07-19 16:55 xinxinmama 阅读(197) 评论(0) 推荐(0)

栀子花开

07 2021 档案

公告