07 2021 档案
摘要:1 #通过统计classList(标签列)中每种值的个数,得到次数最多的标签 2 def majorityCnt(classList): 3 classCount = {} 4 for vote in classList: 5 if vote not in classCount.keys(): 6
阅读全文
摘要:序号 描述 代码 备注 1、 获得数据集某特征列/标签列 特征列: 1 for i in range(numFeatures): 2 featList = [example[i] for example in dataSet] 标签列: 1 classList = [example[-1] for
阅读全文
摘要:1 #按照给定特征划分数据集 2 def splitDataSet1(dataSet,axis,value): #eg:splitDataSet(myDat,0,0) 3 retDataSet = [] 4 for featVec in dataSet: #eg:featVec:[1,1,'mayb
阅读全文
摘要:1 #计算给定数据集的香农熵 2 from math import log 3 4 def calcShannonEnt(dataSet): 5 numEntries = len(dataSet) #样本条目数 6 labelCounts = {} 7 for featVec in dataSet:
阅读全文
摘要:1 #将每个32*32图像阵列转为1*1024特征值阵列 2 def img2vector(filename): 3 returnVect = zeros((1,1024)) #初始化returnVect为1行1024列的全零阵列 4 fr = open(filename) 5 for i in r
阅读全文
摘要:1 def classifyPerson(): 2 resultList = ['not at all.','in small doses.','in large doses.'] 3 percentTats = float(input('pencentage of time spent playi
阅读全文
摘要:1 def datingclassTest(): 2 hoRatio = 0.20 3 datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 4 normMat,ranges,minVals = autoNorm(datingD
阅读全文
摘要:1 #kNN(k近邻算法) 分类器函数 2 def classify0(inX,dataSet,labels,k): 3 #参数列表:inX~用于分类的输入向量 4 # dataSet~输入的训练样本集 5 # labels~标签向量 6 # k~用于选择最近邻居的数目 7 8 dataSetSiz
阅读全文
摘要:1 def autoNorm(dataSet): 2 minVals = dataSet.min(0) #min(0)从列中选取最小值,注意参数为0 3 maxVals = dataSet.max(0) #max(0)从列中选取最大值,注意参数为0 4 ranges = maxVals - minV
阅读全文
摘要:1 import kNN 2 import matplotlib 3 import matplotlib.pyplot as plt 4 fig = plt.figure() #创建图像 5 ax = fig.add_subplot(111) #添加子图像(1行1列中的第一个) 6 ax.scatt
阅读全文
摘要:1 #将文本记录到转换NumPy的解析程序 2 #输入:文件名字符串 3 #输出:训练样本矩阵和类标签向量 4 def file2matrix(filename): 5 fr = open(filename) 6 arrayOLines = fr.readlines() # arrayOLines
阅读全文

浙公网安备 33010602011771号