#coding:utf-8
from numpy import *
def loaddata():
datamat=[]
label=[]
fr=open("testSet.txt")
for line in fr.readlines():
arr=line.strip().split()
datamat.append([1.0,float(arr[0]),float(arr[1])])#其中1.0表示回归方程的初始截距,即x0=1.0
label.append(int(arr[-1]))
return datamat,label
def sigmoid(x):
return 1.0/(1+exp(-x))
def linerre(datamat,label):#梯度上升
datamatrix=mat(datamat)
labelmat=mat(label).transpose()
m,n=shape(datamatrix)
w=ones((n,1))
for k in range(1000):
h=sigmoid(datamatrix*w)#实际输出向量||datamatrix*w当特征较多是,这将是一个很大的矩阵,计算有时会很困能
err=(labelmat-h)#误差向量
w=w+0.001*datamatrix.transpose()*err#权值更新
return w
def classifier(w,inputdata):
wmatrix=mat(w)
inputmatrix=mat(inputdata)
val=sigmoid(inputmatrix*wmatrix.transpose())
if val>0.5:
return 1
else:
return 0
def randgradient(datamatrix,label):#随机梯度上升
m,n=shape(datamatrix)
w=ones(n)
tm=0.0
for i in range(m):
d=sigmoid(sum(datamatrix[i]*w))#单个样本的实际输出
err=label[i]-d#单个样本的误差
w=w+0.01*err*datamatrix[i]#更新权值
return w
datamat,label=loaddata()
print classifier(randgradient(array(datamat),label),[1,1.217916,9.597015])