机器学习实战-logistic回归分类

基于LR的回归分类实例

概念

前提理解：

机器学习的三个步骤：模型，损失函数（即样本误差），优化求解（通过损失函数，使得模型的样本误差最小或小于阈值，求出满足条件的参数，优化求解包括：最小二乘法，梯度下降）。

链接1：简析python3深浅复制与赋值

https://cloud.tencent.com/developer/news/53299

Python3中赋值操作其实是对象的引用，相当于起了个别名，赋值关系，即整个内外层对象的引用，内外层都指向同一内存。

链接2：SGD详解

https://www.cnblogs.com/NeilZhang/p/8454890.html

实例说明

基于LR的回归分类实例,特征抽取使用TF-IDF,模型优化采用SGD.

模型：LR模型

损失函数：均方误差

优化求解：SGD,迭代50次

输入：TF-IDF的词频

输出：0,1

数据集样例

train目录：

【train_neg.txt】

不要怕恶庄自寻棺材睡

走咯拜拜

大家说说找操科技（兆日科技）这波能跌到多少

每一次反弹都是逃命的机会不要抱任何幻想

抛！机构连拉股价制造概念用人性贪婪忽悠小股民在高位接货 333

垃圾股

18 71 , , 20000 股跌吧黑庄

兆日科技跌停控股股东拟大幅减持

今天是老子买入你整半年时间狗日的 … … 27 3

【train_pos.txt】

兆日科技抄家伙满仓买进干

哇日日大涨了呀呵呵呵吻啊日日使劲

前来入住

涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停涨停

今天涨停

兆跌科技有望了

我预测这是最后一波诱空洗盘该股下跌过程中日线和周线的 kdj 均未创新低一旦反弹

19 65 老夫已满仓买入坐等拉升哈哈！

差不多了再跌进不了深港通了 60 亿底线市值

主力拉高再出货没子弹就说

老子还要持股过节

有涨停就有跌停所以很正常周一拉红是肯定的星期二的操作就要多方面考虑了

便宜货我先拣点

【stopwords.txt】

你等我吗在股价股市科技股友兆日最后今天明天公告一个还已发行价做月到还是得估计谁啊可能的可以来。。。，！了的地？就是应该明天下午上午早上晚上你等我吗在股价股市科技股友兆日 ——— 》），）÷（１－ "，）、＝（ : → ℃ & * 一一 ~~~~ ' . 『 .一 ./ -- 』＝″ 【［＊］｝＞［⑤］］［①Ｄ］ｃ］ｎｇ昉＊ // ［］［②ｅ］［②ｇ］＝｛ } ，也 ' Ａ［①⑥］［②Ｂ］［①ａ］［④ａ］［①③］［③ｈ］ ③］１．－－［②ｂ］ '' ××× ［①⑧］０：２＝［［⑤ｂ］［②ｃ］［④ｂ］［②③］［③ａ］［④ｃ］［①⑤］［①⑦］［①ｇ］ ∈［［①⑨］［①④］［①ｃ］［②ｆ］［②⑧］［②①］［①Ｃ］［③ｃ］［③ｇ］［②⑤］［②②］一. ［①ｈ］ .数［］［①Ｂ］数/ ［①ｉ］［③ｅ］［①①］［④ｄ］［④ｅ］［③ｂ］［⑤ａ］［①Ａ］［②⑧］［②⑦］［①ｄ］［②ｊ］〕〔］［ :// ′∈ ［②④ ［⑤ｅ］１２％ｂ］ ... ................... …………………………………………………③ ＺＸＦＩＴＬ［③Ｆ］」［①ｏ］］∧′＝［ ∪φ∈ ′｜｛－ ②ｃ｝［③①］Ｒ．Ｌ．［①Ｅ］ Ψ －［＊］－ ↑ .日［②ｄ］［② ［②⑦］［②②］［③ｅ］［①ｉ］［①Ｂ］［①ｈ］［①ｄ］［①ｇ］［①②］［②ａ］ｆ］［⑩］ａ］［①ｅ］［②ｈ］［②⑥］［③ｄ］［②⑩］ｅ］〉】元／吨［②⑩］２．３％５：０［①］ :: ［②］［③］［④］［⑤］［⑥］［⑦］［⑧］［⑨］ …… —— ? 、。 " " 《》！，：；？． , ． ' ? · ——— ── ? — < > （）〔〕 [ ] ( ) - + ～ × ／ / ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩ Ⅲ В " ; # @ γ μ φ φ． × Δ ■ ▲ sub exp sup sub Lex ＃％＆＇＋＋ξ ＋＋－－β ＜＜± ＜Δ ＜λ ＜φ ＜＜ = ＝＝☆ ＝－＞＞λ ＿～± ～＋［⑤ｆ］［⑤ｄ］［②ｉ］ ≈ ［②Ｇ］［①ｆ］ＬＩ㈧［－ ...... 〉［③⑩］第二一番一直一个一些许多种有的是也就是说末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然不如不特不惟不问不只朝朝着趁趁着乘冲除除此之外除非除了此此间此外从从而打待但但是当当着到得的的话等等等地第叮咚对对于多多少而而况而且而是而外而言而已尔后反过来反过来说反之非但非徒否则嘎嘎登该赶个各各个各位各种各自给根据跟故故此固然关于管归果然果真过哈哈哈呵和何何处何况何时嘿哼哼唷呼哧乎哗还是还有换句话说换言之或或是或者极了及及其及至即即便即或即令即若即使几几时己既既然既是继而加之假如假若假使鉴于将较较之叫接着结果借紧接着进而尽尽管经经过就就是就是说据具体地说具体说来开始开外靠咳可可见可是可以况且啦来来着离例如哩连连同两者了临另另外另一方面论嘛吗慢说漫说冒么每每当们莫若某某个某些拿哪哪边哪儿哪个哪里哪年哪怕哪天哪些哪样那那边那儿那个那会儿那里那么那么些那么样那时那些那样乃乃至呢能你你们您宁宁可宁肯宁愿哦呕啪达旁人呸凭凭借其其次其二其他其它其一其余其中起起见起见岂但恰恰相反前后前者且然而然后然则让人家任任何任凭如如此如果如何如其如若如上所述若若非若是啥上下尚且设若设使甚而甚么甚至省得时候什么什么样使得是是的首先谁谁知顺顺着似的虽虽然虽说虽则随随着所所以他他们他人它它们她她们倘倘或倘然倘若倘使腾替通过同同时哇万一往望为为何为了为什么为着喂嗡嗡我我们呜呜呼乌乎无论无宁毋宁嘻吓相对而言像向向着嘘呀焉沿沿着要要不要不然要不是要么要是也也罢也好一一般一旦一方面一来一切一样一则依依照矣以以便以及以免以至以至于以致抑或因因此因而因为哟用由由此可见由于有有的有关有些又于于是于是乎与与此同时与否与其越是云云哉再说再者在在下咱咱们则怎怎么怎么办怎么样怎样咋照照着者这这边这儿这个这会儿这就是说这里这么这么点儿这么些这么样这时这些这样正如吱之之类之所以之一只是只限只要只有至至于诸位着着呢自自从自个儿自各儿自己自家自身综上所述总的来看总的来说总的说来总而言之总之纵纵令纵然纵使遵照作为兮呃呗咚咦喏啐喔唷嗬嗯嗳

附代码

#coding=utf-8
'''
基于LR的回归分类实例,特征抽取使用IF-IDF,模型优化采用SGD.

模型：LR模型
损失函数：均方误差
优化求解：SGD,迭代50次

输入：IF-IDF的词频
输出：0,1
'''
import os
import math
import random
class LR_Uni_Bi:
    def __init__(self, train_dir, test_dir, alpha=0.01):
        #初始化，设置文件目录及算法学习速率
        self.train_dir = train_dir
        self.test_dir = test_dir
        self.alpha = alpha
        #字典
        self.dic ={}
    def loadStopWords(self):
        for line in open('./stopwords.txt'):
            doc = line.split()
            # print(doc)
            #集合（set）是一个无序的不重复元素序列
            self.stopwords = set(doc)
            
        # print(self.stopwords)

    def buildUnigram(self,min1=0,sw1 =True):

        '''
        定义一元词袋模型
        '''
        #临时变量，存储unigram的次数，用于min-count过滤
        temp_dic = {}
        for fname in os.listdir(self.train_dir):
            for line in open(os.path.join(self.train_dir, fname)):
                for token in line.split():
                    if token not in temp_dic:
                        temp_dic[token]=1
                    else:
                        temp_dic[token] +=1

        #临时变量，存储过滤后的词语
        temp_set = set()
        for word in temp_dic:
            if temp_dic[word] > min1:
                temp_set.add(word)

        if sw1:
            self.loadStopWords()
            #两个集合求差集，对数据进行过滤
            temp_set -= self.stopwords

        count = 0
        for word in temp_set:
            self.dic[word] = count
            count += 1
        print('unigram',len(self.dic))

    def buildBigram(self,min2 = 5, sw2 =True):
        '''
        构造二元词袋模型,以词的个数为标准，而不是词的长度。 ('一段时间', '主力')
        '''
        #临时变量，用于存储bigram的次数，用于min-count过滤
        self.gram2 ={}
        for fname in os.listdir(self.train_dir):
            for line in open(os.path.join(self.train_dir,fname)):
                doc = line.split()
                # print(doc)
                for i in range(len(doc) - 1):
                    t = tuple(doc[i:i+2])
                    if t not in self.gram2:
                        self.gram2[t] = 1
                    else:
                        self.gram2[t] += 1
        # print(self.gram2)
        #python中单引号和双引号组合使用，来避免使用转义字符
        print('original bigram', len(self.gram2))
        remove_set = set()

        for g in self.gram2:
            if self.gram2[g] <= min2:
                remove_set.add(g)
            if sw2:
                if g[0] in self.stopwords and g[1] in self.stopwords:
                    remove_set.add(g)

        for g in remove_set:
            del self.gram2[g]
        print('bigram min-count -%d %d'%(min2,len(self.gram2)))
        #经过一元词袋模型后，当前字典的纬度，表示有效的unigram的个数
        self.uni_count = len(self.dic)
        count = self.uni_count
        for g in self.gram2:
            self.dic[g] =count
            count += 1
        print('bigram',len(self.dic) - self.uni_count)
        # print(self.dic)
    def buildDic(self, min1 = 0, min2 = 0 , sw1 = True,sw2 = True):
        #构建一词模型和两词模型
        self.buildUnigram(min1=min1,sw1=sw1)
        self.buildBigram(min2=min2,sw2=sw2)

    def getlabel(self):
        '''
        提取训练数据的标签
        '''
        self.train_label = [ ]
        for fname in os.listdir(self.train_dir):
            if fname == 'train_neg.txt':
                label = 0
            else:
                label = 1
            for line in open(os.path.join(self.train_dir,fname)):
                self.train_label.append(label)
        # print(self.train_label)

        self.test_label = []
        for fname in os.listdir(self.test_dir):
            if fname =='test_neg.txt':
                label = 0
            else:
                label = 1
            for line in open(os.path.join(self.test_dir,fname)):
                self.test_label.append(label)
        # print(self.test_label)

    def setLog(self,log_dir):
        #设置日志数据的文件目录
        self.log_dir = log_dir
        #训练数据日志
        self.fw_train = open(self.log_dir + '/train_log.txt','w')

        #测试数据日志
        self.fw_test = open(self.log_dir + '/test_log.txt','w')

    def buildDocsTFIDF(self,dir):
        #文件词频
        idf={}
        docs = []
        #unigram对应的各个文档的有效长度
        docs_length1 = []
        #bigram对应的各个文件的有效长度
        docs_length2 = []
        for fname in os.listdir(dir):
            num = 0
            for line in open(os.path.join(dir,fname)):
                # print(docs)
                docs.append({})
                # print(docs)
                doc = line.split()
                count1 = 0
                count2 = 0
                temp_set =set()
                for word in doc:
                    if word in self.dic:
                        idx = self.dic[word]
                        # print(idx)
                        count1 += 1
                        temp_set.add(idx)
                        # print(temp_set)

                        if idx not in docs[-1]:
                            docs[-1][idx] = 1
                        else:
                            docs[-1][idx] += 1
                        # print(docs)

                for i in range(len(doc) - 1):
                    t = tuple(doc[i:i+2])
                    if t in self.dic:
                        count2 +=1
                        idx = self.dic[t]
                        temp_set.add(idx)

                        if idx not in docs[-1]:
                            docs[-1][idx] = 1
                        else:
                            docs[-1][idx] += 1
                #统计包含词w的文档数目
                for idx in temp_set:
                    if idx not in idf:
                        idf[idx] = 1
                    else:
                        idf[idx] += 1

                docs_length1.append(count1)
                docs_length2.append(count2)


        #语料库中的文档总数
        N = len(docs)+0.0
        for idx in idf:
            idf[idx] = math.log(N / idf[idx])



        # print(docs)
        #计算词频-逆向文件频率
        for i in range(len(docs)):

            #赋值操作，相当于另起别名，实质是整个内外层对象的引用。详细参考python3的深浅拷贝和赋值
            doc = docs[i]
            # print(doc)
            # print(docs[i])
            for idx in doc:
                if idx<self.uni_count:
                    doc[idx] = doc[idx] / (docs_length1[i] + 0.0)* idf[idx]
                else:
                    doc[idx] = doc[idx] / (docs_length2[i] + 0.0)* idf[idx]
            # print(doc)
            # print(docs[i])
            # exit()

                # print(docs)
                # num += 1
                # if num ==2:
                #      exit()
        # for doc in docs:
        #     print(doc)
        #     exit()
        return docs

    def initTheta(self):
        '''
        随机初始化theta
        '''
        self.theta = []
        for i in range(len(self.dic)):
            self.theta.append(random.random())

    def sigmoid(self,x):
        '''
        sigmoid function
        '''
        return 1.0/(1+math.exp(-x))

    def SGD(self, iter, train_f, test_f):
        '''
        Stochastic Gradient Descent
        '''
        #随机初始化theta
        self.initTheta()
        #start SGD
        for j in range(iter):
            sample = random.sample(range(len(train_f)), len(train_f))
            for i in sample:
                thetaX = 0
                x = train_f[i]
                for idx in x:
                    thetaX += self.theta[idx] * x[idx]
                #LR回归求解预测值，Loggstic Regression
                h = self.sigmoid(thetaX)

                #损失函数的求导步骤求误差，用于迭代跟新thetaX
                error = self.train_label[i] - h

                #SGD更新迭代跟新参数thetaX
                for idx in x:
                    self.theta[idx] = self.theta[idx]+ (self.alpha*error*x[idx])

                print('iter %d' % j)
                print('alpha',self.alpha)

        test_acc = self.test(train_f,test_f)
        print('test_acc',test_acc)
    def test(self,train_f, test_f):
        '''
        测试
        '''
        correct = 0
        for i in range(len(train_f)):
            x = train_f[i]
            thetaX = 0
            for idx in x:
                thetaX += self.theta[idx] * x[idx]
            h = self.sigmoid(thetaX)
            #临时变量，暂存预测的文章的类型
            y = 0
            if h > 0.5:
                y = 1
            #统计预测正确的数目
            if y == self.train_label[i]:
                correct += 1
        #计算预测的准确值
        train_acc = correct /(len(train_f) + 0.0)

        print('6-1 training acc', train_acc)
        self.fw_train.write(str(train_acc))
        self.fw_train.write('\n')

        correct = 0
        for i in range(len(test_f)):
            x = test_f[i]
            thetaX = 0
            for idx in x:
                thetaX += self.theta[idx] * x[idx]
            h = self.sigmoid(thetaX)
            y = 0
            if h > 0.5:
                y = 1
            if y == self.test_label[i]:
                correct += 1
        test_acc = correct /(len(test_f) + 0.0)
        print('6-1 test acc', test_acc)
        self.fw_test.write(str(test_acc))
        self.fw_test.write('\n')

        return test_acc

    def closeFw(self):
        self.fw_test.close()
        self.fw_train.close()

    def writeGramTable(self):
        '''
        输出保存词表及其权重
        '''
        self.fw_grams = open(self.log_dir + '/words.txt', 'w')
        gram_weight = {}

        for g in self.dic:
            #判断对象的变量类型
            if isinstance(g,tuple):
                str = g[0]+' ' +g[1]
            else:
                str =g
            gram_weight[str] = self.theta[self.dic[g]]
        sort = sorted(gram_weight.items(), key=lambda e: e[1], reverse=False)
        #按值排序
        for(gram, weight) in sort:
            self.fw_grams.write(gram)
            self.fw_grams.write(' ')
            self.fw_grams.write('%.3f' %weight)
            self.fw_grams.write('\n')
        self.fw_grams.close()


    def writeResults(self, test_f):
        '''
        输出分类结果
        '''
        self.fw_res = open(self.log_dir+'results.txt','w')
        for i in range(len(test_f)):
            x = test_f[i]
            thetaX = 0
            for idx in x:
                thetaX += self.theta[idx] * x[idx]
            h= self.sigmoid(thetaX)

            y = 0
            if h>0.5:
                y = 1
            self.fw_res.write('%d' % y)
            self.fw_res.write(' ')
            self.fw_res.write('%d' % self.test_label[i])
            self.fw_res.write(' ')

            if y == self.test_label[i]:
                self.fw_res.write('y')
            else:
                self.fw_res.write('n')
            self.fw_res.write('\n')
        self.fw_res.close()

    def truncateTest(self,threshold,test_f):
        '''
        截取一些小权重的词，进行测试
        '''
        correct = 0
        for i in range(len(test_f)):
            x = test_f[i]
            thetaX = 0
            for idx in x:
                if abs(self.theta[idx]) >= threshold:
                    thetaX += self.theta[idx] * x[idx]
            h = self.sigmoid(thetaX)
            y = 0
            if h>0.5:
                y = 1
            if y == self.test_label[i]:
                correct += 1
        test_acc = correct / (len(self.test_docs) + 0.0)
        return test_acc


    def SGDwithTFIDF(self,iter):
        '''
        特征抽取
        用IFIDF做特征的stochastic Gradient Descent
        (HashingTF and IDF)词频-逆向文件频率，体现一个文档中词语对于语料库的重要程度。
        '''
        self.train_docs = self.buildDocsTFIDF(self.train_dir)
        # print(self.train_docs)
        print('train TFIDF',len(self.train_docs))

        self.test_docs = self.buildDocsTFIDF(self.test_dir)
        # print('test TFIDF',len(self.test_docs))
        # exit()

        #将TFIDF值进行SGD模型优化求解
        self.SGD(iter,self.train_docs,self.test_docs)

        #关闭文件流
        self.closeFw()

        #输出保存词表和权重
        self.writeGramTable()

        #输出分类结果
        self.writeResults(self.test_docs)

        '''
        截取一小段进行测试
        '''
        for i in range(600):
            threshold = i/600.0*40.0
            print('truncate threshold %f acc %f' %(threshold,self.truncateTest(threshold, self.test_docs)))



if __name__ == '__main__':

    #数据初始化，设置输入路径
    lr = LR_Uni_Bi('./train', './test', alpha=0.5)

    #训练数据，特征变化，构造一元和二元语言模型
    lr.buildDic(min1=0,min2=0,sw1=True,sw2=True)

    #有监督训练，提取训练数据标签
    lr.getlabel()

    #设置输出路径
    lr.setLog('./out')

    #模型构建
    lr.SGDwithTFIDF(iter= 50)

posted on 2019-05-10 23:53 懵懂的菜鸟阅读(358) 评论(0) 收藏举报

刷新页面返回顶部

懵懂的菜鸟

导航

公告