zoyeln - 博客园

完整的中英文词频统计

摘要： for word in sep: str=str.replace(word,"") print(str) #排除无意义的词 li=str.split() strset=set(li) exclude={'in','you','i','go'} strset=strset-exclude #单词字数 dict={} f... 阅读全文

posted @ 2018-12-24 10:47 zoyeln 阅读(183) 评论(0) 推荐(0)

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

摘要： import numpy as np x = np.random.randint(1,50,[20,1]) y = np.zeros(20) k = 3 #1）选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心； def initcen(x,k): return x[:k] #2）对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最... 阅读全文

posted @ 2018-12-24 10:43 zoyeln 阅读(240) 评论(0) 推荐(0)

期末大作业

摘要： import jieba path=r'"E:\中文数据清理\147\"' with open(r'E:\中文数据清理\stopsCN.txt',encoding='utf-8')as f: stopword=f.read().split('\n') List01=[] List02=[] def read_text(name,start,end): for fi... 阅读全文

posted @ 2018-12-24 08:28 zoyeln 阅读(186) 评论(0) 推荐(0)

回归模型与房价预测

摘要： 1. 导入boston房价数据集。 1 2 3 4 from sklearn.datasets import load_boston boston = load_boston() boston.keys() print(boston.data) 2. 一元线性回归模型，建立一个变量与房价之间的预测模阅读全文

posted @ 2018-12-17 21:44 zoyeln 阅读(245) 评论(0) 推荐(0)

12.03作业

摘要：要点：理解朴素贝叶斯算法理解机器学习算法建模过程理解文本常用处理流程理解模型评估方法垃圾邮件分类数据准备：用csv读取邮件数据，分解出邮件类别及邮件内容。对邮件内容进行预处理：去掉长度小于3的词，去掉没有语义的词等尝试使用nltk库：pip install nltknltk.downloa 阅读全文

posted @ 2018-12-03 11:18 zoyeln 阅读(177) 评论(0) 推荐(0)

sklearn中的朴素贝叶斯模型及其应用

摘要：高斯分布型多项式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，对模型进行验证。阅读全文

posted @ 2018-11-26 09:41 zoyeln 阅读(245) 评论(0) 推荐(0)

10.19作业

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。分类：找出描述并区分数据类或概念的模型，以便能够使用模型预测类标记未知的对象类。分类的目的是把数据项映射到给定的类别的某一个类中。聚类：将本身没有类别的样本聚集成不同的组，把这组数据对象的集合叫簇。目的是使得属于同一个簇的样阅读全文

posted @ 2018-11-20 09:24 zoyeln 阅读(99) 评论(0) 推荐(0)

KMEAMS算法应用：图片压缩与贝叶斯公式理解

摘要： from sklearn.datasets import load_sample_image import matplotlib.pyplot as plt from sklearn.cluster import KMeans import numpy as np flower=load_sample_image('flower.jpg')#原始图片 plt.imshow(flower) plt... 阅读全文

posted @ 2018-11-15 19:40 zoyeln 阅读(210) 评论(0) 推荐(0)

NUMPY数据集练习 ----------SKLEARN类

摘要： 1 2 3 4 5 6 <br><br># 1. 安装scipy，numpy，sklearn包 import numpy from sklearn.datasets import load_iris # 2. 从sklearn包自带的数据集中读出鸢尾花数据集data print(data.data) 阅读全文

posted @ 2018-10-29 11:41 zoyeln 阅读(135) 评论(0) 推荐(0)

NUMPY数组及处理：效率对比

摘要：一、处理日期时间取系统时间转换成‘2017年9月30日星期六10时28分56秒’格式字符串 ’2018-10-25 22:00‘转换成一个日期时间变量计算两者的间隔 import datetime print(datetime.datetime.now()) print(" ") from d 阅读全文

posted @ 2018-10-22 10:57 zoyeln 阅读(217) 评论(0) 推荐(0)