2018年12月24日

完整的中英文词频统计

摘要: for word in sep: str=str.replace(word,"") print(str) #排除无意义的词 li=str.split() strset=set(li) exclude={'in','you','i','go'} strset=strset-exclude #单词字数 dict={} f... 阅读全文

posted @ 2018-12-24 10:47 zoyeln 阅读(165) 评论(0) 推荐(0) 编辑

聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用

摘要: import numpy as np x = np.random.randint(1,50,[20,1]) y = np.zeros(20) k = 3 #1) 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心; def initcen(x,k): return x[:k] #2) 对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离,按距离最近的准则将它们分到距离它们最... 阅读全文

posted @ 2018-12-24 10:43 zoyeln 阅读(225) 评论(0) 推荐(0) 编辑

期末大作业

摘要: import jieba path=r'"E:\中文数据清理\147\"' with open(r'E:\中文数据清理\stopsCN.txt',encoding='utf-8')as f: stopword=f.read().split('\n') List01=[] List02=[] def read_text(name,start,end): for fi... 阅读全文

posted @ 2018-12-24 08:28 zoyeln 阅读(174) 评论(0) 推荐(0) 编辑

2018年12月17日

回归模型与房价预测

摘要: 1. 导入boston房价数据集。 1 2 3 4 from sklearn.datasets import load_boston boston = load_boston() boston.keys() print(boston.data) 2. 一元线性回归模型,建立一个变量与房价之间的预测模 阅读全文

posted @ 2018-12-17 21:44 zoyeln 阅读(231) 评论(0) 推荐(0) 编辑

2018年12月3日

12.03作业

摘要: 要点: 理解朴素贝叶斯算法 理解机器学习算法建模过程 理解文本常用处理流程 理解模型评估方法 垃圾邮件分类数据准备:用csv读取邮件数据,分解出邮件类别及邮件内容。对邮件内容进行预处理:去掉长度小于3的词,去掉没有语义的词等尝试使用nltk库:pip install nltknltk.downloa 阅读全文

posted @ 2018-12-03 11:18 zoyeln 阅读(161) 评论(0) 推荐(0) 编辑

2018年11月26日

sklearn中的朴素贝叶斯模型及其应用

摘要: 高斯分布型 多项式型 伯努利型 2.使用sklearn.model_selection.cross_val_score(),对模型进行验证。 阅读全文

posted @ 2018-11-26 09:41 zoyeln 阅读(230) 评论(0) 推荐(0) 编辑

2018年11月20日

10.19作业

摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类:找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。分类的目的是把数据项映射到给定的类别的某一个类中。 聚类:将本身没有类别的样本聚集成不同的组,把这组数据对象的集合叫簇。目的是使得属于同一个簇的样 阅读全文

posted @ 2018-11-20 09:24 zoyeln 阅读(88) 评论(0) 推荐(0) 编辑

2018年11月15日

KMEAMS算法应用:图片压缩与贝叶斯公式理解

摘要: from sklearn.datasets import load_sample_image import matplotlib.pyplot as plt from sklearn.cluster import KMeans import numpy as np flower=load_sample_image('flower.jpg')#原始图片 plt.imshow(flower) plt... 阅读全文

posted @ 2018-11-15 19:40 zoyeln 阅读(203) 评论(0) 推荐(0) 编辑

2018年10月29日

NUMPY数据集练习 ----------SKLEARN类

摘要: 1 2 3 4 5 6 <br><br># 1. 安装scipy,numpy,sklearn包 import numpy from sklearn.datasets import load_iris # 2. 从sklearn包自带的数据集中读出鸢尾花数据集data print(data.data) 阅读全文

posted @ 2018-10-29 11:41 zoyeln 阅读(128) 评论(0) 推荐(0) 编辑

2018年10月22日

NUMPY数组及处理:效率对比

摘要: 一、处理日期时间 取系统时间 转换成‘2017年9月30日星期六10时28分56秒’格式字符串 ’2018-10-25 22:00‘转换成一个日期时间变量 计算两者的间隔 import datetime print(datetime.datetime.now()) print(" ") from d 阅读全文

posted @ 2018-10-22 10:57 zoyeln 阅读(208) 评论(0) 推荐(0) 编辑

导航