python使用scikit-learn计算TF-IDF
摘要:1 Scikit-learn下载安装 1.1 简介 1.2 安装软件 2 TF-IDF基础知识 2.1 TF-IDF概念 2.2 举例说明计算 3 Scikit-Learn中计算TF-IDF 3.1 CountVectorizer 3.2 TfidfTransformer 4 一个迷你的完整例子 1
阅读全文
posted @
2018-08-21 15:24
蔡军帅
阅读(34529)
推荐(2)
保存训练好的机器学习模型
摘要:当我们训练好一个model后,下次如果还想用这个model,我们就需要把这个model保存下来,下次直接导入就好了,不然每次都跑一遍,训练时间短还好,要是一次跑好几天的那怕是要天荒地老了。。sklearn官网提供了两种保存model的方法:官网地址 1.使用python自带的pickle 2.使用s
阅读全文
posted @
2018-08-16 11:29
蔡军帅
阅读(778)
推荐(0)
Python项目输出小类概率,机器学习
摘要:from pandas import read_csv import numpy as np from sklearn.datasets.base import Bunch import pickle #导入cPickle包并且取一个别名pickle #持久化类 from sklearn.feature_extraction.text import TfidfVectorizer impo...
阅读全文
posted @
2018-08-15 17:23
蔡军帅
阅读(551)
推荐(0)
Python基础之爬虫(持续更新中)
摘要:python通过urllib.request.urlopen("https://www.baidu.com")访问网页 实战,去网站上下载一只猫的图片 或者: 爬虫百度翻译和有道翻译 直接方法(它们都有反爬虫,所以失败了),f12,可以获得url和from data获得data字典 通过网上的大神解
阅读全文
posted @
2018-08-13 09:03
蔡军帅
阅读(302)
推荐(0)
Python基础之文件
摘要:输出一行一行的,效率更高 一个任务: 主函数:
阅读全文
posted @
2018-08-13 08:48
蔡军帅
阅读(149)
推荐(0)
Python将数据写入excel或者txt,读入csv格式或xls文件,写入csv(写一行空一行解决办法)
摘要:1.写入excel,一开始不需要自己新建一个excel,会自动生成 attribute_proba是我写入的对象 import xlwt myexcel = xlwt.Workbook() sheet = myexcel.add_sheet('sheet') si=-1 sj=-1 for i in
阅读全文
posted @
2018-08-12 13:45
蔡军帅
阅读(9601)
推荐(0)
Django将.csv文件(excel文件)显示到网页上
摘要:今天,我成功将项目要导入的测试数据导入并呈现了,虽然还不是很完美,但我之后仍会继续改进。 1.首先在主页面上加一个超链接按钮: 其它的不需要管,其它是我的另一个项目,没什么大用的 2.之后配置URL: 3.去views.py里写函数 4.去编写show_excel.html。 大功告成,pip ma
阅读全文
posted @
2018-08-12 13:26
蔡军帅
阅读(5443)
推荐(0)
Python基础之字典
摘要:.keys(), .values(), .items() dict1.clear() ,建议清空用.clear(),而不是dict1={},a=b时,a={},b仍有,而a.calear()以后,a、b都为{} dict1.copy()为浅拷贝,浅拷贝地址是不一样的,id()来查看地址,而赋值的话,
阅读全文
posted @
2018-08-11 13:57
蔡军帅
阅读(117)
推荐(0)
Python基础之字符串
摘要:字符串类似于元组,不能随意修改,但可以用切片的方式间接修改 字符串各种奇葩的内置方法: 1. .capitalize() 将第一个字母改为大写 2. .casefold() 将所有字母改为小写 3. .center(width) 字符串居中,空格填充 capitalize()把字符串的第一个字符改为
阅读全文
posted @
2018-08-11 13:05
蔡军帅
阅读(200)
推荐(0)
Python基础之元组tuple(带了枷锁的列表)
摘要:元组不能直接插入删除修改元素。 逗号是关键 创建空元组 元组的一些操作符 别忘了逗号,"*"重复操作符也可以使用 元组通过切片间接更新 插入元素,可以使用拼接操作符(“+”) > < = ,and,or , in/not in等操作仍可以使用
阅读全文
posted @
2018-08-10 13:16
蔡军帅
阅读(231)
推荐(0)
Python基础之列表
摘要:列表的插入操作: .append(元素) .extend(列表) .insert(索引值,元素) 索引值默认从1开始 列表的删除操作: .remove(元素) del 列表[索引] 或者 del 列表名 后者会将整个列表从内存中删除 .pop() 或 .pop(索引值) 默认删除并返回最后一个进入列
阅读全文
posted @
2018-08-10 12:53
蔡军帅
阅读(175)
推荐(0)
多分类下的ROC曲线和AUC
摘要:本文主要介绍一下多分类下的ROC曲线绘制和AUC计算,并以鸢尾花数据为例,简单用python进行一下说明。如果对ROC和AUC二分类下的概念不是很了解,可以先参考下这篇文章:http://blog.csdn.net/ye1215172385/article/details/79448575 由于RO
阅读全文
posted @
2018-08-07 11:24
蔡军帅
阅读(29941)
推荐(0)
python算两个时间之间的天数,将天数转成int型
摘要:import time import datetime #计算两个日期相差天数,自定义函数名,和两个日期的变量名。 def Caltime(date1,date2): #%Y-%m-%d为日期格式,其中的-可以用其他代替或者不写,但是要统一,同理后面的时分秒也一样;可以只计算日期,不计算时间。 #d
阅读全文
posted @
2018-08-07 11:19
蔡军帅
阅读(14730)
推荐(0)
python实战——文本挖掘+xgboost预测+数据处理+准确度计算整合版
摘要:首先导入数据 列O到列P为标签,我们先预测small的4列,先将四列分开,预测完以后,取支持度最高的前四个作为预测结果,与原数据比较,比较的准则是:本该有的都有的即可,即eg:原:1,2,0,9,则预测出来是 9,2,5,1,也是正确的,方法:将预测出来一条记录的放到由52(small的范围是0-5
阅读全文
posted @
2018-08-06 14:43
蔡军帅
阅读(7569)
推荐(0)
Python合并两个numpy矩阵
摘要:numpy是Python用来科学计算的一个非常重要的库,numpy主要用来处理一些矩阵对象,可以说numpy让Python有了Matlab的味道。 实际的应用中,矩阵的合并是一个经常发生的操作,如何利用numpy来合并两个矩阵呢?我们可以利用numpy向我们提供的两个函数来进行操作。 首先我们先随机
阅读全文
posted @
2018-08-01 12:17
蔡军帅
阅读(316)
推荐(0)
python多分类预测模版,输出支持度,多种分类器,str的csv转float
摘要:预测结果为1到11中的1个 首先加载数据,训练数据,训练标签,预测数据,预测标签: 其中训练数据,预测数据是csv文件格式,而且是str,要转为float并一排排放入lis,然后将所有lis放入traindata或testdata中,但csv中是以","隔开的,所以要将"\t"等都转为",",需要利
阅读全文
posted @
2018-07-31 11:43
蔡军帅
阅读(1720)
推荐(0)
sklearn中的predict与predict_proba的区别(得到各条记录每个标签的概率(支持度))
摘要:假定在一个k分类问题中,测试集中共有n个样本。则: predict返回的是一个大小为n的一维数组,一维数组中的第i个值为模型预测第i个预测样本的标签; predict_proba返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。此 时每一行的和应该等于1。 举
阅读全文
posted @
2018-07-30 17:36
蔡军帅
阅读(3862)
推荐(0)
python稀疏矩阵得到每列最大k项的值,对list内为类对象的排序(scipy.sparse.csr.csr_matrix)
摘要:输出得到: 说明这个变量train_set.tdm是个scipy.sparse.csr.csr_matrix,类似稀疏矩阵,输出得到的是矩阵中非0的行列坐标及值,现在我们要挑出每一行中值最大的k项。 首先我们知道一个对于稀疏矩阵很方便函数: 输出为: 最后就是输出到excel中 就如下所示:
阅读全文
posted @
2018-07-24 19:41
蔡军帅
阅读(3094)
推荐(0)
python中scipy学习——随机稀疏矩阵及操作
摘要:1.生成随机稀疏矩阵: scipy中生成随机稀疏矩阵的函数如下: 1 参数介绍: 例子 代码如下: 2.稀疏矩阵的操作: 输出结果如下: 注:更多参考请查看docs.scipy.org
阅读全文
posted @
2018-07-23 23:43
蔡军帅
阅读(5514)
推荐(0)