机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)
摘要:使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合 在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合,进行参数的微调 1. RandomedSearchCV(estimator=rf, param
阅读全文
posted @
2019-01-24 19:49
python我的最爱
阅读(818)
推荐(0)
机器学习入门-随机森林预测气温-减少特征-研究时间和精度的关系
摘要:我们进行了两部分的实验: 1:提取特征重要性之和大于95%的前5个特征,进行结果的预测,并统计时间 直接使用特征进行结果的预测,统计时间 2:在上述的基础上,研究了少量数据集所花的时间,以及精度的差异 代码: 第一步:数据读取 第二步:pd.dummies() 对文本标签进行one-hot编码 第三
阅读全文
posted @
2019-01-24 16:35
python我的最爱
阅读(810)
推荐(0)
机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
摘要:在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性。 在这个博客中,我们将从两方面来研究数据对预测结果的影响 第一方面:特征不变,只增加样本的数据 第二方面:增加特征数,增加样本的数据 1.sns.pairplot 画出两个变量的关系图,用于研究变量之间的线性相关性,sns.
阅读全文
posted @
2019-01-24 11:01
python我的最爱
阅读(1843)
推荐(0)
机器学习入门-主成分分析(PCA)
摘要:主成分分析: 用途:降维中最常用的一种方法 目标:提取有用的信息(基于方差的大小) 存在的问题:降维后的数据将失去原本的数据意义 向量的内积:A*B = |A|*|B|*cos(a) 如果|B| = 1,那么A*B = |A| * cos(a) 即在B的方向上对A做投影 基变化: 如果向量为(3,
阅读全文
posted @
2019-01-23 13:54
python我的最爱
阅读(752)
推荐(0)
机器学习入门-线性判别分析(LDA)1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)
摘要:1.from sklearn.processing import LabelEncoder 进行标签的代码编译 首先需要通过model.fit 进行预编译,然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi
阅读全文
posted @
2019-01-21 23:48
python我的最爱
阅读(2816)
推荐(1)
机器学习入门-轮廓系数 聚类效果的评估
摘要:聚类评估:轮廓系数 计算样本到同簇其他样本的平均距离ai, ai越小,说明样本越应该被聚类到该簇 计算样本到其他簇样本的平均距离bi,这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1, 说明b(i) 远大于a(i), 说明分类
阅读全文
posted @
2019-01-21 11:25
python我的最爱
阅读(918)
推荐(0)
多种聚类算法概述(BIRCH, DBSCAN, K-means, MEAN-SHIFT)
摘要:BIRCH:是一种使用树分类的算法,适用的范围是样本数大,特征数小的算法,因为特征数大的话,那么树模型结构就会要复杂很多 DBSCAN:基于概率密度的聚类方法:速度相对较慢,不适用于大型的数据,输入参数有r和k k-means:是通过不断更新聚类中心所进行的一种参数变化,需要输入的参数是需要聚成几类
阅读全文
posted @
2019-01-21 11:19
python我的最爱
阅读(1238)
推荐(0)
机器学习入门-DBSCAN聚类算法
摘要:DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个点在半径r的范围内,如果存在k个值,那么这个点就成为核心对象 直接密度可达:若点p在q的邻域内,且q
阅读全文
posted @
2019-01-21 10:42
python我的最爱
阅读(758)
推荐(0)
机器学习入门-K-means算法
摘要:无监督问题,我们手里没有标签 聚类:相似的东西聚在一起 难点:如何进行调参 K-means算法 需要制定k值,用来获得到底有几个簇,即几种类型 质心:均值,即向量各维取平均值 距离的度量: 欧式距离和余弦相似度 优化目标: min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最
阅读全文
posted @
2019-01-19 12:27
python我的最爱
阅读(479)
推荐(0)
机器学习入门-贝叶斯构造LDA主题模型,构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).
摘要:1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content]
阅读全文
posted @
2019-01-19 00:23
python我的最爱
阅读(1564)
推荐(0)
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
摘要:1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac
阅读全文
posted @
2019-01-19 00:09
python我的最爱
阅读(5637)
推荐(0)
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
摘要:1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts],
阅读全文
posted @
2019-01-18 23:59
python我的最爱
阅读(557)
推荐(0)
机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建
摘要:1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入,根据词频做一个数字的映射,max_feature表示的是最大的特征数 需要先使用
阅读全文
posted @
2019-01-18 23:49
python我的最爱
阅读(565)
推荐(0)
机器学习入门-贝叶斯垃圾邮件过滤(原理)
摘要:贝叶斯里面的参数原理 最大似然: 即最符合观测数据的最有优势,即p(D|h)最大 奥卡姆剃刀:即越常见的越有可能发生,即p(h) 表示的是先验概率 最大似然: 当我们投掷一枚硬币,观测到的是正面,那么我们猜测投掷正面的概率为1,即最大似然值的概率是最大的 奥卡姆剃刀: 如果平面上有N个点,我们使用n
阅读全文
posted @
2019-01-18 18:23
python我的最爱
阅读(2023)
推荐(0)
机器学习入门-贝叶斯拼写纠错实例
摘要:问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实
阅读全文
posted @
2019-01-18 17:51
python我的最爱
阅读(571)
推荐(0)
机器学习入门-贝叶斯算法(原理)
摘要:贝叶斯要解决的问题: 正向概率: 假设一个袋子里面有红球4个,黑球6个,那么从袋子里抽出红球的概率 逆向概率,假设我们不知道袋子里面黑白求的比例,一连抽取一个或多个球,观察取出球的颜色,来判断取出红球的概率 例子1 : 假设一个学校有40%的女生, 60%的男生,女生50%穿长裤, 50%穿短裤,男
阅读全文
posted @
2019-01-18 17:13
python我的最爱
阅读(380)
推荐(0)
机器学习入门-集成算法(bagging, boosting, stacking)
摘要:目的:为了让训练效果更好 bagging:是一种并行的算法,训练多个分类器,取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法,根据前一次的结果,进行加权来提高训练效果 stacking; 是一种堆叠算法,第一步使用多个算法求出结果,再将结果作为特征输入到下一
阅读全文
posted @
2019-01-17 13:16
python我的最爱
阅读(4109)
推荐(0)
机器学习入门-显示特征重要性的排序
摘要:根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性
阅读全文
posted @
2019-01-17 10:31
python我的最爱
阅读(10363)
推荐(0)
机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)
摘要:1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身, 第二个参数是传入的参数组合, cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索,比如参数为[1, 2, 3], [1, 2,
阅读全文
posted @
2019-01-17 10:23
python我的最爱
阅读(1269)
推荐(0)