python基础 - 随笔分类(第2页) - python我的最爱

机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)

摘要：使用了RamdomedSearchCV迭代100次，从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上，使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合，进行参数的微调 1. RandomedSearchCV(estimator=rf, param 阅读全文

posted @ 2019-01-24 19:49 python我的最爱阅读(828) 评论(0) 推荐(0)

机器学习入门-随机森林预测气温-减少特征-研究时间和精度的关系

摘要：我们进行了两部分的实验： 1：提取特征重要性之和大于95%的前5个特征，进行结果的预测，并统计时间直接使用特征进行结果的预测，统计时间 2：在上述的基础上，研究了少量数据集所花的时间，以及精度的差异代码：第一步：数据读取第二步：pd.dummies() 对文本标签进行one-hot编码第三阅读全文

posted @ 2019-01-24 16:35 python我的最爱阅读(824) 评论(0) 推荐(0)

机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)

摘要：在上一个博客中，我们构建了随机森林温度预测的基础模型，并且研究了特征重要性。在这个博客中，我们将从两方面来研究数据对预测结果的影响第一方面：特征不变，只增加样本的数据第二方面：增加特征数，增加样本的数据 1.sns.pairplot 画出两个变量的关系图，用于研究变量之间的线性相关性，sns. 阅读全文

posted @ 2019-01-24 11:01 python我的最爱阅读(1858) 评论(1) 推荐(0)

机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转

摘要：在这个案例中： 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式，增加了特征的列数 3. rf.feature_i 阅读全文

posted @ 2019-01-23 22:33 python我的最爱阅读(4899) 评论(2) 推荐(0)

机器学习入门-主成分分析(PCA)

摘要：主成分分析：用途：降维中最常用的一种方法目标：提取有用的信息(基于方差的大小) 存在的问题：降维后的数据将失去原本的数据意义向量的内积：A*B = |A|*|B|*cos(a) 如果|B| = 1，那么A*B = |A| * cos(a) 即在B的方向上对A做投影基变化: 如果向量为(3, 阅读全文

posted @ 2019-01-23 13:54 python我的最爱阅读(762) 评论(0) 推荐(0)

机器学习入门-线性判别分析（LDA）1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)

摘要：1.from sklearn.processing import LabelEncoder 进行标签的代码编译首先需要通过model.fit 进行预编译，然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文

posted @ 2019-01-21 23:48 python我的最爱阅读(2850) 评论(0) 推荐(1)

机器学习入门-轮廓系数聚类效果的评估

摘要：聚类评估：轮廓系数计算样本到同簇其他样本的平均距离ai， ai越小，说明样本越应该被聚类到该簇计算样本到其他簇样本的平均距离bi，这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1，说明b(i) 远大于a(i)，说明分类阅读全文

posted @ 2019-01-21 11:25 python我的最爱阅读(928) 评论(0) 推荐(0)

多种聚类算法概述（BIRCH, DBSCAN， K-means， MEAN-SHIFT）

摘要：BIRCH:是一种使用树分类的算法，适用的范围是样本数大，特征数小的算法，因为特征数大的话，那么树模型结构就会要复杂很多 DBSCAN：基于概率密度的聚类方法：速度相对较慢，不适用于大型的数据，输入参数有r和k k-means：是通过不断更新聚类中心所进行的一种参数变化，需要输入的参数是需要聚成几类阅读全文

posted @ 2019-01-21 11:19 python我的最爱阅读(1244) 评论(0) 推荐(0)

机器学习入门-DBSCAN聚类算法

摘要：DBSCAN 聚类算法又称为密度聚类，是一种不断发张下线而不断扩张的算法，主要的参数是半径r和k值 DBSCAN的几个概念：核心对象：某个点的密度达到算法设定的阈值则其为核心点，核心点的意思就是一个点在半径r的范围内，如果存在k个值，那么这个点就成为核心对象直接密度可达：若点p在q的邻域内，且q 阅读全文

posted @ 2019-01-21 10:42 python我的最爱阅读(765) 评论(0) 推荐(0)

机器学习入门-K-means算法

摘要：无监督问题，我们手里没有标签聚类：相似的东西聚在一起难点：如何进行调参 K-means算法需要制定k值，用来获得到底有几个簇，即几种类型质心：均值，即向量各维取平均值距离的度量：欧式距离和余弦相似度优化目标： min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最阅读全文

posted @ 2019-01-19 12:27 python我的最爱阅读(482) 评论(0) 推荐(0)

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

摘要：1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典， 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] 阅读全文

posted @ 2019-01-19 00:23 python我的最爱阅读(1571) 评论(0) 推荐(0)

机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)

摘要：1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以第一步：进行语料库的读取第二步：进行分词操作第三步：载入停用词，同时对分词后的语料库进行停用词的去除第四步：选取一段文本分词列表，串接成字符串，使用jieba.analyse.extrac 阅读全文

posted @ 2019-01-19 00:09 python我的最爱阅读(5658) 评论(0) 推荐(0)

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

摘要：1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词，对Dataframe统计单词词频，同时增加一列数据count，这里我们使用reset_index,sort_values(by = ['counts], 阅读全文

posted @ 2019-01-18 23:59 python我的最爱阅读(562) 评论(0) 推荐(0)

机器学习入门-贝叶斯中文新闻分类任务 1. .map(做标签数字替换) 2.CountVectorizer(词频向量映射) 3.TfidfVectorizer(TFDIF向量映射) 4.MultinomialNB()贝叶斯模型构建

摘要：1.map做一个标签的数字替换 2.vec = CountVectorizer(lowercase=False, max_features=4000) # 从sklean.extract_feature.text 导入，根据词频做一个数字的映射，max_feature表示的是最大的特征数需要先使用阅读全文

posted @ 2019-01-18 23:49 python我的最爱阅读(570) 评论(0) 推荐(0)

机器学习入门-贝叶斯垃圾邮件过滤(原理)

摘要：贝叶斯里面的参数原理最大似然：即最符合观测数据的最有优势，即p(D|h)最大奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率最大似然：当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的奥卡姆剃刀：如果平面上有N个点，我们使用n 阅读全文

posted @ 2019-01-18 18:23 python我的最爱阅读(2037) 评论(0) 推荐(0)

机器学习入门-贝叶斯拼写纠错实例

摘要：问题如果我们看到用户输入一个不在字典中的词，我们需要推测他实际想要输入的词使用贝叶斯公式表示： p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p（用户输入|实际想要输入）实阅读全文

posted @ 2019-01-18 17:51 python我的最爱阅读(580) 评论(0) 推荐(0)

机器学习入门-贝叶斯算法(原理)

摘要：贝叶斯要解决的问题：正向概率：假设一个袋子里面有红球4个，黑球6个，那么从袋子里抽出红球的概率逆向概率，假设我们不知道袋子里面黑白求的比例，一连抽取一个或多个球，观察取出球的颜色，来判断取出红球的概率例子1 ：假设一个学校有40%的女生， 60%的男生，女生50%穿长裤， 50%穿短裤，男阅读全文

posted @ 2019-01-18 17:13 python我的最爱阅读(383) 评论(0) 推荐(0)

机器学习入门-集成算法(bagging, boosting, stacking)

摘要：目的：为了让训练效果更好 bagging：是一种并行的算法，训练多个分类器，取最终结果的平均值 f(x) = 1/M∑fm(x) boosting: 是一种串行的算法，根据前一次的结果，进行加权来提高训练效果 stacking; 是一种堆叠算法，第一步使用多个算法求出结果，再将结果作为特征输入到下一阅读全文

posted @ 2019-01-17 13:16 python我的最爱阅读(4129) 评论(0) 推荐(0)

机器学习入门-显示特征重要性的排序

摘要：根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性阅读全文

posted @ 2019-01-17 10:31 python我的最爱阅读(10382) 评论(0) 推荐(0)

机器学习入门-使用GridSearch进行网格参数搜索GridSeach(RandomRegressor(), param_grid, cv=3)

摘要：1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身，第二个参数是传入的参数组合， cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索，比如参数为[1, 2, 3], [1, 2, 阅读全文

posted @ 2019-01-17 10:23 python我的最爱阅读(1275) 评论(0) 推荐(0)

随笔分类 - python基础