随笔分类 - python
摘要:explained_variance_score() mean_absolute_error() mean_squared_error() r2_score() 以上四个函数的相同点: 这些函数都有一个参数“multioutput”,用来指定在多目标回归问题中,若干单个目标变量的损失或得分以什么样的
阅读全文
摘要:学习器模型中一般有两个参数:一类参数可以从数据中学习估计得到,还有一类参数无法从数据中估计,只能靠人的经验进行指定,后一类参数就叫超参数 比如,支持向量机里的C,Kernel,gama,朴素贝叶斯里的alpha等,在学习其模型的设计中,我们要搜索超参数空间为学习器模型找到最合理的超参数,可以通过以下
阅读全文
摘要:sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut,ShuffleSplit,GroupShuffleSplit,Stratified
阅读全文
摘要:一、standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准化操作 ②Preprocessing还提供了一个类StandarScaler,该类实现了变换器的AP
阅读全文
摘要:特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本,图像等众抽取能够被机器学习算法直接处理的特征向量。 1.特征抽取方法之 Loading Features from Dicts 2.特征抽取方法之 Features hashing 3.特征抽取方法之 Text
阅读全文
摘要:一、模型验证方法如下: ①通过交叉验证得分:model_sleection.cross_val_score(estimator,X) 结果图 ②对每个输入数据点产生交叉验证估计:model_selection.cross_val_predict(estimator,X) ③、计算并绘制模型的学习率曲
阅读全文
摘要:sklearn 的数据集有好多个种 自带的小数据集(packaged dataset):sklearn.datasets.load_<name> 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name> 计算机生成的数据集(Generat
阅读全文
摘要:sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec
阅读全文
摘要:一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator,这么 做的原因是考虑了数据处理过程中一系列前后相继的固定流程,比如feature selection->normalization->classification pipeline提供了两种服
阅读全文
摘要:学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况 通常遇到缺值的情况,我们会有几种常见的处理方式 如果缺值
阅读全文
摘要:python3使用matplotlib画图,因python3默认使用中unicode编码,所以在写代码时不再需要写 plt.xlabel(u’人数’),而是直接写plt.xlabel(‘人数’)。 注意: 在有中文的地方加上中文相关的字体,不然会因为没有字体显示成放框,因为默认的使用的字体里没有中文
阅读全文
摘要:1.Pandas 基本介绍 Numpy 和 Pandas 有什么不同? 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单。 pandas基本功能和
阅读全文
摘要:转自https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/2-1-np-attributes/ numpy 的属性: 使用numpy首先要导入模块 import numpy as np #为了方便使用numpy 采用np简写 列
阅读全文
摘要:画直线图 1.最简单的用法: 2.有的时候需要在一张图里画两条或多条线,这个时候就需要figure() 3.当设置坐标轴时,需要设置坐标轴的范围,单位长度,替换文字 4.设置坐标轴之——设置坐标轴的位置 5,图例设置 其中loc参数有多种,best表示自动分配最佳位置,其余为 best->0 upp
阅读全文
摘要:1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征,选择合适的方法。 2.sklearn使用的小例子 3.sklearn数据集 在上边例子中,直接使用了
阅读全文
摘要:在学习python的时候常常需要numpy这个库,每次都是用一个查一个,这个,终于见到一个完整的总结了http://blog.csdn.net/blog_empire/article/details/39298557 一、数组方法 创建数组:arange()创建一维数组;array()创建一维或多维
阅读全文
摘要:安装SK-Learn需要依赖的Python安装包有: Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), 下载python的各种包的地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 在下载各种包的时候要注意版本的
阅读全文
摘要:1.浅述python中argsort()函数的用法 (1).先定义一个array数据 (2).现在我们可以看看argsort()函数的具体功能是什么: 输出定义为y=array([3,0,2,1,4,5])。 我们发现argsort()函数是将x中的元素从小到大排列,提取其对应的index(索引),
阅读全文
摘要:决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。 1:简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对I
阅读全文
摘要:KNN算法很简单,大致的工作原理是:给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。 对于上边的问题,①计算测试样本与训练样本的距离,②选择与其最
阅读全文

浙公网安备 33010602011771号