python - 随笔分类 - nolonely

sklearn中的回归器性能评估方法

摘要：explained_variance_score() mean_absolute_error() mean_squared_error() r2_score() 以上四个函数的相同点：这些函数都有一个参数“multioutput”，用来指定在多目标回归问题中，若干单个目标变量的损失或得分以什么样的阅读全文

posted @ 2017-06-14 15:12 nolonely 阅读(22217) 评论(1) 推荐(0)

sklearn参数优化方法

摘要：学习器模型中一般有两个参数：一类参数可以从数据中学习估计得到，还有一类参数无法从数据中估计，只能靠人的经验进行指定，后一类参数就叫超参数比如，支持向量机里的C，Kernel，gama，朴素贝叶斯里的alpha等，在学习其模型的设计中，我们要搜索超参数空间为学习器模型找到最合理的超参数，可以通过以下阅读全文

posted @ 2017-06-14 11:34 nolonely 阅读(19753) 评论(0) 推荐(4)

sklearn中的数据集的划分

摘要：sklearn数据集划分方法有如下方法： KFold，GroupKFold，StratifiedKFold，LeaveOneGroupOut，LeavePGroupsOut，LeaveOneOut，LeavePOut，ShuffleSplit，GroupShuffleSplit，Stratified 阅读全文

posted @ 2017-06-14 10:14 nolonely 阅读(26125) 评论(0) 推荐(4)

sklearn数据预处理

摘要：一、standardization 之所以标准化的原因是，如果数据集中的某个特征的取值不服从标准的正太分布，则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准化操作 ②Preprocessing还提供了一个类StandarScaler，该类实现了变换器的AP 阅读全文

posted @ 2017-06-13 16:53 nolonely 阅读(3014) 评论(0) 推荐(0)

sklearn特征抽取

摘要：特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本，图像等众抽取能够被机器学习算法直接处理的特征向量。 1.特征抽取方法之 Loading Features from Dicts 2.特征抽取方法之 Features hashing 3.特征抽取方法之 Text 阅读全文

posted @ 2017-06-13 11:39 nolonely 阅读(2176) 评论(3) 推荐(1)

sklearn 模型选择和评估

摘要：一、模型验证方法如下： ①通过交叉验证得分：model_sleection.cross_val_score(estimator,X) 结果图 ②对每个输入数据点产生交叉验证估计：model_selection.cross_val_predict(estimator,X) ③、计算并绘制模型的学习率曲阅读全文

posted @ 2017-06-11 17:22 nolonely 阅读(8003) 评论(0) 推荐(3)

sklearn提供的自带的数据集

摘要：sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn.datasets.load_<name> 可在线下载的数据集（Downloaded Dataset）：sklearn.datasets.fetch_<name> 计算机生成的数据集（Generat 阅读全文

posted @ 2017-06-10 22:10 nolonely 阅读(94408) 评论(0) 推荐(11)

sklearn算法库的顶层设计

摘要：sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec 阅读全文

posted @ 2017-06-09 21:06 nolonely 阅读(1432) 评论(0) 推荐(0)

sklearn 中的 Pipeline 机制和FeatureUnion

摘要：一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator，这么做的原因是考虑了数据处理过程中一系列前后相继的固定流程，比如feature selection->normalization->classification pipeline提供了两种服阅读全文

posted @ 2017-06-09 09:31 nolonely 阅读(7497) 评论(0) 推荐(1)

kaggle 泰坦尼克号问题总结

摘要：学习了机器学习这么久，第一次真正用机器学习中的方法解决一个实际问题，一步步探索，虽然最后结果不是很准确，仅仅达到了0.78647，但是真是收获很多，为了防止以后我的记忆虫上脑，我决定还是记录下来好了。 1，看到样本是，查看样本的分布和统计情况通常遇到缺值的情况，我们会有几种常见的处理方式如果缺值阅读全文

posted @ 2017-06-07 10:26 nolonely 阅读(4889) 评论(0) 推荐(0)

python3 使用matplotlib画图出现中文乱码的情况

摘要：python3使用matplotlib画图，因python3默认使用中unicode编码，所以在写代码时不再需要写 plt.xlabel(u’人数’)，而是直接写plt.xlabel(‘人数’)。注意：在有中文的地方加上中文相关的字体，不然会因为没有字体显示成放框，因为默认的使用的字体里没有中文阅读全文

posted @ 2017-06-05 11:40 nolonely 阅读(8267) 评论(0) 推荐(0)

<转>pandas学习

摘要：1.Pandas 基本介绍 Numpy 和 Pandas 有什么不同? 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而 Pandas 就是字典形式。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。 pandas基本功能和阅读全文

posted @ 2017-06-01 21:08 nolonely 阅读(425) 评论(0) 推荐(0)

numpy常用举例

摘要：转自https://morvanzhou.github.io/tutorials/data-manipulation/np-pd/2-1-np-attributes/ numpy 的属性: 使用numpy首先要导入模块 import numpy as np #为了方便使用numpy 采用np简写列阅读全文

posted @ 2017-05-27 13:10 nolonely 阅读(1476) 评论(0) 推荐(0)

matplotlib包画基本的图

摘要：画直线图 1.最简单的用法： 2.有的时候需要在一张图里画两条或多条线，这个时候就需要figure() 3.当设置坐标轴时，需要设置坐标轴的范围，单位长度，替换文字 4.设置坐标轴之——设置坐标轴的位置 5，图例设置其中loc参数有多种，best表示自动分配最佳位置，其余为 best->0 upp 阅读全文

posted @ 2017-05-27 11:12 nolonely 阅读(1473) 评论(0) 推荐(0)

sklearn包学习

摘要：1首先是sklearn的官网：http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo，下边这张是一张非常有用的流程图，在这个流程图中，可以根据数据集的特征，选择合适的方法。 2.sklearn使用的小例子 3.sklearn数据集在上边例子中，直接使用了阅读全文

posted @ 2017-05-25 11:33 nolonely 阅读(12083) 评论(0) 推荐(1)

numpy基本方法

摘要：在学习python的时候常常需要numpy这个库，每次都是用一个查一个，这个，终于见到一个完整的总结了http://blog.csdn.net/blog_empire/article/details/39298557 一、数组方法创建数组：arange()创建一维数组；array()创建一维或多维阅读全文

posted @ 2017-05-24 11:32 nolonely 阅读(2842) 评论(0) 推荐(0)

python下安装Scikit-learn

摘要：安装SK-Learn需要依赖的Python安装包有： Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), 下载python的各种包的地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/ 在下载各种包的时候要注意版本的阅读全文

posted @ 2017-05-24 09:22 nolonely 阅读(6880) 评论(0) 推荐(0)

python+机器学习算法用到的知识点总结

摘要：1.浅述python中argsort()函数的用法（1）.先定义一个array数据（2）.现在我们可以看看argsort()函数的具体功能是什么：输出定义为y=array([3,0,2,1,4,5])。我们发现argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，阅读全文

posted @ 2017-05-23 20:52 nolonely 阅读(1906) 评论(0) 推荐(0)

机器学习实战-决策树

摘要：决策树的优势就在于数据形式非常容易理解，而kNN的最大缺点就是无法给出数据的内在含义。 1：简单概念描述决策树的类型有很多，有CART、ID3和C4.5等，其中CART是基于基尼不纯度(Gini)的，这里不做详解，而ID3和C4.5都是基于信息熵的，它们两个得到的结果都是一样的，本次定义主要针对I 阅读全文

posted @ 2017-05-23 20:08 nolonely 阅读(364) 评论(0) 推荐(0)

机器学习实战-KNN

摘要：KNN算法很简单，大致的工作原理是：给定训练数据样本和标签，对于某测试的一个样本数据，选择距离其最近的k个训练样本，这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数，这里的距离一般是欧式距离。对于上边的问题，①计算测试样本与训练样本的距离，②选择与其最阅读全文

posted @ 2017-05-22 21:06 nolonely 阅读(407) 评论(0) 推荐(0)

nolonely

很多时候不是我们做不好，而是没有竭尽全力......

随笔分类 - python