everda

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  T3ing_统计模型&机器学习

包括统计模型、机器学习一些内容。没有数学底子,又没有时间慢慢学,所以走应用派,一个模型一个模型攻克。
摘要:一、原理阐述 算法类型:非监督学习_聚类算法 输入: 连续型 V1.0 给定需要分为k个分类,随机选择k个点作为中心点,计算每个点离这k个中心点的距离,将距离最小的作为该点的分类;再利用均值等计算这k个分类的新中心点,重复上面的计算,直到每个点的分类不再变化或迭代次数大于一定阈值结束。 二、算法选择 阅读全文
posted @ 2019-11-12 19:57 everda 阅读(176) 评论(0) 推荐(0)

摘要:注:为了能系统性学习pandas,我这篇文章将会根据官网的文档结构结合工作中需求场景进行梳理。目的有三,一是尽量介绍全面,二是核心是能解决工作的需求,三是在特定需求下也能快速找到官网中的解决办法。 注:一般很少用series,以下一般只看dataframe。 官网:https://pandas.py 阅读全文
posted @ 2019-09-26 21:15 everda 阅读(385) 评论(0) 推荐(0)

摘要:一、V1.0(sklearn版) 1.1简易API 1.2复杂API 目的是尽量全。 1.3API资料 目的是前面不满足使用或不太理解可以从这里获得灵感。 阅读全文
posted @ 2019-08-13 19:32 everda 阅读(196) 评论(0) 推荐(0)

摘要:一、原理阐述 算法类型:监督学习_分类算法 输入:数值型或标称型(标称型需要独热编码) V1.0 用回归方式解决二分类问题,通过引入一个Sigmoid函数将中间y值映射到实际二分类的y值上。 二、算法选择 三、算法过程 1.Sigmoid函数是一个x值域是(-∞,+∞),y值域是(0,1)的单调递增 阅读全文
posted @ 2019-08-13 19:23 everda 阅读(179) 评论(0) 推荐(0)

摘要:python sklearn包——混淆矩阵、分类报告等自动生成 https://blog.csdn.net/u010454729/article/details/50769034 阅读全文
posted @ 2019-08-13 15:45 everda 阅读(547) 评论(0) 推荐(0)

摘要:1. 分类模型评估 sklearn有三种方式评估一个模型的预测质量, 1)各模型模块都有一个score方法; 2)cross-validation模块有评估工具; 3)metrics模块有一些评估函数。 这里提供metrics模块API,其他参见参考资料。 #对测试集进行预测 y_predict = 阅读全文
posted @ 2019-08-13 15:34 everda 阅读(302) 评论(0) 推荐(0)

摘要:编码 独热编码 基于树的算法不需要独热编码。 1.pandas方法 from sklearn.datasets import load_iris import pandas as pd #创建数据集 data = pd.DataFrame({'one':[1,2,3],'two':[2,3,4],' 阅读全文
posted @ 2019-08-12 19:18 everda 阅读(265) 评论(0) 推荐(0)

摘要:一、背景 在写Python代码时通常有一些场景需要一些简单的函数实现,但这些函数也不是那么需要在基础篇看,因为其实help一下就知道怎么用了。但看英文的help文档总是费劲的,所以就在杂篇系列里开一篇汇总相关内容,碰到一个总结一个,便于后续直接搜函数名就可以快速回顾。 二、常用函数/类 1.enum 阅读全文
posted @ 2019-08-08 19:52 everda 阅读(290) 评论(0) 推荐(0)

摘要:一、背景 在jupyter上输入 时提示无法导入plot_tree模块。再查看tree里是否有这个模块时发现并没有。 于是想到可能是sklearn版本问题,果然是。我的sklearn是0.19.2,官网版本是0.21.3,查看0.19.2版本发现确实没有plot_tree模块。所以就涉及到查看/更新 阅读全文
posted @ 2019-08-08 19:33 everda 阅读(289) 评论(0) 推荐(0)

摘要:一、V1.0(sklearn版) 1.1简易API 注意, 1)基于树的算法只是计算划分前后混乱度(对每个分类样本数的某种加和)变化,并不对特征进行计算。所以不需要进行标准化、独热编码等。 2)输入的特征不能是字符串型。 import pandas as pd import matplotlib.p 阅读全文
posted @ 2019-08-06 18:47 everda 阅读(397) 评论(0) 推荐(0)

摘要:大纲 这篇文章是介绍sklearn库的使用,主要围绕sklearn官网内容进行阐述。包括三个部分的内容: 1.背景——主要介绍sklearn库是干什么的,官网内容板块是怎样的,我们主要从哪块学起; 2.框架——主要从模型使用流程角度出发,阐述sklearn主要实现的内容; 3.API——以从应用出发 阅读全文
posted @ 2019-08-06 17:22 everda 阅读(839) 评论(0) 推荐(0)

摘要:一、原理阐述 算法类型:监督学习_分类算法 输入:数值型或标称型 V1.0 将测试集挨个按特征的特征值划分,计算划分前与划分后的混乱度之差,将差最大的特征作为第一层节点,得到被该特征的特征值划分出来几块数据。再将这几块数据分别按上面的步骤重复进行(递归过程),直到该块都是同一类或特征值用完为止。 二 阅读全文
posted @ 2019-08-06 17:11 everda 阅读(230) 评论(0) 推荐(0)

摘要:系列说明 【机器学习算法应用和学习】是以学习应用机器学习为目标的系列文章,该系列主要包括以下几个板块: 1.基础篇——主要介绍机器学习框架、基础库(包括padas/numpy/matplotlib/sklearn/scipy几个库),每个部分是一篇文章; 2.理论篇——介绍机器学习的主要模型,会用不 阅读全文
posted @ 2019-06-06 15:43 everda 阅读(750) 评论(0) 推荐(0)

摘要:大纲 一、背景 二、算法目标 三、算法原理 1.术语 2.优缺点 2.算法原理(伪代码) (本文不解释FP树和条件模式基等的构建过程,此类图解在很多博文中已经介绍得很清楚,可以参见参考资料) 1.输入数据预处理:loadSimpDat()函数创建输入数据或输入数据并createInitSet(dat 阅读全文
posted @ 2019-05-16 11:58 everda 阅读(1122) 评论(0) 推荐(0)

摘要:边阅边写 1.官方文档 https://scikit learn.org/stable/modules/linear_model.html logistic regression 逻辑回归,尽管名字带有“回归”,但它实际是一个分类模型而不是回归模型。在文献上,逻辑回归又称logit回归、最大熵分类或 阅读全文
posted @ 2019-02-19 14:33 everda 阅读(1071) 评论(0) 推荐(0)

摘要:1. 定义 入门选手不抄作业了,先简单理解下,numpy最大的应用大概是方便做数学运算啥的,功劳在于一个叫ndarray(多维数组)的数据类型。numpy本身没有强大分析能力,只是pandas的基础啥的。 2 ndarray 2.1 定义 ndarray是一个多维数组对象,可以方便进行各种运算。 n 阅读全文
posted @ 2019-01-08 19:51 everda 阅读(272) 评论(0) 推荐(0)

摘要:np.polyfit 阅读全文
posted @ 2019-01-04 18:56 everda 阅读(311) 评论(0) 推荐(0)

摘要:Anaconda是一个用于科学计算的Python发行版,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。 集成包功能: NumPy: 提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用,Python创建的所有更高层工具的基础,不 阅读全文
posted @ 2019-01-04 16:22 everda 阅读(602) 评论(0) 推荐(0)

摘要:机器学习算法可以分为传统的机器学习算法和深度学习。 传统机器学习算法主要包括以下五类: 回归: 建立一个回归方程来预测目标值,用于连续型分布预测 分类: 给定大量带标签的数据,计算出未知标签样本的标签取值 聚类: 将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征 关联分析: 计算出数据 阅读全文
posted @ 2019-01-04 15:29 everda 阅读(685) 评论(0) 推荐(0)

摘要:1.人工智能&数据挖掘&机器学习&深度学习&统计模型 人工智能:是一个大的概念,是让机器像人一样思考甚至超越人类。 数据挖掘:有目的地从现有大数据中提取数据的模式(pattern)和模型(model)。 ——比较偏向探索性分析,不是强烈的目的导向,只是能发现多少发现多少。 数据挖掘本质上像是机器学习 阅读全文
posted @ 2019-01-04 14:44 everda 阅读(368) 评论(0) 推荐(0)