公告

随笔分类 - T3ing_统计模型&机器学习

包括统计模型、机器学习一些内容。没有数学底子，又没有时间慢慢学，所以走应用派，一个模型一个模型攻克。

摘要：一、原理阐述算法类型：非监督学习_聚类算法输入：连续型 V1.0 给定需要分为k个分类，随机选择k个点作为中心点，计算每个点离这k个中心点的距离，将距离最小的作为该点的分类；再利用均值等计算这k个分类的新中心点，重复上面的计算，直到每个点的分类不再变化或迭代次数大于一定阈值结束。二、算法选择阅读全文

posted @ 2019-11-12 19:57 everda 阅读(176) 评论(0) 推荐(0)

【机器学习算法应用和学习_1_基础篇】1.2 pandas

摘要：注:为了能系统性学习pandas，我这篇文章将会根据官网的文档结构结合工作中需求场景进行梳理。目的有三，一是尽量介绍全面，二是核心是能解决工作的需求，三是在特定需求下也能快速找到官网中的解决办法。注：一般很少用series，以下一般只看dataframe。官网：https://pandas.py 阅读全文

posted @ 2019-09-26 21:15 everda 阅读(385) 评论(0) 推荐(0)

【机器学习算法应用和学习_3_代码API篇】3.2 M_分类_逻辑回归

摘要：一、V1.0(sklearn版) 1.1简易API 1.2复杂API 目的是尽量全。 1.3API资料目的是前面不满足使用或不太理解可以从这里获得灵感。阅读全文

posted @ 2019-08-13 19:32 everda 阅读(196) 评论(0) 推荐(0)

【机器学习算法应用和学习_2_理论篇】2.2 M_分类_逻辑回归

摘要：一、原理阐述算法类型：监督学习_分类算法输入：数值型或标称型(标称型需要独热编码) V1.0 用回归方式解决二分类问题，通过引入一个Sigmoid函数将中间y值映射到实际二分类的y值上。二、算法选择三、算法过程 1.Sigmoid函数是一个x值域是(-∞,+∞)，y值域是(0,1)的单调递增阅读全文

posted @ 2019-08-13 19:23 everda 阅读(179) 评论(0) 推荐(0)

【机器学习算法应用与学习_3_代码API篇】3.8分类模型封装

摘要：python sklearn包——混淆矩阵、分类报告等自动生成 https://blog.csdn.net/u010454729/article/details/50769034 阅读全文

posted @ 2019-08-13 15:45 everda 阅读(547) 评论(0) 推荐(0)

【机器学习算法应用与学习_3_代码API篇】3.9模型性能评估

摘要：1. 分类模型评估 sklearn有三种方式评估一个模型的预测质量， 1）各模型模块都有一个score方法； 2）cross-validation模块有评估工具； 3）metrics模块有一些评估函数。这里提供metrics模块API，其他参见参考资料。 #对测试集进行预测 y_predict = 阅读全文

posted @ 2019-08-13 15:34 everda 阅读(302) 评论(0) 推荐(0)

【机器学习算法应用与学习_3_代码API篇】2.0预处理

摘要：编码独热编码基于树的算法不需要独热编码。 1.pandas方法 from sklearn.datasets import load_iris import pandas as pd #创建数据集 data = pd.DataFrame({'one':[1,2,3],'two':[2,3,4],' 阅读全文

posted @ 2019-08-12 19:18 everda 阅读(265) 评论(0) 推荐(0)

【机器学习算法应用和学习_5_杂篇】5.2 Python常用函数汇总

摘要：一、背景在写Python代码时通常有一些场景需要一些简单的函数实现，但这些函数也不是那么需要在基础篇看，因为其实help一下就知道怎么用了。但看英文的help文档总是费劲的，所以就在杂篇系列里开一篇汇总相关内容，碰到一个总结一个，便于后续直接搜函数名就可以快速回顾。二、常用函数/类 1.enum 阅读全文

posted @ 2019-08-08 19:52 everda 阅读(290) 评论(0) 推荐(0)

【机器学习算法应用和学习_5_杂篇】5.1 Anaconda帮助汇总

摘要：一、背景在jupyter上输入时提示无法导入plot_tree模块。再查看tree里是否有这个模块时发现并没有。于是想到可能是sklearn版本问题，果然是。我的sklearn是0.19.2，官网版本是0.21.3，查看0.19.2版本发现确实没有plot_tree模块。所以就涉及到查看/更新阅读全文

posted @ 2019-08-08 19:33 everda 阅读(289) 评论(0) 推荐(0)

【机器学习算法应用和学习_3_代码API篇】3.1 决策树

摘要：一、V1.0(sklearn版) 1.1简易API 注意， 1）基于树的算法只是计算划分前后混乱度（对每个分类样本数的某种加和）变化，并不对特征进行计算。所以不需要进行标准化、独热编码等。 2）输入的特征不能是字符串型。 import pandas as pd import matplotlib.p 阅读全文

posted @ 2019-08-06 18:47 everda 阅读(397) 评论(0) 推荐(0)

【机器学习算法应用和学习_1_基础篇】1.3 sklearn

摘要：大纲这篇文章是介绍sklearn库的使用，主要围绕sklearn官网内容进行阐述。包括三个部分的内容： 1.背景——主要介绍sklearn库是干什么的，官网内容板块是怎样的，我们主要从哪块学起； 2.框架——主要从模型使用流程角度出发，阐述sklearn主要实现的内容； 3.API——以从应用出发阅读全文

posted @ 2019-08-06 17:22 everda 阅读(839) 评论(0) 推荐(0)

【机器学习算法应用和学习_2_理论篇】2.1 决策树

摘要：一、原理阐述算法类型：监督学习_分类算法输入：数值型或标称型 V1.0 将测试集挨个按特征的特征值划分，计算划分前与划分后的混乱度之差，将差最大的特征作为第一层节点，得到被该特征的特征值划分出来几块数据。再将这几块数据分别按上面的步骤重复进行（递归过程），直到该块都是同一类或特征值用完为止。二阅读全文

posted @ 2019-08-06 17:11 everda 阅读(230) 评论(0) 推荐(0)

【机器学习算法应用和学习_1_基础篇】1.1 机器学习框架

摘要：系列说明【机器学习算法应用和学习】是以学习应用机器学习为目标的系列文章，该系列主要包括以下几个板块： 1.基础篇——主要介绍机器学习框架、基础库(包括padas/numpy/matplotlib/sklearn/scipy几个库)，每个部分是一篇文章； 2.理论篇——介绍机器学习的主要模型，会用不阅读全文

posted @ 2019-06-06 15:43 everda 阅读(750) 评论(0) 推荐(0)

【机器学习算法应用和学习_4_应用篇】关联分析/频繁项集挖掘_FP-growth算法

摘要：大纲一、背景二、算法目标三、算法原理 1.术语 2.优缺点 2.算法原理(伪代码) (本文不解释FP树和条件模式基等的构建过程，此类图解在很多博文中已经介绍得很清楚，可以参见参考资料) 1.输入数据预处理：loadSimpDat()函数创建输入数据或输入数据并createInitSet(dat 阅读全文

posted @ 2019-05-16 11:58 everda 阅读(1122) 评论(0) 推荐(0)

【机器学习_10】十大基础算法：分类_逻辑回归

摘要：边阅边写 1.官方文档 https://scikit learn.org/stable/modules/linear_model.html logistic regression 逻辑回归，尽管名字带有“回归”，但它实际是一个分类模型而不是回归模型。在文献上，逻辑回归又称logit回归、最大熵分类或阅读全文

posted @ 2019-02-19 14:33 everda 阅读(1071) 评论(0) 推荐(0)

【机器学习_7】numpy

摘要：1. 定义入门选手不抄作业了，先简单理解下，numpy最大的应用大概是方便做数学运算啥的，功劳在于一个叫ndarray(多维数组)的数据类型。numpy本身没有强大分析能力，只是pandas的基础啥的。 2 ndarray 2.1 定义 ndarray是一个多维数组对象，可以方便进行各种运算。 n 阅读全文

posted @ 2019-01-08 19:51 everda 阅读(272) 评论(0) 推荐(0)

【机器学习_6】传统算法：线性回归

摘要：np.polyfit 阅读全文

posted @ 2019-01-04 18:56 everda 阅读(311) 评论(0) 推荐(0)

【机器学习_5】Anaconda：初学Python、入门机器学习的首选

摘要：Anaconda是一个用于科学计算的Python发行版，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。集成包功能： NumPy：提供了矩阵运算的功能，其一般与Scipy、matplotlib一起使用，Python创建的所有更高层工具的基础，不阅读全文

posted @ 2019-01-04 16:22 everda 阅读(602) 评论(0) 推荐(0)

【机器学习_4】机器学习算法分类

摘要：机器学习算法可以分为传统的机器学习算法和深度学习。传统机器学习算法主要包括以下五类：回归：建立一个回归方程来预测目标值，用于连续型分布预测分类：给定大量带标签的数据，计算出未知标签样本的标签取值聚类：将不带标签的数据根据距离聚集成不同的簇，每一簇数据有共同的特征关联分析：计算出数据阅读全文

posted @ 2019-01-04 15:29 everda 阅读(685) 评论(0) 推荐(0)

【机器学习_3】常见术语区别

摘要：1.人工智能&数据挖掘&机器学习&深度学习&统计模型人工智能：是一个大的概念，是让机器像人一样思考甚至超越人类。数据挖掘：有目的地从现有大数据中提取数据的模式(pattern)和模型(model)。 ——比较偏向探索性分析，不是强烈的目的导向，只是能发现多少发现多少。数据挖掘本质上像是机器学习阅读全文

posted @ 2019-01-04 14:44 everda 阅读(368) 评论(0) 推荐(0)