机器学习 - 随笔分类 - Small_office

机器学习回归算法之线性回归

摘要：一、概念线性回归（Linear Regression）是回归算法中比较简单的一种，是一种监督学习算法，类似于逻辑回归，但是线性回归不需要Sigmoid函数处理。线性回归会拟合出一条直线，这条线可以某种程度上代表这些点的发展趋势和分布，拟合出线后，就可以推测后续点的分布，从而实现预测。二、计算阅读全文

posted @ 2019-02-12 08:45 Small_office 阅读(286) 评论(0) 推荐(0)

机器学习聚类算法之DBSCAN

摘要：一、概念 DBSCAN是一种基于密度的聚类算法，DBSCAN需要两个参数，一个是以P为中心的邻域半径；另一个是以P为中心的邻域内的最低门限点的数量，即密度。优点： 1、不需要提前设定分类簇数量，分类结果更合理； 2、可以有效的过滤干扰。缺点： 1、对高维数据处理效果较差； 2、算法复杂度较高，资阅读全文

posted @ 2019-01-17 16:52 Small_office 阅读(1145) 评论(0) 推荐(0)

机器学习聚类算法之K-means

摘要：一、概念 K-means是一种典型的聚类算法，它是基于距离的，是一种无监督的机器学习算法。 K-means需要提前设置聚类数量，我们称之为簇，还要为之设置初始质心。缺点： 1、循环计算点到质心的距离，复杂度较高。 2、对噪声不敏感，即使是噪声也会被聚类。 3、质心数量及初始位置的选定对结果有一定的阅读全文

posted @ 2019-01-14 14:48 Small_office 阅读(508) 评论(0) 推荐(0)

机器学习分类算法之随机森林

摘要：一、概念随机森林（Random Forest）是一种由多个决策树组成的分类器，是一种监督学习算法，大部分时候是用bagging方法训练的。 bagging(bootstrap aggregating)，训练多轮，每轮的样本由原始样本中随机可放回取出n个样本组成，最终的预测函数对分类问题采用投票方式阅读全文

posted @ 2019-01-10 09:50 Small_office 阅读(5969) 评论(0) 推荐(0)

机器学习分类算法之逻辑回归

摘要：一、概念逻辑回归(Logistic Regression,LR)是一种广义的线性回归分析模型,属于监督学习算法，需要打标数据，可以用在回归、二分类和多分类等问题上,最常用的是二分类。线性回归就是通过一条曲线区分不同的数据集，在二分类问题上会有一条直线对其进行区分，如下：逻辑回归需要每组数据都是阅读全文

posted @ 2019-01-07 08:45 Small_office 阅读(676) 评论(0) 推荐(0)

机器学习分类算法之朴素贝叶斯

摘要：一、概念朴素贝叶斯模型（Naive Bayesian Model，NBM）是以条件概率为基础的分类器，是一种监督算法，常被用于文本分类和垃圾邮件过滤。贝叶斯理论解决的是逆向概率问题，即通过已经发生的已知的概率来推测未发生的事将会发生的概率。二、计算朴素贝叶斯各个事件发生的概率是彼此独立的，即m 阅读全文

posted @ 2019-01-02 14:21 Small_office 阅读(284) 评论(0) 推荐(0)

机器学习分类算法之K近邻（K-Nearest Neighbor）

摘要：一、概念 KNN主要用来解决分类问题，是监督分类算法，它通过判断最近K个点的类别来决定自身类别，所以K值对结果影响很大，虽然它实现比较简单，但在目标数据集比例分配不平衡时，会造成结果的不准确。而且KNN对资源开销较大。二、计算通过K近邻进行计算，需要： 1、加载打标好的数据集，然后设定一个K值；阅读全文

posted @ 2018-12-14 14:42 Small_office 阅读(259) 评论(0) 推荐(0)

机器学习之特征工程

摘要：一、特征抽象特征抽象是指将数据源抽象算法可以理解的数据，我们期望的数据是一组可以表达数据某种特性的数字。下面对几种数据类型抽象举例：（1）时间戳以某一天为基准值，采用算法算出某数值，其他的采用和该基准值的差距。（2）二值类问题文本或其他描述的二值问题，可以量化为0和1表示。（3）多值有阅读全文

posted @ 2018-12-11 17:21 Small_office 阅读(1095) 评论(0) 推荐(0)

机器学习之数据预处理

摘要：一、采样 1、随机采样随机从样本中抽取特定数量的样本，取完放回再取叫放回采样，取完不放回叫无放回采样。 2、系统采样一般采样无放回采样，将数据样本按一定规则分为n等份，再从每等份随机抽取m个样本 3、分层采样将数据分为若干个类别，每层抽取一定量的样本，再将样本组合起来二、归一化是指将数据经阅读全文

posted @ 2018-12-07 16:42 Small_office 阅读(952) 评论(1) 推荐(0)

机器学习之场景解析

摘要：一、数据探查 1、数据量大小，足够的数据对学习效果有直接影响； 2、数据缺失或乱码，缺失和乱码影响数据质量，这种情况多的话需要进行数据清洗； 3、字段类型，不同算法对数据类型要求不一致，必要时需要进行转换； 4、是否含有目标队列，决定采用监督或无监督算法，若无目标队列可以考虑用ETL（抽取（extr 阅读全文

posted @ 2018-12-07 10:13 Small_office 阅读(459) 评论(0) 推荐(0)

机器学习之基本概念

摘要：一、六个步骤 1、场景解析，即进行业务场景抽象，匹配业务和算法； 2、数据预处理，即进行数据清洗，对数据进行拆分，采样，去噪等，也可以进行数据归一化或标准化； 3、特征工程，即提取数据特征； 4、模型训练，通过算法进行训练，并生成模型； 5、模型评估，评估模型成熟度； 6、服务，根据每天数据生成新模阅读全文

posted @ 2018-12-07 09:41 Small_office 阅读(176) 评论(0) 推荐(0)

Small_office

随笔分类 - 机器学习

公告