2018 年 4月随笔档案 - 费弗里

（数据科学学习手札29）KNN分类的原理详解&Python与R实现

摘要：一、简介 KNN（k-nearst neighbors，KNN）作为机器学习算法中的一种非常基本的算法，也正是因为其原理简单，被广泛应用于电影/音乐推荐等方面，即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点，就可以利用天然的临近关系来进行分类；二、原理 KNN算法主要用于分类任务中阅读全文

posted @ 2018-04-25 22:11 费弗里阅读(2332) 评论(0) 推荐(0)

（数据科学学习手册28）SQL server 2012中的查询语句汇总

摘要：一、简介数据库管理系统（DBMS）最重要的功能就是提供数据查询，即用户根据实际需求对数据进行筛选，并以特定形式进行显示。在Microsoft SQL Serve 2012 中，可以使用通用的SELECT语句进行查询操作，该语句具有非常灵活的使用方式和丰富的功能，即可以完成简单的单表查询，也可以完成阅读全文

posted @ 2018-04-20 09:58 费弗里阅读(3221) 评论(0) 推荐(1)

（数据科学学习手札27）sklearn数据集分割方法汇总

摘要：一、简介在现实的机器学习任务中，我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练，以尽可能高的精度为目标，但这里便出现一个问题，一是很多情况下我们不能说搜集到的样本集就能代表真实的全体，其分布也不一定就与真实的全体相同，但是有一点很明确，样本集数量越大则其接近真实全体的可能性也就越大；二是阅读全文

posted @ 2018-04-14 19:44 费弗里阅读(19393) 评论(0) 推荐(7)

（数据科学学习手札26）随机森林分类器原理详解&Python与R实现

摘要：一、简介作为集成学习中非常著名的方法，随机森林被誉为“代表集成学习技术水平的方法”，由于其简单、容易实现、计算开销小，使得它在现实任务中得到广泛使用，因为其来源于决策树和bagging，决策树我在前面的一篇博客中已经详细介绍，下面就来简单介绍一下集成学习与Bagging；二、集成学习集成学习（阅读全文

posted @ 2018-04-13 20:04 费弗里阅读(12248) 评论(0) 推荐(3)

（数据科学学习手札25）sklearn中的特征选择相关功能

摘要：一、简介在现实的机器学习任务中，自变量往往数量众多，且类型可能由连续型（continuou）和离散型（discrete）混杂组成，因此出于节约计算成本、精简模型、增强模型的泛化性能等角度考虑，我们常常需要对原始变量进行一系列的预处理及筛选，剔除掉冗杂无用的成分，得到较为满意的训练集，才会继续我们的阅读全文

posted @ 2018-04-12 21:15 费弗里阅读(3317) 评论(4) 推荐(1)

（数据科学学习手札24）逻辑回归分类器原理详解&Python与R实现

摘要：一、简介逻辑回归（Logistic Regression），与它的名字恰恰相反，它是一个分类器而非回归方法，在一些文献里它也被称为logit回归、最大熵分类器（MaxEnt）、对数线性分类器等；我们都知道可以用回归模型来进行回归任务，但如果要利用回归模型来进行分类该怎么办呢？本文介绍的逻辑回归就基阅读全文

posted @ 2018-04-12 14:44 费弗里阅读(6503) 评论(1) 推荐(1)

（数据科学学习手札23）决策树分类原理详解&Python与R实现

摘要：作为机器学习中可解释性非常好的一种算法，决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习阅读全文

posted @ 2018-04-06 14:47 费弗里阅读(3112) 评论(0) 推荐(1)

（数据科学学习手札22）主成分分析法在Python与R中的基本功能实现

摘要：上一篇中我们详细介绍推导了主成分分析法的原理，并基于Python通过自编函数实现了挑选主成分的过程，而在Python与R中都有比较成熟的主成分分析函数，本篇我们就对这些方法进行介绍： R 在R的基础函数中就有主成分分析法的实现函数princomp()，其主要参数如下： data：要进行主成分分析的目阅读全文

posted @ 2018-04-01 21:49 费弗里阅读(892) 评论(1) 推荐(1)

（数据科学学习手札21）sklearn.datasets常用功能详解

摘要：作为Python中经典的机器学习模块，sklearn围绕着机器学习提供了很多可直接调用的机器学习算法以及很多经典的数据集，本文就对sklearn中专门用来得到已有或自定义数据集的datasets模块进行详细介绍； datasets中的数据集分为很多种，本文介绍几类常用的数据集生成方法，本文总结的所有阅读全文

posted @ 2018-04-01 14:51 费弗里阅读(13667) 评论(0) 推荐(7)

费弗里

数据科学玩家

04 2018 档案

公告