文章分类 - scikit-learn模块
摘要:一.什么是数据归一化? 机器学习模型被互联网行业广泛应用,如排序、推荐、反作弊、定位等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?维基百科给出的解释: 1)归一化后加快了梯度下降求最优解的速度; 2)归一化有可能提高精度。 在k
阅读全文
摘要:一.参数和超参数之间的区别以及联系? 点击这里 二.knn算法的的超参数问题 1.寻找到最好的k值 k值在knn中是一个超参数的问题,我们如何选取一个最好的k值呢? 示例代码如下: 2.考虑距离的权重问题 3.当需要考虑到距离问题的时候,选择哪种距离公式 考虑搜索明科夫斯基距离 明科夫斯基距离公式:
阅读全文
摘要:一.kNN算法简介 在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法[1]。在这两种情况下,输入包含特征空间中的k个最接近的训练样本。 在k-NN分类中,输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的,k个最近邻居(k为正整数,通常较
阅读全文
摘要:一.机器学习:问题设置 一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。 我们可以将学习问题分为几大类: 监督学习 , 其中数据带有一个附加属性
阅读全文
摘要:一.什么是scikit_learn? 1.简单概述 对Python语言有所了解的科研人员可能都知道SciPy——一个开源的基于Python的科学计算工具包。基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思。而在这些分
阅读全文

浙公网安备 33010602011771号