01 2018 档案
摘要:这篇文章主要讲解使用Sklearn进行数据预处理,我们使用Kaggle中泰坦尼克号事件的数据作为样本。 读取数据并创建数据表格,查看数据相关信息 表格内容如下所示 填充缺失值(数据预处理的第一步就是处理缺失值) 对于缺失值不多不少的数据特征,我们可以使用机器学习模型进行缺失值得填充,例如随机森林,逻
        阅读全文
            
摘要:最近邻分类 概念讲解 我们使用的是scikit learn 库中的neighbors.KNeighborsClassifier 来实行KNN. n_neighbors 是用来确定多数投票规则里的K值,也就是在点的周围选取K个值最为总体范围 weights : 这个参数很有意思,它的作用是在进行分类判
        阅读全文
            
摘要:引言 "Kaggle官方网站" 这是泰坦尼克号事件的基本介绍: 我们需要做的就是通过给出的数据集,通过对特征值的分析以及运用机器学习模型,分析什么样的人最可能存活,并给出对测试集合的预测。 对于Kaggle,我认为大体上有这么几个步骤: 1. 读取数据 pd.read_csv('文件地址.csv')
        阅读全文
            
摘要:为了记录自己的学习路程,特梳理目录如下: "每日学习记录" "如何成为一名优秀算法工程师 1" "如何成为一名优秀算法工程师 2" "开源书籍" "开源书籍" 深度学习系列 书籍: Neural Network and Deep Learning github https://github.com/
        阅读全文
            
摘要:k 近邻法(K nearest neighbor)是一种基本的分类方法 基本思路: 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类别,就把输入实例分为这个类。 算法: 输入:训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y
        阅读全文
            
 
                    
                
 
 浙公网安备 33010602011771号
浙公网安备 33010602011771号