数据分析 - 随笔分类(第2页) - python我的最爱

跟我学算法聚类(kmeans)

摘要：kmeans是一种无监督的聚类问题，在使用前一般要进行数据标准化, 一般都是使用欧式距离来进行区分，主要是通过迭代质心的位置来进行分类，直到数据点不发生类别变化就停止, 一次分类别，一次变换质心，就这样不断的迭代下去优势：使用方便劣势：1.K值难确定 2. 复杂度与样本数量呈线性关系 3.很难发阅读全文

posted @ 2018-08-24 17:01 python我的最爱阅读(925) 评论(0) 推荐(0)

跟我学算法-SVM(支持向量机)

摘要：支持向量机是一个点离决策边界越近，离决策面越远的问题求解的过程主要是通过拉格朗日乘子法，来求解带约束的优化问题，在问题中涉及两个方面，一个是线性的，一个是非线性的，非线性的有我们平时比较常见的高斯核函数(径向基函数),他的主要做法就是把低维的数据变成高维数据，通过^2的方法在支持向量基中的参数阅读全文

posted @ 2018-08-23 20:30 python我的最爱阅读(540) 评论(0) 推荐(0)

跟我学算法-贝叶斯文本分类器

摘要：我们使用了两种提取方式 1 .词频统计 2. 关键字提取关键字提取的方式效果更好一些第一步：数据读取第二步：数据预处理，把每一行的内容拆分成一个个词第三步：与停用词库进行比对，去除内容中的停用词 ‘ 第四步构建模型，这里的数据我们需要做一步‘ ’.join的重连接,对于分类标签需要转换为数阅读全文

posted @ 2018-08-22 23:18 python我的最爱阅读(382) 评论(0) 推荐(0)

跟我学算法-贝叶斯拼写检查器

摘要：p(h+|D) = p(h) * p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频 * 一个输错单词的可能的正确单词的数量 p(h-|D) = p(h) * p(D|h-) / p(D) 第一步：读取词库，通过正则找出每个单词，并统计单词的词频第二步 : 模拟一个错误单词的其他阅读全文

posted @ 2018-08-22 15:29 python我的最爱阅读(287) 评论(0) 推荐(0)

跟我学算法-Logistic回归

摘要：虽然Logistic回归叫回归，但是其实它是一个二分类或者多分类问题这里的话我们使用信用诈骗的数据进行分析第一步：导入数据，Amount的数值较大，后续将进行(-1,1)的归一化第二步: 对正常和欺诈的数目进行查看，正常样本的数目远大于欺诈样本，这个时候可以使用下采样或者过采样第三步：将am 阅读全文

posted @ 2018-08-22 11:03 python我的最爱阅读(315) 评论(0) 推荐(0)

跟我学算法-集成算法

摘要：我们以泰坦尼克号的获救信息为列第一步：读取数据第二步：数据准备 1.对于数字型缺失,我们使用均值来填充缺失值,对于字母型缺失, 我们使用出现概率最大的字母来填充缺失值 2.为了便于计算我们需要把字母类型，转换为数字类型第三步:算法尝试，我们使用了线性回归第四步：使用logistic做尝试, 阅读全文

posted @ 2018-08-21 23:02 python我的最爱阅读(814) 评论(0) 推荐(0)

跟我学算法 - 随机森林

摘要：from sklearn.ensemble import RandomForestRegressor #导入随机森林的包 import pandas as pd #加载入数据，这里用的是住房的数据 from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_californ... 阅读全文

posted @ 2018-08-21 14:12 python我的最爱阅读(351) 评论(0) 推荐(0)

跟我学算法-决策树

摘要：决策树算法：主要通过信息熵或者gini系数来作为衡量标准当完成决策树时需要进行剪枝操作，在剪枝过程中，我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件: 1. 限制深度 2. 叶子节点个数 3.叶子节点样本数 4.信息增益量 ..... 下面以一个房屋数据为列子现在采用所有阅读全文

posted @ 2018-08-20 21:07 python我的最爱阅读(244) 评论(0) 推荐(0)

随笔分类 - 数据分析