随笔分类 -  数据分析

上一页 1 2
跟我学算法聚类(kmeans)
摘要:kmeans是一种无监督的聚类问题,在使用前一般要进行数据标准化, 一般都是使用欧式距离来进行区分,主要是通过迭代质心的位置 来进行分类,直到数据点不发生类别变化就停止, 一次分类别,一次变换质心,就这样不断的迭代下去 优势:使用方便劣势:1.K值难确定 2. 复杂度与样本数量呈线性关系 3.很难发 阅读全文
posted @ 2018-08-24 17:01 python我的最爱 阅读(925) 评论(0) 推荐(0)
跟我学算法-SVM(支持向量机)
摘要:支持向量机是一个点离决策边界越近,离决策面越远的问题 求解的过程主要是通过拉格朗日乘子法,来求解带约束的优化问题,在问题中涉及两个方面,一个是线性的,一个是非线性的,非线性的有 我们平时比较常见的高斯核函数(径向基函数),他的主要做法就是把低维的数据变成高维数据,通过^2的方法 在支持向量基中的参数 阅读全文
posted @ 2018-08-23 20:30 python我的最爱 阅读(540) 评论(0) 推荐(0)
跟我学算法-贝叶斯文本分类器
摘要:我们使用了两种提取方式 1 .词频统计 2. 关键字提取 关键字提取的方式效果更好一些 第一步:数据读取 第二步:数据预处理,把每一行的内容拆分成一个个词 第三步: 与停用词库进行比对,去除内容中的停用词 ‘ 第四步构建模型,这里的数据我们需要做一步‘ ’.join的重连接,对于分类标签需要转换为数 阅读全文
posted @ 2018-08-22 23:18 python我的最爱 阅读(382) 评论(0) 推荐(0)
跟我学算法-贝叶斯拼写检查器
摘要:p(h+|D) = p(h) * p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频 * 一个输错单词的可能的正确单词的数量 p(h-|D) = p(h) * p(D|h-) / p(D) 第一步:读取词库,通过正则找出每个单词,并统计单词的词频 第二步 : 模拟一个错误单词的其他 阅读全文
posted @ 2018-08-22 15:29 python我的最爱 阅读(287) 评论(0) 推荐(0)
跟我学算法-Logistic回归
摘要:虽然Logistic回归叫回归,但是其实它是一个二分类或者多分类问题 这里的话我们使用信用诈骗的数据进行分析 第一步:导入数据,Amount的数值较大,后续将进行(-1,1)的归一化 第二步: 对正常和欺诈的数目进行查看,正常样本的数目远大于欺诈样本,这个时候可以使用下采样或者过采样 第三步:将am 阅读全文
posted @ 2018-08-22 11:03 python我的最爱 阅读(315) 评论(0) 推荐(0)
跟我学算法-集成算法
摘要:我们以泰坦尼克号的获救信息为列 第一步:读取数据 第二步:数据准备 1.对于数字型缺失,我们使用均值来填充缺失值,对于字母型缺失, 我们使用出现概率最大的字母来填充缺失值 2.为了便于计算我们需要把字母类型,转换为数字类型 第三步:算法尝试,我们使用了线性回归 第四步: 使用logistic做尝试, 阅读全文
posted @ 2018-08-21 23:02 python我的最爱 阅读(814) 评论(0) 推荐(0)
跟我学算法 - 随机森林
摘要:from sklearn.ensemble import RandomForestRegressor #导入随机森林的包 import pandas as pd #加载入数据,这里用的是住房的数据 from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_californ... 阅读全文
posted @ 2018-08-21 14:12 python我的最爱 阅读(351) 评论(0) 推荐(0)
跟我学算法-决策树
摘要:决策树算法:主要通过信息熵或者gini系数来作为衡量标准 当完成决策树时需要进行剪枝操作,在剪枝过程中,我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件: 1. 限制深度 2. 叶子节点个数 3.叶子节点样本数 4.信息增益量 ..... 下面以一个房屋数据为列子 现在采用所有 阅读全文
posted @ 2018-08-20 21:07 python我的最爱 阅读(244) 评论(0) 推荐(0)

上一页 1 2