摘要: DBSCAN 是一种基于密度的分类方法 若一个点的密度达到算法设定的阖值则其为核心点(即R领域内点的数量不小于minPts) 所以对于DBSCAN需要设定的参数为两个半径和minPts 我们以一个啤酒的分类指标来做第一步:提取数据,并分配变量 import pandas as pd beer = p 阅读全文
posted @ 2019-08-22 14:36 admin9s 阅读(277) 评论(0) 推荐(0) 编辑
摘要: kmeans是一种无监督的聚类问题,在使用前一般要进行数据标准化, 一般都是使用欧式距离来进行区分,主要是通过迭代质心的位置 来进行分类,直到数据点不发生类别变化就停止, 一次分类别,一次变换质心,就这样不断的迭代下去 优势:使用方便劣势:1.K值难确定       & 阅读全文
posted @ 2019-08-22 14:35 admin9s 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 支持向量机是一个点离决策边界越近,离决策面越远的问题 求解的过程主要是通过拉格朗日乘子法,来求解带约束的优化问题,在问题中涉及两个方面,一个是线性的,一个是非线性的,非线性的有 我们平时比较常见的高斯核函数(径向基函数),他的主要做法就是把低维的数据变成高维数据,通过^2的方法 在支持向量基中的参数 阅读全文
posted @ 2019-08-22 09:53 admin9s 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 我们使用了两种提取方式                               1 .词频统计       &nbs 阅读全文
posted @ 2019-08-21 16:37 admin9s 阅读(653) 评论(0) 推荐(0) 编辑
摘要: p(h+|D) = p(h) p(D|h+) / p(D)  表示一个单词输错的概率 = 单词的词频 一个输错单词的可能的正确单词的数量 p(h |D) = p(h) p(D|h ) / p(D)   第一步:读取词库,通过正则找出每个单词,并统计单词的词频 import col 阅读全文
posted @ 2019-08-21 14:40 admin9s 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 虽然Logistic回归叫回归,但是其实它是一个二分类或者多分类问题 这里的话我们使用信用诈骗的数据进行分析   第一步:导入数据,Amount的数值较大,后续将进行( 1,1)的归一化 data = pd.read_csv('creditcard.csv') 读取数据 查看前5行数据 p 阅读全文
posted @ 2019-08-21 13:46 admin9s 阅读(212) 评论(0) 推荐(0) 编辑
摘要: from sklearn.ensemble import RandomForestRegressor 导入随机森林的包 import pandas as pd 加载入数据,这里用的是住房的数据 from sklearn.datasets.california_housing import fetch 阅读全文
posted @ 2019-08-21 13:44 admin9s 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 决策树算法:主要通过信息熵或者gini系数来作为衡量标准 当完成决策树时需要进行剪枝操作,在剪枝过程中,我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件:                   阅读全文
posted @ 2019-08-21 13:43 admin9s 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 我们以泰坦尼克号的获救信息为列 第一步:读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') 输出统计值 print(titanic.describe()) 第二步:数据准备 1. 阅读全文
posted @ 2019-08-21 13:38 admin9s 阅读(312) 评论(0) 推荐(0) 编辑
摘要: ! done ! done Niuli'blog ! end: blogTitle 博客的标题和副标题 博客园 首页 新随笔 ! 管理 随笔 189  文章 0  评论 0 ! end: blogStats ! end: navigator 博客导航栏 ! end: 阅读全文
posted @ 2019-03-26 19:14 admin9s 阅读(157) 评论(0) 推荐(0) 编辑