admin9s - 博客园

2019年8月22日

摘要： DBSCAN 是一种基于密度的分类方法若一个点的密度达到算法设定的阖值则其为核心点（即R领域内点的数量不小于minPts）所以对于DBSCAN需要设定的参数为两个半径和minPts 我们以一个啤酒的分类指标来做第一步：提取数据，并分配变量 import pandas as pd beer = p 阅读全文

posted @ 2019-08-22 14:36 admin9s 阅读(301) 评论(0) 推荐(0)

聚类

摘要： kmeans是一种无监督的聚类问题，在使用前一般要进行数据标准化, 一般都是使用欧式距离来进行区分，主要是通过迭代质心的位置来进行分类，直到数据点不发生类别变化就停止, 一次分类别，一次变换质心，就这样不断的迭代下去优势：使用方便劣势：1.K值难确定 & 阅读全文

posted @ 2019-08-22 14:35 admin9s 阅读(228) 评论(0) 推荐(0)

SVM(支持向量机)

摘要：支持向量机是一个点离决策边界越近，离决策面越远的问题求解的过程主要是通过拉格朗日乘子法，来求解带约束的优化问题，在问题中涉及两个方面，一个是线性的，一个是非线性的，非线性的有我们平时比较常见的高斯核函数(径向基函数),他的主要做法就是把低维的数据变成高维数据，通过^2的方法在支持向量基中的参数阅读全文

posted @ 2019-08-22 09:53 admin9s 阅读(309) 评论(0) 推荐(0)

2019年8月21日

贝叶斯文本分类器

摘要：我们使用了两种提取方式 1 .词频统计 &nbs 阅读全文

posted @ 2019-08-21 16:37 admin9s 阅读(690) 评论(0) 推荐(0)

贝叶斯拼写检查器

摘要： p(h+|D) = p(h) p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频一个输错单词的可能的正确单词的数量 p(h |D) = p(h) p(D|h ) / p(D) 第一步：读取词库，通过正则找出每个单词，并统计单词的词频 import col 阅读全文

posted @ 2019-08-21 14:40 admin9s 阅读(363) 评论(0) 推荐(0)

Logistic回归

摘要：虽然Logistic回归叫回归，但是其实它是一个二分类或者多分类问题这里的话我们使用信用诈骗的数据进行分析第一步：导入数据，Amount的数值较大，后续将进行( 1,1)的归一化 data = pd.read_csv('creditcard.csv') 读取数据查看前5行数据 p 阅读全文

posted @ 2019-08-21 13:46 admin9s 阅读(230) 评论(0) 推荐(0)

随机森林

摘要： from sklearn.ensemble import RandomForestRegressor 导入随机森林的包 import pandas as pd 加载入数据，这里用的是住房的数据 from sklearn.datasets.california_housing import fetch 阅读全文

posted @ 2019-08-21 13:44 admin9s 阅读(250) 评论(0) 推荐(0)

决策树

摘要：决策树算法：主要通过信息熵或者gini系数来作为衡量标准当完成决策树时需要进行剪枝操作，在剪枝过程中，我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件: 阅读全文

posted @ 2019-08-21 13:43 admin9s 阅读(354) 评论(0) 推荐(0)

集成算法

摘要：我们以泰坦尼克号的获救信息为列第一步：读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') 输出统计值 print(titanic.describe()) 第二步：数据准备 1. 阅读全文

posted @ 2019-08-21 13:38 admin9s 阅读(343) 评论(0) 推荐(0)

2019年3月26日

面试

摘要： ! done ! done Niuli'blog ! end: blogTitle 博客的标题和副标题博客园首页新随笔 ! 管理随笔 189 文章 0 评论 0 ! end: blogStats ! end: navigator 博客导航栏 ! end: 阅读全文

posted @ 2019-03-26 19:14 admin9s 阅读(191) 评论(0) 推荐(0)

admin

公告