摘要: 我们使用了两种提取方式                               1 .词频统计       &nbs 阅读全文
posted @ 2019-08-21 16:37 admin9s 阅读(683) 评论(0) 推荐(0)
摘要: p(h+|D) = p(h) p(D|h+) / p(D)  表示一个单词输错的概率 = 单词的词频 一个输错单词的可能的正确单词的数量 p(h |D) = p(h) p(D|h ) / p(D)   第一步:读取词库,通过正则找出每个单词,并统计单词的词频 import col 阅读全文
posted @ 2019-08-21 14:40 admin9s 阅读(352) 评论(0) 推荐(0)
摘要: 虽然Logistic回归叫回归,但是其实它是一个二分类或者多分类问题 这里的话我们使用信用诈骗的数据进行分析   第一步:导入数据,Amount的数值较大,后续将进行( 1,1)的归一化 data = pd.read_csv('creditcard.csv') 读取数据 查看前5行数据 p 阅读全文
posted @ 2019-08-21 13:46 admin9s 阅读(221) 评论(0) 推荐(0)
摘要: from sklearn.ensemble import RandomForestRegressor 导入随机森林的包 import pandas as pd 加载入数据,这里用的是住房的数据 from sklearn.datasets.california_housing import fetch 阅读全文
posted @ 2019-08-21 13:44 admin9s 阅读(238) 评论(0) 推荐(0)
摘要: 决策树算法:主要通过信息熵或者gini系数来作为衡量标准 当完成决策树时需要进行剪枝操作,在剪枝过程中,我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件:                   阅读全文
posted @ 2019-08-21 13:43 admin9s 阅读(339) 评论(0) 推荐(0)
摘要: 我们以泰坦尼克号的获救信息为列 第一步:读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') 输出统计值 print(titanic.describe()) 第二步:数据准备 1. 阅读全文
posted @ 2019-08-21 13:38 admin9s 阅读(333) 评论(0) 推荐(0)