摘要:
我们使用了两种提取方式 1 .词频统计 &nbs 阅读全文
posted @ 2019-08-21 16:37
admin9s
阅读(683)
评论(0)
推荐(0)
摘要:
p(h+|D) = p(h) p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频 一个输错单词的可能的正确单词的数量 p(h |D) = p(h) p(D|h ) / p(D) 第一步:读取词库,通过正则找出每个单词,并统计单词的词频 import col 阅读全文
posted @ 2019-08-21 14:40
admin9s
阅读(352)
评论(0)
推荐(0)
摘要:
虽然Logistic回归叫回归,但是其实它是一个二分类或者多分类问题 这里的话我们使用信用诈骗的数据进行分析 第一步:导入数据,Amount的数值较大,后续将进行( 1,1)的归一化 data = pd.read_csv('creditcard.csv') 读取数据 查看前5行数据 p 阅读全文
posted @ 2019-08-21 13:46
admin9s
阅读(221)
评论(0)
推荐(0)
摘要:
from sklearn.ensemble import RandomForestRegressor 导入随机森林的包 import pandas as pd 加载入数据,这里用的是住房的数据 from sklearn.datasets.california_housing import fetch 阅读全文
posted @ 2019-08-21 13:44
admin9s
阅读(238)
评论(0)
推荐(0)
摘要:
决策树算法:主要通过信息熵或者gini系数来作为衡量标准 当完成决策树时需要进行剪枝操作,在剪枝过程中,我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件:   阅读全文
posted @ 2019-08-21 13:43
admin9s
阅读(339)
评论(0)
推荐(0)
摘要:
我们以泰坦尼克号的获救信息为列 第一步:读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') 输出统计值 print(titanic.describe()) 第二步:数据准备 1. 阅读全文
posted @ 2019-08-21 13:38
admin9s
阅读(333)
评论(0)
推荐(0)

浙公网安备 33010602011771号