2019 年 8月 21 日随笔档案 - admin9s

2019年8月21日

摘要：我们使用了两种提取方式 1 .词频统计 &nbs 阅读全文

posted @ 2019-08-21 16:37 admin9s 阅读(687) 评论(0) 推荐(0)

摘要： p(h+|D) = p(h) p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频一个输错单词的可能的正确单词的数量 p(h |D) = p(h) p(D|h ) / p(D) 第一步：读取词库，通过正则找出每个单词，并统计单词的词频 import col 阅读全文

posted @ 2019-08-21 14:40 admin9s 阅读(354) 评论(0) 推荐(0)

Logistic回归

摘要：虽然Logistic回归叫回归，但是其实它是一个二分类或者多分类问题这里的话我们使用信用诈骗的数据进行分析第一步：导入数据，Amount的数值较大，后续将进行( 1,1)的归一化 data = pd.read_csv('creditcard.csv') 读取数据查看前5行数据 p 阅读全文

posted @ 2019-08-21 13:46 admin9s 阅读(224) 评论(0) 推荐(0)

随机森林

摘要： from sklearn.ensemble import RandomForestRegressor 导入随机森林的包 import pandas as pd 加载入数据，这里用的是住房的数据 from sklearn.datasets.california_housing import fetch 阅读全文

posted @ 2019-08-21 13:44 admin9s 阅读(239) 评论(0) 推荐(0)

决策树

摘要：决策树算法：主要通过信息熵或者gini系数来作为衡量标准当完成决策树时需要进行剪枝操作，在剪枝过程中，我们一般采用预剪枝的操作(该操作更加实用) 预剪枝过程中的几个限制条件: 阅读全文

posted @ 2019-08-21 13:43 admin9s 阅读(340) 评论(0) 推荐(0)

集成算法

摘要：我们以泰坦尼克号的获救信息为列第一步：读取数据 import pandas as pd import numpy as np titanic = pd.read_csv('titanic_train.csv') 输出统计值 print(titanic.describe()) 第二步：数据准备 1. 阅读全文

posted @ 2019-08-21 13:38 admin9s 阅读(334) 评论(0) 推荐(0)

admin

公告