机器学习入门-决策树使用实例(代码)
摘要:from sklearn import tree from sklearn.cross_validation import train_test_split # 数据拆分 train_x, test_x, train_y, test_y = train_test_split(housing.data, housing.target, test_size=0.1, random_state=42...
阅读全文
posted @
2019-01-17 09:48
python我的最爱
阅读(509)
推荐(0)
机器学习入门-决策树的可视化展示
摘要:from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci
阅读全文
posted @
2019-01-17 09:35
python我的最爱
阅读(2024)
推荐(0)
机器学习入门-决策树算法
摘要:决策树:从根节点开始一步步到叶子节点,所有的数据最后都落到叶子节点里面,既可以用来做分类也可以用来做回归 树的组成: 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点,最终的决策结果 对于一些连续的变量来说,通常使用一刀切的方式。 决策树的训练与测试 训练阶段通过构造一棵树
阅读全文
posted @
2019-01-15 21:00
python我的最爱
阅读(992)
推荐(0)
机器学习入门-信用卡欺诈数据案例
摘要:在前几个博客,我们将各个部分进行了拆分,现在写一个整体的代码 1.统计两种标签的个数,画直方图 2. 变量与标签的拆分, 训练集与测试集数据的拆分(train_test_split), 对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制,即准确度,召
阅读全文
posted @
2019-01-15 13:14
python我的最爱
阅读(692)
推荐(0)
机器学习入门-概率阈值的逻辑回归对准确度和召回率的影响 lr.predict_proba(获得预测样本的概率值)
摘要:1.lr.predict_proba(under_text_x) 获得的是正负的概率值 在sklearn逻辑回归的计算过程中,使用的是大于0.5的是正值,小于0.5的是负值,我们使用使用不同的概率结果判定来研究概率阈值对结果的影响 从图中我们可以看出,阈值越小,被判为正的越多,即大于阈值的就是为正,
阅读全文
posted @
2019-01-15 12:42
python我的最爱
阅读(9596)
推荐(0)
机器学习入门-混淆矩阵-准确度-召回率-F1score 1.itertools.product 2. confusion_matrix(test_y, pred_y)
摘要:1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) #
阅读全文
posted @
2019-01-15 11:53
python我的最爱
阅读(1665)
推荐(0)
机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold, recall_score(召回率)
摘要:1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例, random_state 随机种子 2. KFold(l
阅读全文
posted @
2019-01-15 10:45
python我的最爱
阅读(1236)
推荐(0)
机器学习入门-逻辑回归算法
摘要:梯度下降: 对theta1, theta2, theta3 分别求最快梯度下降的方向,然后根据给定的学习率,进行theta1, theta2, theta3的参数跟新 假定目标函数 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分为
阅读全文
posted @
2019-01-12 18:07
python我的最爱
阅读(484)
推荐(0)
机器学习入门-线性回归算法(原理)
摘要:数据:工资和年龄(2个特征) 目标:预测银行会贷款多少钱(标签) 考虑: 工资和年龄影响银行贷款,它们各自的影响大小(参数) x1, x2 表示的是两个特征(年龄, 工资) y 是银行最终会借我们多少钱 找到一条最合适线(一些高维点)来最好拟合我们的数据点 假设theta1是年龄的参数, theta
阅读全文
posted @
2019-01-12 16:43
python我的最爱
阅读(349)
推荐(0)
机器学习入门-Knn算法
摘要:knn算法不需要进行训练, 耗时,适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离、 2. 将求得的欧式距离进行降序排序,取前n_个 3. 计算这前n_个的y值的平均或者(类别),获得测试数据的预测值 4.根据测试数据的实际值和测试数据的预测值计算当前的rmse
阅读全文
posted @
2019-01-11 14:37
python我的最爱
阅读(684)
推荐(0)
可视化库-seaborn-热力图(第五天)
摘要:1. 画一个基本的热力图, 通过热力图用来观察样本的分布情况 2. 通过vmin 和 vmax设置热力图的区间 3.center=0 对于有正有负的数据而言颜色差异更大 4. 取出三个特征进行热力图的绘制figures.pivot() 第三个属性表示热力图上实际的值 5. linewidth 使得格
阅读全文
posted @
2019-01-09 19:55
python我的最爱
阅读(14955)
推荐(1)
可视化库-seaborn-多变量分析绘图(第五天)
摘要:1. sns.stripplot(x='data', y='total_bill', data=tips, jitter=True), 画出竖形的样子,jitter=True为了使得数据尽量分开 2. sns.swarmplot画出圣诞树的样子,hue='sex' 加入一种新的分类属性 3.绘制盒图
阅读全文
posted @
2019-01-09 17:00
python我的最爱
阅读(945)
推荐(0)
可视化库-seaborn-回归分析绘图(第五天)
摘要:1. sns.regplot() 和 sns.lmplot() 绘制回归曲线 2. 对于离散的变量来说,可以添加x_jitter产生随机的偏移
阅读全文
posted @
2019-01-09 16:25
python我的最爱
阅读(535)
推荐(0)
可视化库-seaborn-单变量绘图(第五天)
摘要:1. sns.distplot 画直方图 2. 查看数据分布情况, 画出概率密度曲线 fit=stats.gamma 3.sns.jointplot() #绘制带直方图的散点图,对于sns最好是转换为df形式 4.sns.jointplot(kind='hex') # 画出散点图的分布颜色的图 5.
阅读全文
posted @
2019-01-09 16:05
python我的最爱
阅读(438)
推荐(0)
可视化库-seaborn-布局风格设置(第五天)
摘要:1. sns.set_style() 进行风格设置, sns.set() 进行设置的重置, 五种风格 2. 使用sns.boxplot 绘制盒图 3. sns.despine(left=True) 去除左边的框图 4. 风格细节设置, sns.violinplot画小提琴图, despine(off
阅读全文
posted @
2019-01-09 12:25
python我的最爱
阅读(1328)
推荐(0)
可视化库-Matplotlib-Pandas与sklearn结合(第四天)
摘要:1. 计算每一种的比例的百分比 2. 通过pd将数据导入,进行缺失值补充,画出特征的PCA图
阅读全文
posted @
2019-01-08 17:23
python我的最爱
阅读(477)
推荐(0)
可视化库-Matplotlib-3D图(第四天)
摘要:1. 画三维图片图 axes = Axes3D(fig)这一步将二维坐标转换为三维坐标,axes.plot_surface() 2. 构造三维坐标系的两种方法, 同时画三维曲线图ax=fig.add_subplot(111, projection='3d') ax = fig.gca(project
阅读全文
posted @
2019-01-08 15:15
python我的最爱
阅读(581)
推荐(0)
可视化库-Matplotlib基础设置(第三天)
摘要:1.画一个基本的图 2. 画多条直线 3. linewidth指定线条的宽度,marker='o', markerfacecolor表示mark颜色,markersize # 表示标志物的大小 4. plt.setp(line, color='r', linewidth=2.0, alpha=0.5
阅读全文
posted @
2019-01-07 21:47
python我的最爱
阅读(599)
推荐(1)
np归纳总结(全)第一天
摘要:1.概述 1.np.array() # 将列表转换为数组 2..shape # 打印矩阵的维度, 也可以使用np.shape 2.array 结构 3.dtype 打印数组的数据类型 4. .itemsize # 判断数组中每一个数字所占的字节数 5. .size # 打印出数组中的元素个数, 不关
阅读全文
posted @
2019-01-04 19:12
python我的最爱
阅读(4454)
推荐(1)
序列化和反序列化(json 和pickle)dumps 为序列化, json为反序列化
摘要:json 可以在不同语言中进行使用 下面先介绍一下json的适用方法 pickle 只能在python中使用 json 和 pickle 的语法相同 ,pickle 可以用来传递函数 下面以pickle为例 序列化.py 对于json.dumps 和 json.loads 而言 最好是每次转换只出现
阅读全文
posted @
2018-05-16 21:48
python我的最爱
阅读(309)
推荐(0)