python基础 - 随笔分类(第3页) - python我的最爱

机器学习入门-决策树使用实例(代码)

摘要：from sklearn import tree from sklearn.cross_validation import train_test_split # 数据拆分 train_x, test_x, train_y, test_y = train_test_split(housing.data, housing.target, test_size=0.1, random_state=42... 阅读全文

posted @ 2019-01-17 09:48 python我的最爱阅读(511) 评论(0) 推荐(0)

机器学习入门-决策树的可视化展示

摘要：from sklearn import tree from sklearn.datasets.california_housing import fetch_california_housing housing = fetch_california_housing() dtr = tree.Deci 阅读全文

posted @ 2019-01-17 09:35 python我的最爱阅读(2031) 评论(0) 推荐(0)

机器学习入门-决策树算法

摘要：决策树：从根节点开始一步步到叶子节点，所有的数据最后都落到叶子节点里面，既可以用来做分类也可以用来做回归树的组成： 1.根节点(第一个参数) 2.非子叶节点与分支: 中间过程 3. 子叶节点，最终的决策结果对于一些连续的变量来说，通常使用一刀切的方式。决策树的训练与测试训练阶段通过构造一棵树阅读全文

posted @ 2019-01-15 21:00 python我的最爱阅读(999) 评论(0) 推荐(0)

机器学习入门-信用卡欺诈数据案例

摘要：在前几个博客，我们将各个部分进行了拆分，现在写一个整体的代码 1.统计两种标签的个数，画直方图 2. 变量与标签的拆分，训练集与测试集数据的拆分(train_test_split)，对训练数据进行下采样 3. 使用交叉验证进行超参数正则化因子的选择 KFold 4. 混淆矩阵的绘制，即准确度，召阅读全文

posted @ 2019-01-15 13:14 python我的最爱阅读(695) 评论(0) 推荐(0)

机器学习入门-概率阈值的逻辑回归对准确度和召回率的影响 lr.predict_proba(获得预测样本的概率值)

摘要：1.lr.predict_proba(under_text_x) 获得的是正负的概率值在sklearn逻辑回归的计算过程中，使用的是大于0.5的是正值，小于0.5的是负值，我们使用使用不同的概率结果判定来研究概率阈值对结果的影响从图中我们可以看出，阈值越小，被判为正的越多，即大于阈值的就是为正，阅读全文

posted @ 2019-01-15 12:42 python我的最爱阅读(9610) 评论(0) 推荐(0)

机器学习入门-混淆矩阵-准确度-召回率-F1score 1.itertools.product 2. confusion_matrix(test_y, pred_y)

摘要：1. itertools.product 进行数据的多种组合 intertools.product(range(0, 1), range(0, 1)) 组合的情况[0, 0], [0, 1], [1, 0], [1, 1] 2. confusion_matrix(test_y, pred_y) # 阅读全文

posted @ 2019-01-15 11:53 python我的最爱阅读(1705) 评论(0) 推荐(0)

机器学习入门-交叉验证选择参数(数据切分)train_test_split(under_x, under_y, test_size, random_state), (交叉验证的数据切分)KFold， recall_score(召回率)

摘要：1. train_test_split(under_x, under_y, test_size=0.3, random_state=0) # under_x, under_y 表示输入数据, test_size表示切分的训练集和测试集的比例， random_state 随机种子 2. KFold(l 阅读全文

posted @ 2019-01-15 10:45 python我的最爱阅读(1250) 评论(0) 推荐(0)

机器学习入门-逻辑回归算法

摘要：梯度下降：对theta1， theta2， theta3 分别求最快梯度下降的方向，然后根据给定的学习率，进行theta1， theta2， theta3的参数跟新假定目标函数 J(theta) = 1/2m * np.sum(h(theta) - y)^2 / len(X) 梯度下降的策略分为阅读全文

posted @ 2019-01-12 18:07 python我的最爱阅读(486) 评论(0) 推荐(0)

机器学习入门-线性回归算法(原理)

摘要：数据：工资和年龄（2个特征）目标：预测银行会贷款多少钱(标签) 考虑：工资和年龄影响银行贷款，它们各自的影响大小（参数） x1， x2 表示的是两个特征（年龄，工资） y 是银行最终会借我们多少钱找到一条最合适线（一些高维点）来最好拟合我们的数据点假设theta1是年龄的参数， theta 阅读全文

posted @ 2019-01-12 16:43 python我的最爱阅读(351) 评论(0) 推荐(0)

机器学习入门-Knn算法

摘要：knn算法不需要进行训练，耗时，适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离、 2. 将求得的欧式距离进行降序排序，取前n_个 3. 计算这前n_个的y值的平均或者(类别)，获得测试数据的预测值 4.根据测试数据的实际值和测试数据的预测值计算当前的rmse 阅读全文

posted @ 2019-01-11 14:37 python我的最爱阅读(687) 评论(0) 推荐(0)

可视化库-seaborn-热力图(第五天)

摘要：1. 画一个基本的热力图，通过热力图用来观察样本的分布情况 2. 通过vmin 和 vmax设置热力图的区间 3.center=0 对于有正有负的数据而言颜色差异更大 4. 取出三个特征进行热力图的绘制figures.pivot() 第三个属性表示热力图上实际的值 5. linewidth 使得格阅读全文

posted @ 2019-01-09 19:55 python我的最爱阅读(14984) 评论(0) 推荐(1)

可视化库-seaborn-多变量分析绘图(第五天)

摘要：1. sns.stripplot(x='data', y='total_bill', data=tips, jitter=True), 画出竖形的样子,jitter=True为了使得数据尽量分开 2. sns.swarmplot画出圣诞树的样子,hue='sex' 加入一种新的分类属性 3.绘制盒图阅读全文

posted @ 2019-01-09 17:00 python我的最爱阅读(954) 评论(0) 推荐(0)

可视化库-seaborn-回归分析绘图(第五天)

摘要：1. sns.regplot() 和 sns.lmplot() 绘制回归曲线 2. 对于离散的变量来说，可以添加x_jitter产生随机的偏移阅读全文

posted @ 2019-01-09 16:25 python我的最爱阅读(544) 评论(0) 推荐(0)

可视化库-seaborn-单变量绘图(第五天)

摘要：1. sns.distplot 画直方图 2. 查看数据分布情况，画出概率密度曲线 fit=stats.gamma 3.sns.jointplot() #绘制带直方图的散点图，对于sns最好是转换为df形式 4.sns.jointplot(kind='hex') # 画出散点图的分布颜色的图 5. 阅读全文

posted @ 2019-01-09 16:05 python我的最爱阅读(443) 评论(0) 推荐(0)

可视化库-seaborn-布局风格设置(第五天)

摘要：1. sns.set_style() 进行风格设置, sns.set() 进行设置的重置，五种风格 2. 使用sns.boxplot 绘制盒图 3. sns.despine(left=True) 去除左边的框图 4. 风格细节设置, sns.violinplot画小提琴图， despine(off 阅读全文

posted @ 2019-01-09 12:25 python我的最爱阅读(1340) 评论(0) 推荐(0)

可视化库-Matplotlib-Pandas与sklearn结合(第四天)

摘要：1. 计算每一种的比例的百分比 2. 通过pd将数据导入，进行缺失值补充，画出特征的PCA图阅读全文

posted @ 2019-01-08 17:23 python我的最爱阅读(482) 评论(0) 推荐(0)

可视化库-Matplotlib-3D图(第四天)

摘要：1. 画三维图片图 axes = Axes3D(fig)这一步将二维坐标转换为三维坐标，axes.plot_surface() 2. 构造三维坐标系的两种方法，同时画三维曲线图ax=fig.add_subplot(111, projection='3d') ax = fig.gca(project 阅读全文

posted @ 2019-01-08 15:15 python我的最爱阅读(590) 评论(0) 推荐(0)

可视化库-Matplotlib基础设置(第三天)

摘要：1.画一个基本的图 2. 画多条直线 3. linewidth指定线条的宽度，marker='o', markerfacecolor表示mark颜色，markersize # 表示标志物的大小 4. plt.setp(line, color='r', linewidth=2.0, alpha=0.5 阅读全文

posted @ 2019-01-07 21:47 python我的最爱阅读(603) 评论(0) 推荐(1)

np归纳总结(全)第一天

摘要：1.概述 1.np.array() # 将列表转换为数组 2..shape # 打印矩阵的维度, 也可以使用np.shape 2.array 结构 3.dtype 打印数组的数据类型 4. .itemsize # 判断数组中每一个数字所占的字节数 5. .size # 打印出数组中的元素个数, 不关阅读全文

posted @ 2019-01-04 19:12 python我的最爱阅读(4467) 评论(2) 推荐(1)

序列化和反序列化（json 和pickle）dumps 为序列化， json为反序列化

摘要：json 可以在不同语言中进行使用下面先介绍一下json的适用方法 pickle 只能在python中使用 json 和 pickle 的语法相同，pickle 可以用来传递函数下面以pickle为例序列化.py 对于json.dumps 和 json.loads 而言最好是每次转换只出现阅读全文

posted @ 2018-05-16 21:48 python我的最爱阅读(315) 评论(0) 推荐(0)

随笔分类 - python基础