随笔分类 - Data
摘要:问题 需要情形下,需要将一个区间映射到另一个区间。如将0 1映射到10 32之间,应该如何设计算法? 场景1 比如某大学教师在学校规定的挂科机率下进行期末考试,如果学生都考得很差,那么他就需要根据适当的形式去调整学生的成绩。 比如,学生的成绩普遍较差,分布在20分到65分之间,那么需要映射到55 1
阅读全文
摘要:背景 租售比是指 每平方米使用面积的月租金 与 每平方米建筑面积的房价之间 的比值 代码 python def RSR(r,a,p): """租售比评价 Attribute: r 每月总租金 a 房屋总建筑面积 p 房屋每平方米价格 注:租售比是指 与 的比值,一般而言, 1:200~1:300;良
阅读全文
摘要:首先查看数据形态: 再查看数据类型和非空值的个数与比例 使用SimpleImputer进行填补 默认是用均值进行填补,参数如下: missing_values: 空值的类型。默认np.nan 注意,numpy自带的fillna只能填补np.nan,而此处则可以指定空值的类型。比如 或 strateg
阅读全文
摘要:学习曲线的目的是选择更好的模型参数。以最近邻算法为例,选取最近的多少个数据点,才能达到最优。可以控制训练集不动,调整最近的点的个数,绘制学习曲线。 结果: 可以找出最大值所在的索引,找出最佳的k值选择点: 输出: 8 0.935672514619883
阅读全文
摘要:二值化 设置一个condition,把连续型的数据分类两类。比如Age,大于30,和小于30。 这是x中 30的设置为1,其他的设置为0. 标签 有时数据可能需要对数据进行分箱化处理,或者给不同的数据设置不同的标签。 可以在l对象,用classes_属性,查看总共有多少类。 label中就是处理过的
阅读全文
摘要:基本原理 Kmeans是无监督学习的代表,没有所谓的Y。主要目的是分类,分类的依据就是样本之间的距离。比如要分为K类。步骤是: 1. 随机选取K个点。 2. 计算每个点到K个质心的距离,分成K个簇。 3. 计算K个簇样本的平均值作新的质心 4. 循环2、3 5. 位置不变,距离完成 距离 Kmean
阅读全文
摘要:准备 相关的库 相关的库包括: numpy pandas sklearn 带入代码如下: 数据准备 数据是sklearn的乳腺癌数据。 data主要分为两部分: 和`target DataFrame`中可查看基本形状。 的数据其形式比较固定, 的主要属性有: 。数据,即变量的值,多行多列 。目标,即
阅读全文