摘要: 正则化是一种常用的机器学习技术,用于防止模型过拟合。当训练模型时,如果模型过于复杂或者训练数据较少,就容易导致过拟合现象,即模型在训练数据上表现很好,但在新数据上表现较差。为了解决这个问题,可以引入正则化技术。 正则化通过在损失函数中添加一个正则项来实现,这个正则项通常是模型参数的范数。常见的正则化 阅读全文
posted @ 2024-03-09 23:55 -DP- 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 分类是一种重要的数据分析形式,提取刻画重要数据类的模型。 分类器:用预测类标号 数据分类:学习阶段(构建分类模型)与分类阶段(使用模型预测给定数据的类标号) 训练集:由数据库元组和与它们相关联的类标号组成。元组X用n维属性向量X=(x1,x2,...,xn)表示。分别描述元组在n个数据库属性A1,A 阅读全文
posted @ 2024-03-07 13:27 -DP- 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 整理一下之前工作常用的一些基础sql语句。 查询语句 1、SELECT:用于从数据库中查询数据。可以选择要查询的列,并使用逗号分隔多个列。 SELECT * FROM users; 2、WHERE:用于指定查询条件。可以使用WHERE子句来过滤查询结果,只返回满足特定条件的行。 SELECT * F 阅读全文
posted @ 2024-03-05 12:38 -DP- 阅读(6) 评论(0) 推荐(0) 编辑
摘要: ***关联推荐! 频繁模式:频繁地出现在数据集中的模式,给出数据集中反复出现的联系。 频繁序列模式:如 有序购买一系列产品 频繁结构模式:如 组合购买产品 sample 购物篮分析:通过发现顾客放入他们购物篮中的商品之间的关联,分析顾客的购物习惯,这种关联度发现可以帮助零售商在哪些商品频繁被顾客同时 阅读全文
posted @ 2024-03-05 11:49 -DP- 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。 拿到一份新的数据,需要对特征进行一定的处理使其变成我们可用的数据,具体应该怎么做呢?下面是我整理的分析思路。 特征使用方案 拿到数据之前,需要结合业务经验、市场预分析对数据里需要使用的特征进行预筛选,初步确定对因变量可能有影响 阅读全文
posted @ 2024-03-04 15:40 -DP- 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 今世界数据库容易受到噪声、缺失值、不一致数据困扰,低质量数据会导致低质量的挖掘结果。 数据集成 将数据由多个数据源合并成一个一致的数据存储 数据规约可以通过将聚集删除荣誉特征或者聚类来降低数据大规模。 数据质量:数据的准确性、完整性、一致性、时效性、可信性、可解释性 不完整的:缺少属性值或者某些感兴 阅读全文
posted @ 2024-03-04 10:19 -DP- 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 数据特性: 均值 中位数 众数 中心趋势度量 这些基本统计量有助于 数据预处理时 填补空缺值、光滑噪声、识别离群点。 考察数据对象的"相似性/相异性" 可以用于检测最近邻分类 数据对象:一个实体(样本 实例 数据点) 属性:一个数据字段 特征 变量 维度 单变量 双变量 标称属性:与名称相关,是一些 阅读全文
posted @ 2024-01-30 18:31 -DP- 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 数据挖掘:把大型的数据集转换成知识。 流感趋势:搜索项作为流感活动的指示器。(如Google) 数据挖掘与知识发现:分类、聚类、离群点分析、关联与相关性、比较汇总、判别分析、模式发现、趋势与偏差分析等。 数据挖掘顺序: (1)数据清理 消除噪声、删除不一致的数据 (2)数据集成 多种数据源可以组合在 阅读全文
posted @ 2024-01-27 02:30 -DP- 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 在做concat操作的时候,出现了这样的错误: Shape of passed values is (8, 51), indices imply (6, 51) 经过检查是因为数据前面使用过append,index是不一样的;在concat的时候是根据默认的index进行拼接的;因此需要进行rese 阅读全文
posted @ 2023-03-02 11:20 -DP- 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 1、不公平性 由于数据组的分布不均匀(与真实场景分布不一致),会导致真实的预测结果会有一些“偏见”。在引入使用的预测特征时需要更加结合真实场景需求。 2、因果偏差 相关关系误用为因果关系或者因果关系建立不合理时会产生因果偏差。(非常重要 相关性 不等于因果性) 3、公平性 (1)意识公平性:是否显示 阅读全文
posted @ 2023-01-09 17:00 -DP- 阅读(44) 评论(0) 推荐(0) 编辑