上一页 1 2 3 4 5 6 ··· 13 下一页
摘要: 特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。 拿到一份新的数据,需要对特征进行一定的处理使其变成我们可用的数据,具体应该怎么做呢?下面是我整理的分析思路。 特征使用方案 拿到数据之前,需要结合业务经验、市场预分析对数据里需要使用的特征进行预筛选,初步确定对因变量可能有影响 阅读全文
posted @ 2024-03-04 15:40 土星狗蛋 阅读(86) 评论(0) 推荐(0)
摘要: 今世界数据库容易受到噪声、缺失值、不一致数据困扰,低质量数据会导致低质量的挖掘结果。 数据集成 将数据由多个数据源合并成一个一致的数据存储 数据规约可以通过将聚集删除荣誉特征或者聚类来降低数据大规模。 数据质量:数据的准确性、完整性、一致性、时效性、可信性、可解释性 不完整的:缺少属性值或者某些感兴 阅读全文
posted @ 2024-03-04 10:19 土星狗蛋 阅读(267) 评论(0) 推荐(0)
摘要: 数据特性: 均值 中位数 众数 中心趋势度量 这些基本统计量有助于 数据预处理时 填补空缺值、光滑噪声、识别离群点。 考察数据对象的"相似性/相异性" 可以用于检测最近邻分类 数据对象:一个实体(样本 实例 数据点) 属性:一个数据字段 特征 变量 维度 单变量 双变量 标称属性:与名称相关,是一些 阅读全文
posted @ 2024-01-30 18:31 土星狗蛋 阅读(147) 评论(0) 推荐(0)
摘要: 数据挖掘:把大型的数据集转换成知识。 流感趋势:搜索项作为流感活动的指示器。(如Google) 数据挖掘与知识发现:分类、聚类、离群点分析、关联与相关性、比较汇总、判别分析、模式发现、趋势与偏差分析等。 数据挖掘顺序: (1)数据清理 消除噪声、删除不一致的数据 (2)数据集成 多种数据源可以组合在 阅读全文
posted @ 2024-01-27 02:30 土星狗蛋 阅读(51) 评论(0) 推荐(0)
摘要: 在做concat操作的时候,出现了这样的错误: Shape of passed values is (8, 51), indices imply (6, 51) 经过检查是因为数据前面使用过append,index是不一样的;在concat的时候是根据默认的index进行拼接的;因此需要进行rese 阅读全文
posted @ 2023-03-02 11:20 土星狗蛋 阅读(343) 评论(0) 推荐(0)
摘要: 1、不公平性 由于数据组的分布不均匀(与真实场景分布不一致),会导致真实的预测结果会有一些“偏见”。在引入使用的预测特征时需要更加结合真实场景需求。 2、因果偏差 相关关系误用为因果关系或者因果关系建立不合理时会产生因果偏差。(非常重要 相关性 不等于因果性) 3、公平性 (1)意识公平性:是否显示 阅读全文
posted @ 2023-01-09 17:00 土星狗蛋 阅读(107) 评论(0) 推荐(0)
摘要: 因为工作原因,需要进行因果推断的分析,在这里进行一个DoWhy工具的简单入门。 分析入口:https://github.com/py-why/dowhy/blob/main/docs/source/example_notebooks/dowhy_example_effect_of_memberrew 阅读全文
posted @ 2022-12-13 19:06 土星狗蛋 阅读(782) 评论(0) 推荐(0)
摘要: 直接进行一个cf的查询自用字典1、对读入的文件 进行一个数据的写入特征指定 比如一串全是数字的文本 可能会被读成int float 需要指定类型data_set = pd.read_csv(file_name, encoding='utf8',dtype={'kol_id':str})2、数据集划分 阅读全文
posted @ 2022-11-07 15:38 土星狗蛋 阅读(38) 评论(0) 推荐(0)
摘要: 最终目的是学习一个模型使其更加接近这个真实模型。 方差的含义:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 偏差的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。 噪声的含义:噪声则表达了在当前任务上任何学习算法所能达 阅读全文
posted @ 2022-10-14 17:53 土星狗蛋 阅读(659) 评论(0) 推荐(0)
摘要: # encoding:utf-8 import requests import pandas as pd import urllib3 urllib3.disable_warnings() Lists_tot = [] T = "" for i in range(0, 1): header = {' 阅读全文
posted @ 2022-10-11 14:24 土星狗蛋 阅读(91) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 13 下一页