随笔分类 -  数据挖掘

摘要:特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。 拿到一份新的数据,需要对特征进行一定的处理使其变成我们可用的数据,具体应该怎么做呢?下面是我整理的分析思路。 特征使用方案 拿到数据之前,需要结合业务经验、市场预分析对数据里需要使用的特征进行预筛选,初步确定对因变量可能有影响 阅读全文
posted @ 2024-03-04 15:40 土星狗蛋 阅读(91) 评论(0) 推荐(0)
摘要:因为工作原因,需要进行因果推断的分析,在这里进行一个DoWhy工具的简单入门。 分析入口:https://github.com/py-why/dowhy/blob/main/docs/source/example_notebooks/dowhy_example_effect_of_memberrew 阅读全文
posted @ 2022-12-13 19:06 土星狗蛋 阅读(795) 评论(0) 推荐(0)
摘要:直接进行一个cf的查询自用字典1、对读入的文件 进行一个数据的写入特征指定 比如一串全是数字的文本 可能会被读成int float 需要指定类型data_set = pd.read_csv(file_name, encoding='utf8',dtype={'kol_id':str})2、数据集划分 阅读全文
posted @ 2022-11-07 15:38 土星狗蛋 阅读(42) 评论(0) 推荐(0)
摘要:最终目的是学习一个模型使其更加接近这个真实模型。 方差的含义:方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 偏差的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。 噪声的含义:噪声则表达了在当前任务上任何学习算法所能达 阅读全文
posted @ 2022-10-14 17:53 土星狗蛋 阅读(669) 评论(0) 推荐(0)
摘要:最近在弄这个 需要弄明白这些原理 我要知道为什么要这么做 如何做 有什么类型 如何对比做了前后 然后加到报告里 包含part:原理 处理前 处理后 大多数的参数统计数值,如均值、标准差、相关系数 等,以及基于这些参数的统计分析,均对离群值高度敏感。因此,离群值的存在会对数据分析造成极大影响。 离群值 阅读全文
posted @ 2022-10-08 16:59 土星狗蛋 阅读(2440) 评论(0) 推荐(0)
摘要:下载直接pip install就行 直接挂简单样例代码 import elasticsearch import os import re import json import time from elasticsearch.helpers import bulk # # def es_login(h 阅读全文
posted @ 2021-08-24 17:52 土星狗蛋 阅读(169) 评论(0) 推荐(0)