数据挖掘 - 随笔分类 - 土星狗蛋

特征工程思路

摘要：特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限。拿到一份新的数据，需要对特征进行一定的处理使其变成我们可用的数据，具体应该怎么做呢？下面是我整理的分析思路。特征使用方案拿到数据之前，需要结合业务经验、市场预分析对数据里需要使用的特征进行预筛选，初步确定对因变量可能有影响阅读全文

posted @ 2024-03-04 15:40 土星狗蛋阅读(115) 评论(0) 推荐(0)

DoWhy - 因果推断建模入门简单样例学习与解读

摘要：因为工作原因，需要进行因果推断的分析，在这里进行一个DoWhy工具的简单入门。分析入口：https://github.com/py-why/dowhy/blob/main/docs/source/example_notebooks/dowhy_example_effect_of_memberrew 阅读全文

posted @ 2022-12-13 19:06 土星狗蛋阅读(827) 评论(0) 推荐(0)

pandas笔记熟练使用 df

摘要：直接进行一个cf的查询自用字典1、对读入的文件进行一个数据的写入特征指定比如一串全是数字的文本可能会被读成int float 需要指定类型data_set = pd.read_csv(file_name, encoding='utf8',dtype={'kol_id':str})2、数据集划分阅读全文

posted @ 2022-11-07 15:38 土星狗蛋阅读(54) 评论(0) 推荐(0)

泛化误差的理解

摘要：最终目的是学习一个模型使其更加接近这个真实模型。方差的含义：方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。偏差的含义：偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。噪声的含义：噪声则表达了在当前任务上任何学习算法所能达阅读全文

posted @ 2022-10-14 17:53 土星狗蛋阅读(690) 评论(0) 推荐(0)

数据挖掘-报告细说离群值处理

摘要：最近在弄这个需要弄明白这些原理我要知道为什么要这么做如何做有什么类型如何对比做了前后然后加到报告里包含part：原理处理前处理后大多数的参数统计数值，如均值、标准差、相关系数等，以及基于这些参数的统计分析，均对离群值高度敏感。因此，离群值的存在会对数据分析造成极大影响。离群值阅读全文

posted @ 2022-10-08 16:59 土星狗蛋阅读(2480) 评论(0) 推荐(0)

Elasticsearch 入门：简单实例

摘要：下载直接pip install就行直接挂简单样例代码 import elasticsearch import os import re import json import time from elasticsearch.helpers import bulk # # def es_login(h 阅读全文

posted @ 2021-08-24 17:52 土星狗蛋阅读(175) 评论(0) 推荐(0)

来了

干！

随笔分类 - 数据挖掘

公告