土星狗蛋 - 博客园

2022年10月8日

摘要：最近在弄这个需要弄明白这些原理我要知道为什么要这么做如何做有什么类型如何对比做了前后然后加到报告里包含part：原理处理前处理后大多数的参数统计数值，如均值、标准差、相关系数等，以及基于这些参数的统计分析，均对离群值高度敏感。因此，离群值的存在会对数据分析造成极大影响。离群值阅读全文

posted @ 2022-10-08 16:59 土星狗蛋阅读(2442) 评论(0) 推荐(0)

2022年9月6日

【读文章】2-特征编码的一些总结-推荐系统、数据挖掘、特征工程

摘要：特征处理编码：数据类型：数值字符是否有顺序类别数量：高低基数1、独热编码针对无序低基数类离散特征，使之变为哑特征不适合高基数的特征2、标签编码：针对无序低基数类型的离散特征形式简单且对于低基数特征有效3、woe编码：代表特征对于y标签的预测能力，常用于描述区分好坏客户的衡量标准 4、平均数编码阅读全文

posted @ 2022-09-06 02:37 土星狗蛋阅读(151) 评论(0) 推荐(0)

2022年9月1日

【读论文】1-关于流媒体预测-推荐系统、数据挖掘

摘要：一些有意思的点： 1、使用推荐算法根据用户预测的热度结果累加，作为最终预测的实体热度 2、根据实际需求，指定两个模型评判的标准：数值型，直接和数值比较；分类型，看能否映射到特定区间 3、均方误差：均方根误差：平方误差：对异常值有更大权重异常值有的情况下看maeR平方：展示背离程度、实际预测的线阅读全文

posted @ 2022-09-01 19:26 土星狗蛋阅读(44) 评论(0) 推荐(0)

2022年8月30日

将包含三元组数据表转为以某一维度的特征数据为列表头的csv - 数据转格式化处理

摘要： ############################## #统计特征SB下XX数据有几个，并保存 #适用于 #featureA featureB featureC #SDF 345 TA #SDF 976 TB #KKj 3 TA #KKj 43 TB #想转为 #featureA TA TB 阅读全文

posted @ 2022-08-30 15:07 土星狗蛋阅读(60) 评论(0) 推荐(0)

将数据进行聚合操作之统计同特征下同字段的数量并保存为数据集合 - 数据转格式化处理

摘要： ############################## #统计特征SB下XX数据有几个，并保存 #适用于 #featureA featureB #SDF 345 #SDF 976 #KKj 3 #KKj 43 #KKj 34556 #想转为 #featureA 写进数据集的特征名 #SDF 2 阅读全文

posted @ 2022-08-30 11:56 土星狗蛋阅读(89) 评论(0) 推荐(0)

将获取的['json字段'] 转为csv 文件 - 数据转格式化处理

摘要：用到的函数： 1、eval(): eval()函数常被称为评估函数，它的功能是去掉参数最外侧引号，变成python可执行的语句，并执行语句的函数。 2、isinstance(): isinstance() 函数来判断一个对象是否是一个已知的类型。 ########################## 阅读全文

posted @ 2022-08-30 11:47 土星狗蛋阅读(219) 评论(0) 推荐(0)

2022年8月17日

摸鱼喽哈哈！！！8.17 写了就是我的

摘要： 1、一个数组，有很多个字典长这样： data_list=[{'Type1':114,'Type2':514},{'Type1':1919,'Type2':810}] 一般json获取的数据，就可能会长成这个样子，问题不大可以直接df一下： import pandas as pd for i in 阅读全文

posted @ 2022-08-17 11:48 土星狗蛋阅读(24) 评论(0) 推荐(0)

2022年8月12日

写了就是我的了 8.12

摘要： 1、包含[[],[],[],]的list，转为dataframe的写法： dft=pd.DataFrame(Lists_tot[1:],columns=Lists_tot[0]) 2、字典转为list： list2=list(t1.values()) 保留值字段 lists=list(t1)保留k 阅读全文

posted @ 2022-08-12 11:37 土星狗蛋阅读(32) 评论(0) 推荐(0)

2022年6月20日

遍历生成dataframe

摘要：真丢人我居然不会写这个今天整理了赶紧加上去生成数据的分布观察指定列 def read_data_range(df,step,ranges,type): # step=100000 #,'分位数 25','分位数 50','分位数 75','标准差' dff = pd.DataFrame(co 阅读全文

posted @ 2022-06-20 11:22 土星狗蛋阅读(124) 评论(0) 推荐(0)

不科学计数法

摘要：哈哈我真的服了次次都要改这个 import pandas as pd pd.set_option('display.float_format',lambda x:'%.3f' %x) 阅读全文

posted @ 2022-06-20 10:19 土星狗蛋阅读(37) 评论(0) 推荐(0)

来了

干！

公告