摘要: 一 data structure 1.vector: a single entity consisting of an ordered collection of numbers x <- c(10.4, 5.6, 3.1, 6.4, 21.7) 等价于 c(10.4, 5.6, 3.1, 6.4, 阅读全文
posted @ 2022-09-12 14:04 May酱的blog 阅读(33) 评论(0) 推荐(0)
摘要: Some people think that printed books are no longer needed in a digital era because all writing can be stored electronically. Others think that printed 阅读全文
posted @ 2022-09-10 20:18 May酱的blog 阅读(763) 评论(0) 推荐(0)
摘要: 1.交叉验证测量准确率 在模型训练中,若使用全部的训练数据进行一次训练,可能会出现预测精度非常高的情况,此时应警惕出现了过拟合。因为在对模型效果进行评估时,可以考虑使用K折交叉验证。 采用分层抽样的方法将数据集分为k份,其中k-1份用于训练,剩余1份用于测试,共训练k次,使用k个测试结果的均值。 m 阅读全文
posted @ 2022-01-28 20:53 May酱的blog 阅读(182) 评论(0) 推荐(0)
摘要: 对一个表格类数据集进行数据分析,常常有以下几个步骤: 1.数据总览 读取数据集并了解数据集大小,原始特征维度 查看特征的数据类型和基本统计量 2.缺失值和唯一值 查看数据缺失情况 查看唯一值特征情况 3.深入数据 类别型数据 数值型数据(离散型、连续型) 4.数据间相关关系 特征与特征之间 特征与目 阅读全文
posted @ 2022-01-27 09:12 May酱的blog 阅读(2490) 评论(0) 推荐(0)
摘要: seaborn是建立matplotlib基础上,便于处理pandas数据结构的可视化库。 import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plt %matplot 阅读全文
posted @ 2022-01-25 16:45 May酱的blog 阅读(557) 评论(0) 推荐(0)