2019年2月27日

kaggle教程--python基础

摘要: 循环和列表推导式(Loops and List Comprehensions) 例1:求列表的平方 squares = [n**2 for n in range(10)]squares[0, 1, 4, 9, 16, 25, 36, 49, 64, 81] 例2:求列表中字母少于6的单词 short 阅读全文

posted @ 2019-02-27 10:57 wangzhonghan 阅读(178) 评论(0) 推荐(0)

2019年2月26日

kaggle教程--2--模型评估

摘要: 1 平均绝对误差(Mean Absolute Error)(MAE) from sklearn.metrics import mean_absolute_error predicted_home_prices = melbourne_model.predict(X)mean_absolute_err 阅读全文

posted @ 2019-02-26 15:10 wangzhonghan 阅读(423) 评论(0) 推荐(0)

2019年2月25日

kaggle教程--1--建模

摘要: 1 This step of capturing patterns from data is called fitting or training the model. The data used to fit the model is called the training data. 1 从数据 阅读全文

posted @ 2019-02-25 14:08 wangzhonghan 阅读(166) 评论(0) 推荐(0)

Kobe Bryant Shot Selection---心得总结

摘要: 分析特征 1 用图形显示loc_x, loc_y,得出其是球场上坐标 2 将loc_x, loc_y转化为极坐标 3 将minutes_remaining and seconds_remaining这两个属性合并 4 通过nona.action_type.unique()命令,查看action_ty 阅读全文

posted @ 2019-02-25 10:28 wangzhonghan 阅读(321) 评论(0) 推荐(0)

2019年2月22日

Kobe Bryant Shot Selection---不理解的代码

摘要: https://www.kaggle.com/dixhom/data-analysis-for-beginners/notebookKobe_Bryant_Shot_Selection.py#这一段画图的代码不太理解import matplotlib.cm as cm plt.figure(figs 阅读全文

posted @ 2019-02-22 11:03 wangzhonghan 阅读(184) 评论(0) 推荐(0)

2019年2月21日

Kobe Bryant Shot Selection---1

摘要: data = pd.read_csv('data.csv')print(data.info()) #显示多少行 多少列 每列的数据类型 set(data['shot_type'].tolist()) #显示这一列有哪几种数据 data['shot_type'].value_counts()#显示这一 阅读全文

posted @ 2019-02-21 15:37 wangzhonghan 阅读(383) 评论(0) 推荐(0)

2019年2月18日

第5章 挖掘建模

摘要: 5.1 分类与预测 分类属于有监督学习 分类算法过程: 1 训练样本集建立模型 2 用测试集评估模型准确率,如果可以接受,再用该模型对未知标号的待测样本集进行预测 常用分类与预测算法 回归分析,决策树,人工神经网络,贝叶斯网络,支持向量机 回归分析:通过建立模型来研究变量之间相互关系的有效工具 常用 阅读全文

posted @ 2019-02-18 15:09 wangzhonghan 阅读(253) 评论(0) 推荐(0)

2019年2月13日

数据预处理

摘要: 数据预处理:数据清洗,数据集成,数据变换,数据规约 数据清洗 1 缺失值处理:删除记录,数据插补,不处理 数据插补:拉格朗日插值法(P63 4-1_lagrange_newton_interp.py),牛顿插值法,回归方法,临近插补法,均值插补法等 2 异常值处理:删除记录,视为缺失值,平均值修正, 阅读全文

posted @ 2019-02-13 14:46 wangzhonghan 阅读(248) 评论(0) 推荐(0)

2019年2月12日

数据探索--数据特征分析

摘要: 分布分析 1 定量数据的分布分析方法:频率分布表,频率分布直方图,茎叶图(P38例子 3-1_abnormal_check.py) 2 定性分类数据分析方法:饼图,条形图 对比分析 1 绝对数比较 2 相对数比较 统计量分析 1 集中趋势度量:均值 中位数 众数 2 离中趋势度量:极差 标准差 变异 阅读全文

posted @ 2019-02-12 15:10 wangzhonghan 阅读(184) 评论(0) 推荐(0)

2019年2月11日

代码分析

摘要: 3-1_abnormal_check.py 读入数据,指定索引列,画箱线图,检查数据异常值 3-2_statistics_analyze.py 统计量分析,极差,变异系数,四分位数间距,过滤异常数据 3-3_dish_pareto.py 贡献度分析,画帕累托图 3-4_correlation_ana 阅读全文

posted @ 2019-02-11 14:56 wangzhonghan 阅读(181) 评论(0) 推荐(0)

导航