摘要: 1. 数据清洗 1.1 数据质量概念 数据清洗是保证数据质量的重要步骤,数据质量最重要的方面是准确性、完整性、一致性,其次还有时效性、可信性、可解释性。 数据质量对于数据的不同适用对象而言重要性不同。 数据质量问题有很多源头: 人为性问题: 人为的偶然因素:如记忆偏差、测量偏差; 人为的系统因素:采 阅读全文
posted @ 2020-04-10 21:40 MO_JOJOJO 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 0. 需求 当训练的数据非常多时,是不希望分配过多的内存将数据存入,否则其他占用内存的数据处理步骤就没法进行了。我们最好是以小批量地方式读入数据,然后预处理,然后送到网络,之后释放内存,以此循环。 1. 方法的简要说明 tf.keras中有一个高度封装的图片预处理类:ImageDataGenerat 阅读全文
posted @ 2020-04-10 02:14 MO_JOJOJO 阅读(1031) 评论(0) 推荐(0) 编辑
摘要: 最好用的时间序列处理工具是pandas,它里面的各个主要的类继承了性能很好的np.datetime64,基于它构建的时间类型的数组能够实现快速的向量化运算。pandas处理时间序列支持的功能:解析来自各种来源和格式的时间序列信息生成固定频率日期和时间范围的序列使用时区信息处理和转换日期时间将时间序列 阅读全文
posted @ 2020-04-07 17:12 MO_JOJOJO 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 来看一看美化后的jupyter notebook代码字体比默认的宋体好看,是吧本机chorme浏览器的外观设置下载地址链接:https://pan.baidu.com/s/197IVMCkhTlEUr63QGkFjUw 提取码:jodc安装方法打开‘控制面板’ → ‘外观与个性化’→‘字体’→“将字 阅读全文
posted @ 2020-04-07 10:47 MO_JOJOJO 阅读(839) 评论(0) 推荐(0) 编辑
摘要: 转载知乎: https://zhuanlan.zhihu.com/p/58749285 这个工具类似R shiny 、tableau。 感觉适合用于做一些轻量级dashboard之类的数据透视性质的展示(之后我找个数据自己尝试着做一个demo),Rshiny写起来还是比较麻烦的因为语法不美观,tab 阅读全文
posted @ 2020-04-06 20:48 MO_JOJOJO 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: 地名地址解析可用于: 地址型分类变量的概念分层 空间可视化:解析坐标 代码及预览 https://github.com/JoJoJohnSnow/JPnotes/blob/master/notes/%E5%9C%B0%E5%9D%80%E5%9C%B0%E5%90%8D%E8%A7%A3%E6%9E 阅读全文
posted @ 2020-04-06 18:48 MO_JOJOJO 阅读(3706) 评论(0) 推荐(0) 编辑
摘要: 将notebook文件上传至github 在github中打开文件. 复制地址. 打开jupyter nbviever网址, 产生新的网址 在markdown模式下用下列代码嵌入jupyter notebook: <iframe src="jupyter nbviewer得到的新网址" width= 阅读全文
posted @ 2020-04-06 16:23 MO_JOJOJO 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 这4种模型是集成模型中的提升树类别。(其他的类别还有装袋树(如RandomForest)、模型堆叠(stack)) 基于树模型的boosting方法是常用的,因为树模型相较于线性模型有更强的非线性拟合的能力。 其中xgboost、lightgbm在众多的数据竞赛中表现出优秀的预测能力。 (本文通俗地 阅读全文
posted @ 2020-04-05 13:38 MO_JOJOJO 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 实体嵌入(embedding)目的将表格数据中的分类属性(一个至多个)向量化。 1.实体嵌入简介: 实体嵌入是主要应用于深度学习中处理表格分类数据的一种技术,或者更确切地说NLP领域最为常用,word2vec就是在做词的实体嵌入。 神经网络相比于当下的流行的xgboost、LGBM等树模型并不能很好 阅读全文
posted @ 2020-04-05 00:06 MO_JOJOJO 阅读(2505) 评论(0) 推荐(0) 编辑
摘要: 类不平衡问题是分类任务中常遇到的问题,有的时候标签的真实数据分布本身就是不平衡的。如何改善类不平衡问题,参考《applied predictive modeling》p290-p300,给出以下方案。有2个角度:数据角度、模型训练角度 数据角度 1.调整样本权重 这种方法主要是在提升法为基础的算法中 阅读全文
posted @ 2020-04-04 22:54 MO_JOJOJO 阅读(1180) 评论(0) 推荐(0) 编辑