MO_JOJOJO

2020年4月10日

摘要： 1. 数据清洗 1.1 数据质量概念数据清洗是保证数据质量的重要步骤，数据质量最重要的方面是准确性、完整性、一致性，其次还有时效性、可信性、可解释性。数据质量对于数据的不同适用对象而言重要性不同。数据质量问题有很多源头：人为性问题：人为的偶然因素：如记忆偏差、测量偏差；人为的系统因素：采阅读全文

posted @ 2020-04-10 21:40 MO_JOJOJO 阅读(614) 评论(0) 推荐(0) 编辑

tf.keras 用生成器读取图片数据+预处理

摘要： 0. 需求当训练的数据非常多时，是不希望分配过多的内存将数据存入，否则其他占用内存的数据处理步骤就没法进行了。我们最好是以小批量地方式读入数据，然后预处理，然后送到网络，之后释放内存，以此循环。 1. 方法的简要说明 tf.keras中有一个高度封装的图片预处理类：ImageDataGenerat 阅读全文

posted @ 2020-04-10 02:14 MO_JOJOJO 阅读(1038) 评论(0) 推荐(0) 编辑

2020年4月7日

pandas时间序列操作

摘要：最好用的时间序列处理工具是pandas，它里面的各个主要的类继承了性能很好的np.datetime64，基于它构建的时间类型的数组能够实现快速的向量化运算。pandas处理时间序列支持的功能：解析来自各种来源和格式的时间序列信息生成固定频率日期和时间范围的序列使用时区信息处理和转换日期时间将时间序列阅读全文

posted @ 2020-04-07 17:12 MO_JOJOJO 阅读(487) 评论(0) 推荐(0) 编辑

jupyter notebook 字体美化

摘要：来看一看美化后的jupyter notebook代码字体比默认的宋体好看，是吧本机chorme浏览器的外观设置下载地址链接：https://pan.baidu.com/s/197IVMCkhTlEUr63QGkFjUw 提取码：jodc安装方法打开‘控制面板’ → ‘外观与个性化’→‘字体’→“将字阅读全文

posted @ 2020-04-07 10:47 MO_JOJOJO 阅读(845) 评论(0) 推荐(0) 编辑

2020年4月6日

python响应式的数据可视化工具Dash

摘要：转载知乎： https://zhuanlan.zhihu.com/p/58749285 这个工具类似R shiny 、tableau。感觉适合用于做一些轻量级dashboard之类的数据透视性质的展示（之后我找个数据自己尝试着做一个demo），Rshiny写起来还是比较麻烦的因为语法不美观，tab 阅读全文

posted @ 2020-04-06 20:48 MO_JOJOJO 阅读(1217) 评论(0) 推荐(0) 编辑

python 地名地址解析（省、市、区县）

摘要：地名地址解析可用于：地址型分类变量的概念分层空间可视化：解析坐标代码及预览 https://github.com/JoJoJohnSnow/JPnotes/blob/master/notes/%E5%9C%B0%E5%9D%80%E5%9C%B0%E5%90%8D%E8%A7%A3%E6%9E 阅读全文

posted @ 2020-04-06 18:48 MO_JOJOJO 阅读(3737) 评论(0) 推荐(0) 编辑

将jupyter notebook嵌入博客园的博客

摘要：将notebook文件上传至github 在github中打开文件. 复制地址. 打开jupyter nbviever网址, 产生新的网址在markdown模式下用下列代码嵌入jupyter notebook: <iframe src="jupyter nbviewer得到的新网址" width= 阅读全文

posted @ 2020-04-06 16:23 MO_JOJOJO 阅读(316) 评论(0) 推荐(0) 编辑

2020年4月5日

Adaboost、GBDT、xgboost的原理基础

摘要：这4种模型是集成模型中的提升树类别。（其他的类别还有装袋树（如RandomForest）、模型堆叠（stack））基于树模型的boosting方法是常用的，因为树模型相较于线性模型有更强的非线性拟合的能力。其中xgboost、lightgbm在众多的数据竞赛中表现出优秀的预测能力。（本文通俗地阅读全文

posted @ 2020-04-05 13:38 MO_JOJOJO 阅读(566) 评论(0) 推荐(0) 编辑

数据预处理：分类变量实体嵌入做特征提取

摘要：实体嵌入（embedding）目的将表格数据中的分类属性（一个至多个）向量化。 1.实体嵌入简介：实体嵌入是主要应用于深度学习中处理表格分类数据的一种技术，或者更确切地说NLP领域最为常用，word2vec就是在做词的实体嵌入。神经网络相比于当下的流行的xgboost、LGBM等树模型并不能很好阅读全文

posted @ 2020-04-05 00:06 MO_JOJOJO 阅读(2683) 评论(0) 推荐(0) 编辑

2020年4月4日

类不平衡问题的处理办法

摘要：类不平衡问题是分类任务中常遇到的问题，有的时候标签的真实数据分布本身就是不平衡的。如何改善类不平衡问题，参考《applied predictive modeling》p290-p300，给出以下方案。有2个角度：数据角度、模型训练角度数据角度 1.调整样本权重这种方法主要是在提升法为基础的算法中阅读全文

posted @ 2020-04-04 22:54 MO_JOJOJO 阅读(1195) 评论(0) 推荐(0) 编辑

公告