04 2020 档案

摘要:1. 数据清洗 1.1 数据质量概念 数据清洗是保证数据质量的重要步骤,数据质量最重要的方面是准确性、完整性、一致性,其次还有时效性、可信性、可解释性。 数据质量对于数据的不同适用对象而言重要性不同。 数据质量问题有很多源头: 人为性问题: 人为的偶然因素:如记忆偏差、测量偏差; 人为的系统因素:采 阅读全文
posted @ 2020-04-10 21:40 MO_JOJOJO 阅读(712) 评论(0) 推荐(0)
摘要:0. 需求 当训练的数据非常多时,是不希望分配过多的内存将数据存入,否则其他占用内存的数据处理步骤就没法进行了。我们最好是以小批量地方式读入数据,然后预处理,然后送到网络,之后释放内存,以此循环。 1. 方法的简要说明 tf.keras中有一个高度封装的图片预处理类:ImageDataGenerat 阅读全文
posted @ 2020-04-10 02:14 MO_JOJOJO 阅读(1073) 评论(0) 推荐(0)
摘要:最好用的时间序列处理工具是pandas,它里面的各个主要的类继承了性能很好的np.datetime64,基于它构建的时间类型的数组能够实现快速的向量化运算。pandas处理时间序列支持的功能:解析来自各种来源和格式的时间序列信息生成固定频率日期和时间范围的序列使用时区信息处理和转换日期时间将时间序列 阅读全文
posted @ 2020-04-07 17:12 MO_JOJOJO 阅读(524) 评论(0) 推荐(0)
摘要:来看一看美化后的jupyter notebook代码字体比默认的宋体好看,是吧本机chorme浏览器的外观设置下载地址链接:https://pan.baidu.com/s/197IVMCkhTlEUr63QGkFjUw 提取码:jodc安装方法打开‘控制面板’ → ‘外观与个性化’→‘字体’→“将字 阅读全文
posted @ 2020-04-07 10:47 MO_JOJOJO 阅读(891) 评论(0) 推荐(0)
摘要:转载知乎: https://zhuanlan.zhihu.com/p/58749285 这个工具类似R shiny 、tableau。 感觉适合用于做一些轻量级dashboard之类的数据透视性质的展示(之后我找个数据自己尝试着做一个demo),Rshiny写起来还是比较麻烦的因为语法不美观,tab 阅读全文
posted @ 2020-04-06 20:48 MO_JOJOJO 阅读(1244) 评论(0) 推荐(0)
摘要:地名地址解析可用于: 地址型分类变量的概念分层 空间可视化:解析坐标 代码及预览 https://github.com/JoJoJohnSnow/JPnotes/blob/master/notes/%E5%9C%B0%E5%9D%80%E5%9C%B0%E5%90%8D%E8%A7%A3%E6%9E 阅读全文
posted @ 2020-04-06 18:48 MO_JOJOJO 阅读(3820) 评论(0) 推荐(0)
摘要:将notebook文件上传至github 在github中打开文件. 复制地址. 打开jupyter nbviever网址, 产生新的网址 在markdown模式下用下列代码嵌入jupyter notebook: <iframe src="jupyter nbviewer得到的新网址" width= 阅读全文
posted @ 2020-04-06 16:23 MO_JOJOJO 阅读(336) 评论(0) 推荐(0)
摘要:这4种模型是集成模型中的提升树类别。(其他的类别还有装袋树(如RandomForest)、模型堆叠(stack)) 基于树模型的boosting方法是常用的,因为树模型相较于线性模型有更强的非线性拟合的能力。 其中xgboost、lightgbm在众多的数据竞赛中表现出优秀的预测能力。 (本文通俗地 阅读全文
posted @ 2020-04-05 13:38 MO_JOJOJO 阅读(676) 评论(0) 推荐(0)
摘要:实体嵌入(embedding)目的将表格数据中的分类属性(一个至多个)向量化。 1.实体嵌入简介: 实体嵌入是主要应用于深度学习中处理表格分类数据的一种技术,或者更确切地说NLP领域最为常用,word2vec就是在做词的实体嵌入。 神经网络相比于当下的流行的xgboost、LGBM等树模型并不能很好 阅读全文
posted @ 2020-04-05 00:06 MO_JOJOJO 阅读(2859) 评论(0) 推荐(0)
摘要:类不平衡问题是分类任务中常遇到的问题,有的时候标签的真实数据分布本身就是不平衡的。如何改善类不平衡问题,参考《applied predictive modeling》p290-p300,给出以下方案。有2个角度:数据角度、模型训练角度 数据角度 1.调整样本权重 这种方法主要是在提升法为基础的算法中 阅读全文
posted @ 2020-04-04 22:54 MO_JOJOJO 阅读(1288) 评论(0) 推荐(0)
摘要:0.卷积层的理解 实际上卷积核(convolution kernel)不是真的卷积,而是类似一个输入和输出之间的线性表达式. 为什么叫做卷积呢, 因为两个次序上相邻的NxN卷积核有N-1的重叠. 本质上卷积核是一个线性过滤式, 比如输入时4x4的小宏块, 卷积核过滤的结果相当于一次线性计算. 卷积核 阅读全文
posted @ 2020-04-02 21:48 MO_JOJOJO 阅读(16135) 评论(1) 推荐(5)
摘要:tf2.0推荐的模型搭建方法是: 继承tf.keras.Model类,进行扩展以定义自己的新模型。 手工编写模型训练、评估模型的流程。 (优点:灵活度高;与其他深度学习框架共通) 以CNN处理单通道图片作为示例: class CNN(tf.keras.Model): def __init__(sel 阅读全文
posted @ 2020-04-02 20:28 MO_JOJOJO 阅读(1499) 评论(0) 推荐(0)
摘要:以下符号在latex的写法如下:小写: $\phi$ \phi 大写: $\Phi$ \Phi 阅读全文
posted @ 2020-04-02 20:11 MO_JOJOJO 阅读(1890) 评论(0) 推荐(0)
摘要:1. 基本算法 1.1 随机梯度下降 1.2 动量算法 1.3 nesterov动量算法 2. 自适应学习率算法 2.1 AdaGrad 2.2 RMSProp 2.3 Adam 1.1 随机梯度下降 从数据集中随机抽取m个小批量样本(满足样本独立同分布),这样对每一个样本计算前馈损失,然后用前馈损 阅读全文
posted @ 2020-04-01 23:51 MO_JOJOJO 阅读(553) 评论(0) 推荐(0)
摘要:深度学习在训练模型的时候,通常使用迭代优化算法来搜寻代价函数的极小值。初始值对算法影响的方面:1.影响优化算法是否收敛,有的初始点的选择会造成数值问题(梯度消失);2.影响算法的收敛速度;3.影响算法收敛于高代价或低代价的极值点4.收敛于相同代价值的不同初始点,很可能学习出不同的参数分布,在泛化能力 阅读全文
posted @ 2020-04-01 20:54 MO_JOJOJO 阅读(1818) 评论(0) 推荐(0)
摘要:软件名称:Mathpix Snipping Tool 费用:免费 方式:图片识别 适用对象:手写体、印刷体 转换结果:Latex格式 下载链接:https://mathpix.com/ (官方版)(试用50次)(可用不同邮箱注册多个账号,或推广产品赚取免费次数) 生成的latex代码: \hat{g 阅读全文
posted @ 2020-04-01 15:18 MO_JOJOJO 阅读(1402) 评论(0) 推荐(0)
摘要:硕士阶段做过用户聚类,聚类变量包括连续型和分类型。将连续型聚类变量的尺度放缩到 [0,1] 之间,分类型变量one-hot转化,然后聚类。你会发现问题:最后你在计算聚类中心的数值时,分类型变量在各个聚类中心间的差异较大,而连续型的变量差异较小。 为了弄明白原因,我进一步展开实验:首先,我用方差来量化 阅读全文
posted @ 2020-04-01 11:54 MO_JOJOJO 阅读(741) 评论(0) 推荐(0)
摘要:1.优化时间算法复杂度2.减少冗余数据3.合理使用copy和deepcopy4.合理使用生成器(generator)和(yield)5.优化循环 循环之外能做的事不要放在循环内6.优化包含多个判断表达式的顺序,对于and,应该把瞒住条减少的放在前面,对于or,把满足条件多的挡在前面7.判断过程中尽量 阅读全文
posted @ 2020-04-01 10:35 MO_JOJOJO 阅读(435) 评论(0) 推荐(0)