05 2020 档案

摘要:一.重复值处理:直接删除为主。一般先处理重复行,再处理唯一值列。 以行为单位,查看重复值 df[df.duplicated()] 以行为单位,删除重复值 df.drop_duplicates() 以某列(如ID)为单位,查看重复值 df[df.duplicated('ID')] 以某列(如ID)为单 阅读全文
posted @ 2020-05-26 11:28 chliyiyu 阅读(593) 评论(0) 推荐(0)
摘要:Jupyter Notebook 写分析步骤性较方便,在里面设置可以使用R语言时直接在Anaconda prompt中运行: conda install -c r r-essentials 阅读全文
posted @ 2020-05-23 10:35 chliyiyu 阅读(674) 评论(0) 推荐(0)
摘要:回归分析是关于因变量和自变量之间相关性的一种研究,因变量呢,我们常记做Y,然后它是我们感兴趣的一个研究的问题,比如说借款人是否坏客户,X是可能对Y有影响的一些自变量。这个设定一方面是基于我们的经验,就是哪一些自变量会对应变量可能有影响,另一方面呢,是基于我们对数据的一种可获取性,就比如说我手上的数据 阅读全文
posted @ 2020-05-08 08:48 chliyiyu 阅读(1104) 评论(0) 推荐(0)
摘要:模型基本思想 回归分析的英文是regression analysis,它是现在数据分析里面用的最多的方法之一吧,也可以说是非常重要的一种统计思想,大学学习的第一个模型就是回归模型,回归分析是一门特别重要的专业课,所以足见这个方法的重要性。首先回归分析能解决什么问题,在做实际数据分析的时候我们经常会遇 阅读全文
posted @ 2020-05-07 17:22 chliyiyu 阅读(1125) 评论(0) 推荐(0)