摘要:内容概要: 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 混杂数据最重要的一个问题就是:怎么知道是否是混杂的数据。 下面准备使用 NYC 311 服务 阅读全文
posted @ 2018-01-02 14:09 CodingStar 阅读(1090) 评论(1) 推荐(1) 编辑
摘要:条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列 阅读全文
posted @ 2018-01-30 10:37 CodingStar 阅读(543) 评论(0) 推荐(0) 编辑
摘要:上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下 召回率和 f1。 真实结果 真实结果 预测结果 预测结果 预测结果 预测结果 正例 正例 反例 反例 正例 正例 TP 真正例 TP 真正例 FN 假反例 FN 假反例 反例 反 阅读全文
posted @ 2018-01-29 00:28 CodingStar 阅读(870) 评论(0) 推荐(0) 编辑
摘要:据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作。例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关键字。分析空间数据的时候,一般会把带单位(米、千米)的数据转换为“单元性数据”,这样,在算法的时候,就不需要考虑具体的单位。数据预处理不是凭 阅读全文
posted @ 2018-01-25 07:15 CodingStar 阅读(1466) 评论(9) 推荐(0) 编辑
摘要:如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 如果你在使用 Pandas(Python Dat 阅读全文
posted @ 2018-01-24 07:30 CodingStar 阅读(668) 评论(2) 推荐(1) 编辑
摘要:不想总结 2017,过去的就过去吧,不过自己在 2017 年还是收获了很多。2018 最重要的就是赚钱,因为要买奶粉了。赚钱还是需要两把刷子,所以,2018 的小目标就是学习数据分析和机器学习。希望自己在这两个领域能搞点事情。 不想总结 2017,过去的就过去吧,不过自己在 2017 年还是收获了很 阅读全文
posted @ 2018-01-08 07:17 CodingStar 阅读(825) 评论(3) 推荐(2) 编辑
摘要:数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据不正确(格式不正确,数据不准确,数据缺失)我们做什么都是徒劳。数据清洗时数据分析的第一步,也是最耗时的一步。 数据清洗很枯燥,但是随着数据清理技巧越来越熟练,就有越有可能从他人无从下 阅读全文
posted @ 2018-01-06 11:50 CodingStar 阅读(2073) 评论(0) 推荐(0) 编辑
摘要:预览数据 这次我们使用 Artworks.csv ,我们选取 100 行数据来完成本次内容。具体步骤: DataFrame 是 Pandas 内置的数据展示的结构,展示速度很快,通过 DataFrame 我们就可以快速的预览和分析数据。代码如下: 统计日期数据 我们仔细观察一下 Date 列的数据, 阅读全文
posted @ 2018-01-05 08:08 CodingStar 阅读(2055) 评论(1) 推荐(1) 编辑
摘要:概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的。我们尝试去理解数据的列/行、记录、数据格式、语义错误、缺失的条目以及错误的格式,这样我们就可以大概了解数据分析之前要做哪些“清理”工作。 本次我们需要一个 patient_h 阅读全文
posted @ 2018-01-04 07:20 CodingStar 阅读(13392) 评论(1) 推荐(2) 编辑
摘要:概要 概要 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 准备工作 检查数据 处理缺失数据 添加默认值 删除不完整的行 删除不完整的列 规范化数据类型 必要的转换 重命名列名 保存结果 更多资源 Pandas 阅读全文
posted @ 2018-01-03 08:17 CodingStar 阅读(13986) 评论(2) 推荐(2) 编辑
摘要:内容概要: 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 我们怎么知道是混乱的数据 修复 nan 值和字符串/浮点类型的混乱问题 “-”怎么处理 整合代码 混杂数据最重要的一个问题就是:怎么知道是否是混杂的数据。 下面准备使用 NYC 311 服务 阅读全文
posted @ 2018-01-02 14:09 CodingStar 阅读(1090) 评论(1) 推荐(1) 编辑