随笔分类 - 数据分析
摘要:14丨数据可视化:掌握数据领域的万金油技能 可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等 15丨一次学会Python数据可视化的10种技能 散点图、
阅读全文
摘要:13 数据变换:考试成绩要求正态分布合理么? 数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。 常见的变换方法: 1)数据平滑;2)数据聚集;3)数据概化;4)数据规范化;5)属性构造 其中数据规范化可以通过sklearn库实现
阅读全文
摘要:12 数据集成:这些大号一共20亿粉丝? kettle:将各种数据放到一个壶里,然后以一种指定的格式流出 DataX :DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互,它将自己作为标准,连接了不同的数据源,以完成它们之间的转换 Apache 的 Sqoop:Hadoop 和关系型
阅读全文
摘要:11 数据科学家80%时间都花费在了这些清洗任务上? 没有高质量的数据,就没有高质量的数据挖掘,而数据清洗是高质量数据的一道保障。 数据质量的准则——完全合一 完整性:单条数据是否存在空值,统计的字段是否完善。 全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均
阅读全文
摘要:08 数据采集:如何自动化采集数据? 重点介绍爬虫做抓取 1.Python 爬虫 1)使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方
阅读全文
摘要:06 学数据分析要掌握哪些基本概念 商业智能 BI、数据仓库 DW、数据挖掘 DM : 三者之间的关系开头中的百货商店利用数据预测用户购物行为属于商业智能, 他们积累的顾客的消费行为习惯会存储在数据仓库中, 通过对个体进行消费行为分析总结出来的规律属于数据挖掘。 07 用户画像:标签化就是数据的抽
阅读全文
摘要:本讲内容: 1.Pandas 两个数据结构:Series 和 DataFrame。 2.数据处理。 1)数据导入与输出 2)数据清洗操作 3)数据统计函数 4)数据表join合并 5)在 Pandas 中使用 SQL 对数据表更方便地进行操作 数据结构:Series 和 DataFrame Seri
阅读全文
摘要:开篇:数据分析学习方法、框架、内容与目标 高效的学习方法: MAS 方法 Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它。 Ask:不懂就问,程序员大多都很羞涩,突破这一点,不懂就问最重要。 Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理 技术
阅读全文
摘要:主要讲了numpy的struct格式、ufunc运算、ndarray统计函数、排序 代码:
阅读全文