摘要: Exploratory data analysis (EDA) 是一种分析数据的方法。通常用于建模之前,以便总结数据的主要特征,从而更好的了解数据集,提取各变量之间的关系。 以下将总结几种常用的方法。 Descriptive Statistics 通常在开始分析数据时,我们会粗略的浏览一下数据,而 阅读全文
posted @ 2022-02-16 14:05 yukiwu 阅读(200) 评论(0) 推荐(0)
摘要: 数据清洗是数据分析非常关键的一个步骤,也是一个必须的步骤。 这里记录了主要是记录如果利用 Python 来理解原始数据以及清洗数据。比如说如何处理缺失值,如何处理字段乱码,如何统一日期格式等等。 Handling Missing Value 对于某个字段内的缺失值,我们首先要分析一下为什么会出现缺失 阅读全文
posted @ 2022-02-09 17:54 yukiwu 阅读(87) 评论(0) 推荐(0)
摘要: 这里主要是整理 SQL 一些进阶的语法,方便自己不记得的时候可以快速查找。 Nested SELECT /* general syntax */ SELECT column1, column2 FROM table1 WHERE column1 OPERATOR (SELECT column1 FR 阅读全文
posted @ 2021-12-09 16:43 yukiwu 阅读(54) 评论(0) 推荐(0)
摘要: 这里主要是整理 SQL 一些进阶的语法,方便自己不记得的时候可以快速查找。 String Patterns /* LIKE */ SELECT column1, column2, ... FROM table1 WHERE column1 LIKE '%pattern%'; /* BETWEEN . 阅读全文
posted @ 2021-12-08 18:49 yukiwu 阅读(69) 评论(0) 推荐(0)
摘要: 这里主要是整理 SQL 一些基础的“增删查改”的语法,方便自己不记得的时候可以快速查找。 SELECT Statement /* general syntax */ SELECT column1, column2, ... FROM table1; /* retrieve all columns * 阅读全文
posted @ 2021-12-07 18:59 yukiwu 阅读(63) 评论(0) 推荐(0)
摘要: Retrieving Data over HTTP Python 内置了 sockets 可以实现与网络连接并通过 Python 提取数据的功能。 socket 是可以提供双向连接的,我们可以对同一个 socket 进行读写操作。比方说,A 对 socket 写入信息,并且将其发送给 socket 阅读全文
posted @ 2021-04-07 15:28 yukiwu 阅读(754) 评论(0) 推荐(0)
摘要: Regular Expression (正则表达式) 是一种功能十分强大,但是又十分难以解读的古老的编程语言。通常的编程语言是以行作为最基础的解释单位,而 regular expression 则是以字符为基础解释单位。 Regular Expression Module 正则表达式在文本处理和文本 阅读全文
posted @ 2021-03-16 10:11 yukiwu 阅读(422) 评论(0) 推荐(0)
摘要: dictionaries 与 list 一样,也是 collections 的一种,但同时也是最为强大的一种。 list 是一种线性集合,集合内各种元素按顺序排列。而 dictionaries 则像一个袋子里装有各种元素,每个元素之间有各自的标签,但是各个元素之间并非按照固定的顺序排列的。 Dict 阅读全文
posted @ 2021-03-14 20:15 yukiwu 阅读(107) 评论(0) 推荐(0)
摘要: 工作机缘,近期需要给客户做公司产品与 Python 的结合相关的培训。 在整理培训材料的时候就想着,何不趁着这个机会把 Python 的知识点也做一个整理与总结呢?一来可以当做是复习和巩固,二来也方便自己日后查找与回顾。 于是就有了这个学习笔记的系列。 #### List list 是容器数据类型( 阅读全文
posted @ 2021-02-22 20:36 yukiwu 阅读(179) 评论(0) 推荐(0)
摘要: 在之前分享的链家二手房数据分析的练习中用到了 K-Means 聚类分析方法,所以就顺道一起复习一下 K-Means 的基础知识好了。 K-Means 聚类分析可将样本分为若干个集群,它的核心思想就是使某集群的数据点与其对应的中心之间的距离最小。所以 K-Means 聚类分析通常会假设已知集群的中心或 阅读全文
posted @ 2019-08-13 22:33 yukiwu 阅读(1106) 评论(0) 推荐(0)
摘要: 在比较数据的均值时,我们可能知道: 1. 比较工厂当天生产的零件的长度是否合格 (length >= N mm),用 t-Test; 2. 比较各一线城市的人均收入,用 ANOVA。 其实均值比较还有很多检验方法,要怎么选?脑阔疼! 今天终于花了点时间自己总结了一下: 阅读全文
posted @ 2019-06-04 22:48 yukiwu 阅读(771) 评论(0) 推荐(0)