04 2020 档案

摘要:1、期望-随机变量的平均值 每次试验中,一个离散型随机变量的期望值是试验中每一次可能出现的结果的概率乘以其结果的总和。 期望数学公式: X是一个离散型的随机变量,可能取值x1,x2...,对应概率p1,p2...。 说明:期望类似均值,但均值针对于数据集,期望描述的是随机变量的概率分布,概率分布描述 阅读全文
posted @ 2020-04-26 17:03 傅余生 阅读(4119) 评论(0) 推荐(0)
摘要:1. 事件 互斥事件-不可能同时发生的事件,其含义是:事件A与事件B在任何一次试验中不会同时发生。满足A∩B = Φ、P(A∩B) = 0,则P(A∪B) = P(A) + P(B)且P(A) + P(B) ≤ 1。 对立事件-事件A与事件B不能同时发生,且事件A与事件B在任何一次试验中“必有一个发 阅读全文
posted @ 2020-04-24 22:46 傅余生 阅读(3191) 评论(0) 推荐(0)
摘要:1. value_counts() value_counts()是Series的方法,用于计算非重复值出现的次数并默认从高到低排序,在DataFrame中通常指定某列。 也经常使用Data.'colunm'.value_counts().count() 计算非重复值个数。 2. groupby() 阅读全文
posted @ 2020-04-23 16:21 傅余生 阅读(973) 评论(0) 推荐(0)
摘要:一、常见的SQL面试题:经典50题。 来自于知乎分享https://zhuanlan.zhihu.com/p/38354000(部分题目) 表结构: 学生表:student(学号,学生姓名,出生年月,性别) 成绩表:score(学号,课程号,成绩) 课程表:course(课程号,课程名称,教师号) 阅读全文
posted @ 2020-04-19 15:00 傅余生 阅读(1586) 评论(0) 推荐(0)
摘要:频度分析-用一定的分类方法将数组分类,统计各分组下样本数量,以图表辅助,用更直观的方式描述出数组的分布趋势。 业务意义:在实际数据分析工作中,经常需要将数据按照某个维度分段进行指标统计,以发现问题和解决问题。 例子:一个班40个学生,考试成绩如下: [73,87,88,65,73,76,80,95, 阅读全文
posted @ 2020-04-16 01:54 傅余生 阅读(2230) 评论(0) 推荐(0)
摘要:1.数组的集中趋势-如何定义数组的中心 1.1 常用几下几个指标来描述一个数组的集中趋势 均值-算术平均数 。 中位数-将数组升序或降序排列后,位于中间的数。 众数-数组中出现最多的数。 1.2 指标特点 优点 缺点 均值 充分利用所有数据,包含最多信息量,适用性强,应用最为广泛 极易受到异常值的影 阅读全文
posted @ 2020-04-15 17:08 傅余生 阅读(2909) 评论(0) 推荐(0)
摘要:Pandas是基于NumPy的一种数据分析工具,提供了大量使我们快速便捷处理数据的函数和方法。 中文官网地址:https://www.pypandas.cn Pandas基于两种数据类型:Series数组与DataFrame数据表。 Series对象(带索引index的一维数组) import pa 阅读全文
posted @ 2020-04-05 16:29 傅余生 阅读(382) 评论(0) 推荐(0)
摘要:NumPy是一个开源的Python科学计算库,用于快速处理任意维度的数组。 创建NumPy数组 #创建一维数组 list1 = [1,2,3,4] array1= np.array(list1)#用python列表创建np数组 array1= np.array(range(10))#用python内 阅读全文
posted @ 2020-04-01 17:23 傅余生 阅读(208) 评论(0) 推荐(0)