数据科学——数据预处理

第一次作业

第一次作业

第一题

题目描述

现已使用 Pandas 读取数据集 challenge.csv

请提取该数据集的字段名称，将结果存为 cols
请获取给数据的字段和样本数量，将结果分别存为 col_num 和 sam_num
请获取该数据集的前五行记录，将最后的 DataFrame 存为 five_data

代码：

import pandas as pd
path = "./data/insurance.csv"
titannic = pd.read_csv(path)   #将这个csv文件读取进来

'''查看该数据集的前2条数据'''
# print(titannic.head(0))   #看一下前20行

'''提取该数据集的字段名称，将结果保存为cols'''
cols = titannic.columns
cols = [col.lower() for col in cols]
print(cols)

'''获取给出的数据的字段和样本数量，将结果分别存为col_num和sam_num'''
col_num = titannic.shape[1]
sam_num = titannic.shape[0]; sam_num = len(titannic)
print("col_num is:", col_num)
print("sam_num is: ", sam_num)

'''获取数据集的前五行记录，将最后的DataFrame存为five_data'''
five_data = titannic.head(5)
print(five_data)

总结与思考

pandas库中里面有很多封装好的对表格数据进行操作的函数；
pd.read_csv(path)：读取path文件，创建一个pandas对象；
head(x)：读取数据中的前面x行数据；
.columns: 读取数据集中的字段
.shape：获取数据集中的(行，列)
len(pandas对象)：得到这个对象的行的数量

第二题

题目描述

使用 scipy 库中的 stats 模块，对生成的数据进行正态性检验，将检验的结果存为 model

代码：

import numpy as np
from scipy import stats
test_data = np.random.random(size = 100)

'''输出结果中第一个为统计量，第二个为P值（统计量越接近1越表明数据和正态分布拟合的好，
P值大于指定的显著性水平，接受原假设，认为样本来自服从正态分布的总体）'''
model = stats.shapiro(test_data); print(model)

'''输出结果中第一个为统计量，第二个为P值（注：统计量越接近0就越表明数据和标准正态分布拟合的越好，
如果P值大于显著性水平，通常是0.05，接受原假设，则判断样本的总体服从正态分布）'''
model = stats.kstest(test_data, 'norm')
print(model)

'''输出结果中第一个为统计量，第二个为P值（注：p值大于显著性水平0.05，认为样本数据符合正态分布）'''
model = stats.normaltest(test_data)
print(model)

总结与思考

有三个函数都可以进行正态分布检验，分别为：stats.shapiro(), stats.kstest(), stats.normaltest()

第三题

题目描述

3. 下列属于衡量数据整体散度的是（b,c）：

a. 欧式距离

b. 标准差

c. 分位数

d. 众数

总结与思考

欧氏距离：L2范式,绝对距离,是欧几里得空间中两点间“普通”（即直线）距离；根据公式，我认为这个是用来衡量两个样本之间的距离。
算术平均值，中值，最大值，最小值，分位数，方差都分别是一种度量数据中心趋势和离散程度，描述数据汇总的图形显示的手段

第四题

题目描述

现已使用 Pandas 生成 Series 对象 example_data

请使用 isnull()函数确定 example_data 是否含有缺失值，将最后的结果存为 boolean_array
请使用 fillna()函数使用字符串 missing 替换缺失值，将替换后的 Series 对象存为 new_data

代码

import pandas as pd
import numpy as np
example_data = pd.Series([1,2,3,np.nan,4])
# 判断是否含有缺失值
boolean_array = example_data.isnull()
print(boolean_array)
# 缺失值替换
new_data = example_data.fillna("missing")
print(new_data)

总结与思考

Pandas生成的数据集对象可以直接调用isnull()函数，isnull()函数对于此处为缺失值，返回True，此处不为缺失值，则返回False
DataFrame.fillna()；可以将所有NaN元素进行替换，可以向前或向后传播非null值，也可以指定填充连续数量的NaN元素。

第五题

题目描述

现已使用 Pandas 读取数据集 birthrate.csv
请对该数据集的 birth_rates 特征使用四分位数作为切分点，通过 qcut()函数完成等频离散化; 将最后的结果存为 data_qcut
该数据集详情为
1-5

代码

import pandas as pd
data = pd.read_csv('./data/birthrate.csv')
#请在下面作答
data_qcut = pd.qcut(data["birth_rates"], [0,0.25,0.5,0.75,1])
print(data_qcut)
data_qcut = pd.qcut(data["birth_rates"], 4)
print(data_qcut)

总结

pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')；x ：一维数组或者Serise；q ：表示分位数的整数或者数组；如果是分位数的整数，例如10用于十分位，4用于四分位；如果是分位数数组，例如[0,0.25,0.5,0.75,1]用于四分位数
等频离散化，将特征分成k个区间，每个区间里面的样本数量是一样的（区间长度可能不一致）。等距离散化，将特征分成k个区间，每个区间长度一样。等频离散化的好处：基于模型需要啊，更加容易理解等缺点：容易使相同的特征值分到不同的区间。

第六题

题目描述

实现

总结与思考

最小二乘法和加大似然估计方法，最后都变成了对同一个函数求其偏导，由于这个线性模型是可以直接使用求偏导的形式求出其解析解；但是像一些混合模型，则不能直接得到解析解，例如高斯混合模型，这时候对于含有隐变量的模型，可以考虑使用EM算法等方法通过求其近似解来逼近其最优解。

第七题

题目描述

实现1

这里我是直接使用了最小二乘法进行求解；通过最小二乘法，分别求出参数a和参数b的偏导，得到a与b的解析解；代码中a与b我通过直接表达其算式，来得到；求出a与b之后，直接带入方程；
最后，通过描出数据集的点()
画出确定了a与b拟合的方程

import matplotlib.pyplot as plt

# 数据
X = [0, 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11, 12, 12]
Y = [42, 44, 51, 48, 51, 54, 57, 54, 57, 63, 61, 69, 70, 70, 70, 72, 74, 83, 84, 81, 84, 85, 91, 86, 91, 95]

# 计算X,Y的平均值
Y_ = sum(Y) / len(Y); X_ = sum(X) / len(X)

# 计算Y = a + b * X   中的  a 与 b
temp_mu = 0; temp_zi = 0
for tmp_zip in zip(X, Y):
    x = tmp_zip[0]; y = tmp_zip[1]
    temp_mu = x * x + temp_mu
    temp_zi = x * y + temp_zi
b = (temp_zi - len(X) * X_ * Y_) /  (temp_mu - len(X) * X_ * X_)
a = Y_ - b * X_

print(a); print(b)

# 计算预测值
Y_predict = []
for x in X:
    tmp_y = a + b * x
    Y_predict.append(tmp_y)

# 画出蓝色的数据点，红色的拟合曲线
plt.scatter(X, Y, c="blue")
plt.plot(X, Y_predict, c="red")
plt.show()

'''代码是可以直接运行的'''

实现二

直接调用sklearn中的LinearRegression

from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
import numpy as np

X = [0, 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10, 11, 11,12, 12]
Y = [42, 44, 51, 48, 51, 54, 57, 54, 57, 63, 61, 69, 70, 70, 70, 72, 74, 83, 84, 81, 84, 85, 91, 86, 91, 95]

# LinearRegression需要列式数据
X_train = np.array(X).reshape(len(X), 1)
Y_train = np.array(Y).reshape(len(Y), 1)

'''求解线性回归方程参数时，首先判断训练集X是否是稀疏矩阵，如果是，就用Golub&Kanlan双对角线化过程方法来求解；
否则调用C库中LAPACK中的用基于分治法的奇异值分解来求解;进行训练，sklearn中并不是使用梯度下降法求解线性回归，
而是使用最小二乘法求解(源码里面可以看到'''
'''fit_intercept:模型是否存在截距
normalize:模型是否对数据进行标准化（在回归之前，对X减去平均值再除以二范数），如果fit_intercept被设置为False时，该参数将忽略。
该函数有属性：coef_可供查看模型训练后得到的估计系数，如果获取的估计系数太大，说明模型有可能过拟合。'''
LineModule = LinearRegression()
LineModule.fit(X_train, Y_train)

#进行预测
Y_predict = LineModule.predict(X_train)

#画图
plt.scatter(X, Y, c = "blue")
plt.plot(X, Y_predict, c = "red")
plt.show()

'''可以直接运行'''

总结与思考

求解线性回归方程参数时，首先判断训练集X是否是稀疏矩阵，如果是，就用Golub&Kanlan双对角线化过程方法来求解；否则调用C库中LAPACK中的用基于分治法的奇异值分解来求解;进行训练，sklearn中并不是使用梯度下降法求解线性回归，而是使用最小二乘法求解。
fit_intercept:模型是否存在截距
normalize:模型是否对数据进行标准化（在回归之前，对X减去平均值再除以二范数），如果fit_intercept被设置为False时，该参数将忽略。
coef_可供查看模型训练后得到的估计系数，如果获取的估计系数太大，说明模型有可能过拟合。
我手动实现的和直接调库的结果图是一样的。

第八题

题目描述

实现

这道题目，我通过求出题目中f(x)的原函数f(x)；从而求f(x)=0，变成了求F(x)的极值点；（这样就可以使用到梯度下降法）
首先观察，可以发现x = 0是在所有极值点的左边的，然后F(x)函数只有三个极值点；
我首先去确定了x的初始值为x1 = 0;学习率 = 0.1；通过X_fi来存储迭代过程中找到的极值点；
确定了初始值和学习率后；就需要开始迭代了，由于F(X)有三个极值点，通过观察其有着极小值点，极大值点，极小值点；所以，x1 = x1 - (gradient * learning_rate)，x1 = x1 + (gradient * learning_rate)，x1 = x1 - (gradient * learning_rate)；我通过设置了一个布尔类型f1来控制算式的变换；
在实现的过程中，还有一个很重要的问题是，当找到一个极值点后，如何跳跃到后边的点以找到下一个极值点；对于这个问题，我采用的方法是：第一次中，我找到斜率的绝对值接近0.3，将这个时候的x记录下来；当找到第一个极值点后，通过其对称性，对称到另一边(x1 = x1 + (x1 - x01))，此时记录下跳跃后的点，为下一次跳跃做准备；下一次同理，依然是记录上一次跳跃的点，即x01。
在上一个步骤中，值得一提的是为什么我指定斜率为0.3；这个地方，我是直接去调试了代码，发现每次跳跃后，他们的斜率的绝对值都存在着大于0.3的情况（大概是0.3...，小于0.4），所以我就直接指定0.3了(最开始我指定的是1，然后没得到答案，后来发现原来后边的斜率绝对值就全部都小于1)
由于知道这个函数的极值点数量为3，所以当我找到了3个极值点后，我就直接终止迭代，最终得到最后的答案
梯度下降的过程，我使用蓝色的点绘画了出来，并使用了蓝色的线链接了起来；为了方便观察，我使用了红色的线画出了F(X)的图像。
最后的三个答案，我在控制台打印了出来

答案是：x = 1, x = 2, x = 3 (经过验证，是正确的)

import matplotlib.pyplot as plt

# 初始化x1
x1 = 0
x01 = x1
learning_rate = 0.1
X_fi = []
X = []; Y = []
f1 = True
cnt = 0

def f(x):
    return 0.25 * (x ** 4) - 2 * (x ** 3) + 11 * (x ** 2) / 2 - 6 * x

def qiudao(x):
    return x * x * x - 6 * x * x + 11 * x - 6

for i in range(1000):
    X.append(x1); Y.append(f(x1))
    if(cnt == 3):
        break
    dao_x1 = qiudao(x1)
    print("dao_x1: ", dao_x1)

    if(cnt == 0):
        if(abs(dao_x1) >= 0.3):
            x01 = x1

    if(f1):
        x1 = x1 - learning_rate * dao_x1
        if(dao_x1 >= -1e-4):
            f1 = False
            X_fi.append(x1)
            cnt += 1
            x1 = x1 + (x1 - x01)
            x01 = x1


    else:
        x1 = x1 + learning_rate * dao_x1
        if(dao_x1 <= 1e-4):
            f1 = True
            X_fi.append(x1)
            cnt += 1
            x1 = x1 + (x1 - x01)
            x01 = x1

print(X_fi)

'''画图'''
# 函数
X_f, Y_f = [], []
x = -0.2
while(x <= 3.7):
    X_f.append(x)
    Y_f.append(f(x))
    x += 0.01
plt.plot(X_f, Y_f, c = "red")
# 梯度下降过程
plt.scatter(X, Y, s = 12, c = "blue")
plt.plot(X, Y, c = "blue")
plt.show()

总结与思考

梯度下降是一种通过迭代的方法来找到函数的局部最值点；但是当函数有多个极值点时，需要去改变迭代的符号，因为每次寻找到的梯度方向是数值增加最快的方向；所以，极小值点要减去它，极大值点要加上它；
梯度下降的过程中，学习率和迭代次数都是超参数，有时候需要进行调试，才能找到一个合适的(我第一次设置成0.001，10000000，跑了很久没跑出来)
在这次的作业中，我是手写的（以前没写过，写起来还是花了很长时间，算法思路也变换了几次，最后才找到这个我觉得比较合适的）；
应该还有矩阵计算的方式来求解(更具有普遍性，因为需要考虑多元函数的情况)，通过调用numpy以及封装好的库，由于时间关系，我就没有继续去写这个版本的代码了，后边有时间需要补上。

第九题

题目描述

9. [自学牛顿方法] 牛顿方法和梯度下降法有什么异同点？请写出牛顿方法的推导过程，编程实现牛顿方法求解上一题，并编程绘图展示迭代计算过程。
梯度下降与牛顿迭代方法的异同点

相同点：

都是通过迭代的方式进行求解
都可以求局部的最值点

不同点：

牛顿迭代的过程中，每一步都指定了一定的步长；而梯度下降的学习率是我们自己指定的，且一直不变；所以，牛顿迭代在时间上会更快一些。
牛顿法，利用到了函数的二阶导，收敛速度相对于梯度下降会快很多(多元的话就是海塞矩阵的逆对应着梯度下降的学习率)

牛顿方法的推导过程
9niu01
9niu02
算法实现

算法思想1：

我首先设置x = 0找到最左边的零点；然后设置一个比较大的x(可以是100，考虑到要进行画图，我设置的4)找到最右边的零点；最后取这两个零点的平均值，最后再进行一次牛顿迭代，得到中间的零点。

算法思路2：

虽然思路不同，但是代码却可以是一样的（这个思路是我在看牛顿法和梯度下降法的区别时发现的）
和上一题同样，这道题目中求零点的问题，同样可以转化为求f(x)的原函数F(x)的极值点问题；此时代码中的f(x)：看作是F(x)的一阶导；gra(x)看作是F(x)的二阶导。此时通过泰勒二阶展开，可以得到推导公式：x = x - f'(x) / f''(x)。

import matplotlib.pyplot as plt

def f(x):
    return (x ** 3) - 6 * (x ** 2) + 11 * x - 6
def gra(x):
    return 3 * (x ** 2) - 12 * x + 11
X = []
x = 0
cnt = 0

'''画图'''
X_, Y_ = [], []
X_niudun, Y_niudun = [], []
x = 0
while(x <= 4):
    X_.append(x)
    Y_.append(f(x))
    x += 0.1

'''算法核心'''
x = 0
while(cnt == 0):
    fx = f(x); grax = gra(x)
    X_niudun.append(x)
    if(abs(fx / grax) <= 1e-4):
        X.append(x)
        cnt += 1
        break
    x = x - fx / grax

x = 4
while(cnt == 1):
    fx = f(x); grax = gra(x)
    X_niudun.append(x)
    if(abs(fx / grax) <= 1e-4):
        X.append(x)
        cnt += 1
        break
    x = x - fx / grax

x = (X[0] + X[1]) / 2
while(cnt == 2):
    fx = f(x); grax = gra(x)
    X_niudun.append(x)
    if (abs(fx / grax) <= 1e-4):
        X.append(x)
        cnt += 1
        break
    x = x - fx / grax

print(X)

sorted(X_niudun)
for i in X_niudun:
    Y_niudun.append(f(i))

'''函数 + 牛顿迭代'''
plt.plot(X_, Y_, c = "red")
# 梯度下降过程
plt.scatter(X_niudun, Y_niudun, s = 12, c = "blue")
for (i, j) in zip(X_niudun, Y_niudun):
    plt.plot([i + (0 - j) / gra(i), i], [0, j], c = "blue", linestyle=':')
plt.plot([0, 5], [0, 0], c = "blue")
plt.show()

9jieguo
总结与思考

梯度下降和牛顿法都属于优化算法；其中当求极值点时，牛顿法的收敛速度会更快一些，因为它考虑到了函数的二阶导，而梯度下降只考虑到了函数的一阶导
听说牛顿法更消耗资源，因为海塞矩阵的缘故；梯度下降法也可以通过步长不断降低来优化，但是降低多少也算是一个超参数了（没写过，直觉）；
牛顿法如果用来求最值点，应该会受到鞍点的影响（没写过）；梯度下降法求最值点，也会有到一个局部最值点的问题。这道题目由于函数的缘故，一看就知道有几个点；但是如果继续进行扩展的话，就不好说了；这两个算法都有其局限性，
梯度：步长问题，局部最值点问题；牛顿：计算资源问题，鞍点问题。

第十题

题目描述

10. 数据标准化是将数据按比例缩放到一个特定区间，其主要包括数据同趋化处理和无量纲化处理两个方面。数据标准化的方法有很多种，常用的有最小-最大标准化和 z-score 标准化。请用户对本题中的变量(不包括变量 ID)进行 z-score 标准化；数据说明：本题数据来自 KEEL，数据集一共包含 1 列 ID，4 列特征变量，共100 个样本点。
10-0
实现
首先我通过random随机取生成0 - 200.0的数据并保存到keel.csv文件中；然后，读取csv文件中的数据，并对其进行修改，最终保存。

import csv
import numpy as np
import pandas as pd
'''
生成数据并保存到csv文件中
'''
# 1.创建文件对象
f = open('./data/keel.csv', 'w', encoding='utf-8', newline="")
# 2.基于文件对象构建csv写入对象
csv_write = csv.writer(f)
# 3.构建列表头
csv_write.writerow(['ID', 'CT', 'FA', 'WT', 'SP'])
# 4. 随机生成数据
random = np.random.RandomState(0)#RandomState生成随机数种子
A = []
for i in range(500):#随机数个数
    a = random.uniform(0, 200.0)#随机数范围
    round(a, 1)#随机数精度要求
    A.append(a)
# 5.将数据写入csv文件
for i in range(100):
    csv_write.writerow([i + 1, A[i], A[i + 100], A[i + 200], A[i + 400]])
# 6.关闭文件
f.close()

'''读取文件中的数据，并进行z-score操作'''
data = pd.read_csv('./data/keel.csv')
print(data.head(10))
E, FD = [], []
cols = data.columns
# 求均值
for i in range(4):
    x = data[cols[i + 1]]
    tmp = 0
    for j in x:
        tmp += j
    E.append(tmp / len(data))
# 求标准差
for i in range(4):
    x = data[cols[i + 1]]
    tmp = 0
    for j in x:
        tmp += (j - E[i - 1]) ** 2
    FD.append((tmp / len(data)) ** 0.5)
f = True
dic = {'CT': 0, 'FA': 1, 'WT': 2, 'SP': 3}
dic_reverse = {0: 'CT', 1: 'FA', 2: 'WT', 3: 'SP'}
feature = ['CT', 'FA', 'WT', 'SP']

for i in range(len(data)):
    for j in feature:
        data.loc[i, j] = (data.loc[i, j] - E[dic[j]]) / FD[dic[j]]

data.to_csv('./data/keel.csv')
print(data.head(10))

分别查看数据处理前后，成功修改了文件
10jieguo
总结与思考

这道题目，算法思路没啥难度，关键在于要知道Pandas如何对文件进行操作，如读操作，修改操作。
通过Uniform()函数可以指定random()生成数据的范围；使用round()函数可以修改生成的数据的精度。
C语言中可以直接用map进行映射，对应到Python中则是使用字典可以随意映射
通过data.loc可以对读取的数据保存的DataFrame文件进行修改
通过to_csv()函数，可以将DataFrame对象保存到指定的文件中。

posted @ 2021-10-05 10:31 pha创噬阅读(837) 评论(2) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

pha创噬

数据科学——数据预处理

第一次作业

第一题

第二题

第三题

第四题

第五题

第六题

第七题

第八题

第九题

第十题

公告