（1）选择df中列标签为animal和age的数据

df[['animal','age']]
df.loc[:,['animal','age']]
df.iloc[:,:2]

（2）选择行为[3, 4, 8]，且列为['animal', 'age']中的数据

df.iloc[[3,4,8],:2]

（3）选择visits大于3的行

df[df.visits>=3]

（4）选择animal为cat，且age小于3的行

df[(df.animal=='cat') & (df.age<3)]

（5）将f行的age改为1.5

df.loc['f','age'] = 1.5

（6）计算visits列的数据总和

df.visits.sum()

（7）计算每种animal的个数(cat有几个，dog几个...)

df.animal.value_counts()

（8）先根据age降序排列，再根据visits升序排列

df.sort_values(by = ['age','visits'],ascending = [False,True])

第一题

array_2d=np.arange(1,10).reshape(3,3)请问array_2d[0,2][1,2]的结果是多少？

array_2d 的定义：
import numpy as np
array_2d = np.arange(1, 10).reshape(3, 3)

这段代码会生成以下二维数组：
array_2d =
[[1 2 3]
 [4 5 6]
 [7 8 9]]

要访问第一行第三列的元素，可以使用 array_2d[0, 2]：
element = array_2d[0, 2]
print(element)  # 3


要访问第二行第三列的元素，用类似的方法：
python
element = array_2d[1, 2]
print(element)  # 6

第二题

import pandas as pd

# 创建示例数据
data = {
    'name': ['Jack', 'Sarah', 'Mike', 'David'],
    'age': [24, 30, 21, 29],
    'height': [175, 165, 180, 170]
}

# 创建 DataFrame
df = pd.DataFrame(data)

输出 df[1:4][0:1]['age'] 结果?


在代码 df[1:4][0:1]['age'] 中，如果要按照你的意图进行操作，可以按照以下方式来执行：
df[1:4] 选择 DataFrame 中的第 2 行到第 4 行（不包括第 4 行）。
[0:1] 接着选择选定的 DataFrame 的第 1 行。
最后，['age'] 选择结果中的 'age' 列。
因此，输出结果为：
2    30
Name: age, dtype: int64
这表示从第 2 行选取 'age' 列，即值为 30。

第三题

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8],
    'C': [9, 10, 11, None]
})

# 删除 DataFrame 中的缺失数据
df = df.dropna()

# 打印删除缺失数据后的 DataFrame
print(df)

第四题:利用python内置的pip工具安装scikit-learn库的命名为？

要使用Python内置的pip工具安装scikit-learn库，你可以使用以下命令：
pip install scikit-learn
执行这个命令将会从Python包索引（PyPI）中下载并安装scikit-learn库。

第五题

补全下面代码，求解方程的值？
B=np.array([c1],[10],[4])
X=np.linaly.Solve(A,B)


import numpy as np
# 定义方程组的系数矩阵 A
A = np.array([[1, 1, 0], [1, 0, 1], [3, -1, 1]])
# 定义等号右边的常数向量 B
B = np.array([[1], [2], [10]])
# 求解方程组
X = np.linalg.solve(A, B)
print(X)

简答题1：K_means算法用到的模块是什么?

K-means算法在Python中的实现通常使用的是scikit-learn库。scikit-learn是一个强大的机器学习库，它包含了许多常用的机器学习算法，包括K-means聚类算法。在 Python 中，K-Means 算法通常使用 sklearn（scikit-learn）模块中的 KMeans 类来实现。因此，需要从 sklearn.cluster 模块中导入 KMeans 类来使用 K-Means 算法。
我们使用了以下模块：
numpy：用于创建和操作数组。
sklearn.cluster.KMeans：scikit-learn中的K-means聚类算法实现。
matplotlib.pyplot：用于绘制图形，帮助可视化聚类结果。

简答题2：scikit-learn中k_mean算法用到的模块是什么，创建kmeans模型的语句通常是什么？

在 scikit-learn 中，K-Means 算法的模块是 sklearn.cluster，其中提供了 KMeans 类来执行 K-Means 聚类。要创建 KMeans 模型，需要导入 KMeans 类并使用适当的参数进行实例化。
from sklearn.cluster import KMeans

# 创建K均值聚类模型并指定聚类簇数k
kmeans = KMeans(n_clusters=k)
其中，n_clusters参数用于指定聚类的簇数。可以根据具体需求设置不同的聚类簇数。



Kmeans算法思想
首先需要确定常数k，常数k意味着最终的聚类类别数，在确定了k值后，随机选定k个初始点为质心，并通过计算每一个样本点与质心之间的相似度（这里为欧式距离），根据点到质心欧氏距离大小，可以确定每个样本点应该和哪一个质心归为同一类数据，接着，根据这一轮的聚类结果重新计算每个类别的质心（即类中心），再对每一个点重新归类，重复以上分类过程，直到质心不再改变，就最终确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上K-Means算法的收敛速度比较慢。

简答题3:什么是RFM分析模型？

RFM分析模型是一种客户分析方法，它通过对客户的最近一次购买时间（Recency）、购买频率（Frequency）和消费金额（Monetary）进行综合评估，将客户划分成不同的层级，以便更好地理解客户的价值和行为特征。这个模型可以帮助企业识别出哪些客户可能是高价值客户，从而有针对性地进行营销和服务。

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过客户活跃程度和交易金额的贡献，进行客户价值细分。RFM模型主要根据以下三个指标来分析客户价值：
R（Recency）：最近一次交易时间间隔。基于最近一次交易日期计算的一个值，距离当前日期越近，价值越高。
F（Frequency）：客户在最近一段时间内交易次数。基于交易频率计算的一个值，交易频率越高，价值越高。
M（Monetary）：客户最近一段时间内交易金额。基于交易金额计算的一个值，交易金额越高，价值越高。

简答题4:为什么要清洗数据？

在大数据领域，数据清洗是一个至关重要的步骤，具有以下重要原因：
 ①数据质量： 清洗数据可帮助提高数据质量，消除数据中的错误、缺失值和不一致性，确保数据准确性和完整性。
②准确分析： 清洗数据有助于提高数据分析的准确性。有效的数据清洗可以消除重复项、异常值和噪音数据，从而确保分析结果不受到影响。
 ③提高效率： 清洗数据可以提高数据处理和分析的效率。使用清洗后的数据集可以减少处理时间，并确保在处理大规模数据时不会出现错误。
④保护隐私： 在清洗数据的过程中，可以剔除包含敏感信息的数据，以保护个人隐私和数据安全。
 ⑤提升决策质量： 基于经过清洗的高质量数据进行决策能够提高决策的质量和准确性，从而帮助组织做出更明智的战略和业务决策。
⑥数据一致性： 数据清洗有助于确保数据的一致性，使得数据在不同系统之间、不同时间点之间能够保持一致性，从而提高数据的可靠性和可比性。

从各种渠道获得的源数据大多是“脏”数据，不符合人们的需求，如数据中含有唯一数据或重复数据、异常数据(包含错误或存在偏离期望的异常值，如age=”-10”，明显是错误数据），以及数据不完整（如缺少属性值）等。而我们在使用数据的过程中对数据的要求是具有一致性、准确性、完整性、时效性、可信性、可解释性。

posted on 2024-06-17 20:52 Cloudservice 阅读(37) 评论(0) 收藏举报

python题目

（1）选择df中列标签为animal和age的数据

（2）选择行为[3, 4, 8]，且列为['animal', 'age']中的数据

（3）选择visits大于3的行

（4）选择animal为cat，且age小于3的行

（5）将f行的age改为1.5

（6）计算visits列的数据总和

（7）计算每种animal的个数(cat有几个，dog几个...)

（8）先根据age降序排列，再根据visits升序排列

第一题

第二题

第三题

第四题:利用python内置的pip工具安装scikit-learn库的命名为？

第五题

简答题1：K_means算法用到的模块是什么?

简答题2：scikit-learn中k_mean算法用到的模块是什么，创建kmeans模型的语句通常是什么？

简答题3:什么是RFM分析模型？

简答题4:为什么要清洗数据？