课程名称:大数据库技术与应用
3.导出csv文件:

4.数据分析展示:
import pandas as pd import matplotlib.pyplot as plt # 设置中文显示 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 读取CSV文件 df = pd.read_csv('huizongbiao.csv') # 按地区分组并计算各地区的应用行业占比 hebei_data = df[df['shengshiqu'] == '河北'] beijing_data = df[df['shengshiqu'] == '北京'] tianjin_data = df[df['shengshiqu'] == '天津'] def plot_pie_and_bar(data, title): # 计算应用行业占比 industry_counts = data['yingyonghangye'].value_counts() # 只保留前五,其余用"其他"代指 top_industries = industry_counts.head(5) other_count = industry_counts[5:].sum() top_industries['其他'] = other_count total_count = len(data) industry_percentages = top_industries / total_count * 100 # 绘制饼状图 plt.figure(figsize=(10, 6)) plt.subplot(1, 2, 1) plt.pie(industry_percentages, labels=industry_percentages.index, autopct='%1.1f%%', startangle=140) plt.title(f'{title} - 行业占比') # 绘制柱状图 plt.subplot(1, 2, 2) top_industries.plot(kind='bar') plt.title(f'{title} - 行业分布 (前五)') plt.xlabel('应用行业') plt.ylabel('数量') plt.tight_layout() plt.show() # 绘制河北地区的图表 plot_pie_and_bar(hebei_data, '河北') # 绘制北京地区的图表 plot_pie_and_bar(beijing_data, '北京') # 绘制天津地区的图表 plot_pie_and_bar(tianjin_data, '天津')


浙公网安备 33010602011771号