课程名称:大数据库技术与应用  

 3.导出csv文件:

 4.数据分析展示:

import pandas as pd
import matplotlib.pyplot as plt
 
# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
 
# 读取CSV文件
df = pd.read_csv('huizongbiao.csv')
 
# 按地区分组并计算各地区的应用行业占比
hebei_data = df[df['shengshiqu'] == '河北']
beijing_data = df[df['shengshiqu'] == '北京']
tianjin_data = df[df['shengshiqu'] == '天津']
 
def plot_pie_and_bar(data, title):
    # 计算应用行业占比
    industry_counts = data['yingyonghangye'].value_counts()
 
    # 只保留前五,其余用"其他"代指
    top_industries = industry_counts.head(5)
    other_count = industry_counts[5:].sum()
    top_industries['其他'] = other_count
 
    total_count = len(data)
    industry_percentages = top_industries / total_count * 100
 
    # 绘制饼状图
    plt.figure(figsize=(10, 6))
    plt.subplot(1, 2, 1)
    plt.pie(industry_percentages, labels=industry_percentages.index, autopct='%1.1f%%', startangle=140)
    plt.title(f'{title} - 行业占比')
 
    # 绘制柱状图
    plt.subplot(1, 2, 2)
    top_industries.plot(kind='bar')
    plt.title(f'{title} - 行业分布 (前五)')
    plt.xlabel('应用行业')
    plt.ylabel('数量')
 
    plt.tight_layout()
    plt.show()
 
# 绘制河北地区的图表
plot_pie_and_bar(hebei_data, '河北')
 
# 绘制北京地区的图表
plot_pie_and_bar(beijing_data, '北京')
 
# 绘制天津地区的图表
plot_pie_and_bar(tianjin_data, '天津')