哈尔滨金融学院--实验指导(二):利用AI大模型辅助学生完成金融数据分析综合实践作业--零代码实现聚类分析任务

实验指导(二):利用AI大模型辅助学生完成金融数据分析综合实践作业--零代码实现聚类分析任务

1、实验目的

  • 掌握通过上传表格文件,利用AI大模型辅助进行数据分析的方法
  • 掌握完全利用AI大模型模型,零代码完成数据聚类任务的方法

2、实验内容

在前序实验指导中,已经介绍了如何利用AI大模型进行辅助编程的方法。前序的任务中,假定的场景为学生基于本地的数据进行分析,开发工具为本地的Anaconda环境,在开发的过程中,辅助利用AI大模型改正和完成自己的部分代码。本实验更进一步地,将数据上传到AI大模型平台,通过提示词,零代码学生自己不写任何代码)的完成数据聚类任务。本次作为背景内容的实验案例为仍为《农村地区居民人均可支配收入水平综合评价》综合实践任务,实验给定一个表格(见附件7),表格文件名为: 农村居民人均可支配收入来源2016.xlsx ,表格的数据为2016年我国31个省、自治区和直辖市的农村地区居民的工资性收入、经营净收入、财产净收入、转移净收入,要求学生根据每个省份的这四个指标数据,使用聚类技术,将居民收入分布比较类似的省份划分到一起。AI大模型平台为前序实验指导中的智谱清言(ChatGLM),之前注册的账号可以继续使用。

本次实验的代码可以分为三个部分,分别为:

  • (1) 上传数据到智谱清言的“数据分析”智能体中
  • (2) 使用合适的提示词,让该智能体自动完成描述型数据分析
  • (3) 使用合适的提示词,让该智能体自动完成聚类分析任务

3、实验步骤

3.1 上传表格文件到"数据分析"智能体中

AI大模型的智能体(Agent)指的是一个能够在特定环境中感知、决策和行动的自主系统。智谱清言的智能体是基于其平台的大语言模型GLM-4创建的,允许用户无需编程经验即可创建个性化的智能体。这些智能体能够实现聊天、代码执行、数据分析等功能。由于数据分析功能的需求广泛存在,所以智谱清言在其智能体中心中默认已经配置好了“数据分析”智能体。我们可以直接与这个智能体进行交互。
步骤如下:

    1. 访问 https://chatglm.cn/
    1. 在页面中找到数据分析智能体,点击进行该智能体
    1. 将农村居民人均可支配收入来源2016.xlsx上传到该智能体中(在输入框出有一个上传按钮,点击即可),并输入下面的提示词:
      Student:请基于该文件里面的数据内容,根据我下面的指令,完成任务。

不出意外的,“数据分析”智能体会读取我们上传的表格,并自动的显示表格的前5行(这是“数据分析”智能体的默认配置行为),并会给我们一些可以进行哪些任务的提示。

3.2 描述型数据分析:直接输入下面的提示词,让ChatGLM完成下面的3个小任务

    1. 哪一个城市的工资性收入最高?
    1. 财产净收入收入垫底的5个省份是哪些?
    1. 北京市农村居民的收入总和是多少?
    1. 自己再设计3个描述型数据分析的小任务,并设计对应的提示词,和ChatGLM进行交互,将结果记录在实验手册上

教师提示:在你和ChatGLM使用上面的提示词进行交互的过程中,也许你未必能够得到正确的结果。如果不正确,请修改提示词,重新和ChatGLM进行交互,直到你获得正确的结果。

3.3 零代码完成聚类分析任务

众所周知,我国省份众多,在经济发展过程中,呈现明显的区域性差异。在农村居民收入这一个指标上,也应该有类似的体现。为了验证这一点结论,我们基于聚类分析的思想,利用ChatGLM完全零代码的完成任务,并让ChatGLM帮助我们对聚类结果进行分析。输入下面的提示词。

Student: 基于该数据集,在农村居民收入这个指标上,哪些省份比较类似呢?
ChatGLM: 要确定哪些省份在农村居民收入方面比较相似,我们可以使用聚类分析。聚类分析可以帮助我们根据收入指标将省份分组,从而找出相似的省份群体。我们将使用以下步骤进行聚类分析:

  • 数据预处理:标准化数据,使每个特征具有相同的尺度。
  • 选择聚类算法:在这里,我们可以使用 K-means 聚类算法。
  • 确定聚类数:使用肘部法则来确定最佳的聚类数。
  • 执行聚类:使用选定的聚类数运行 K-means 算法。
  • 分析结果:分析聚类结果以确定哪些省份在收入方面相似。
    ......
    [ChatGLM回答完毕]

教师提示:下面的介绍基于教师与ChatGLM进行对话的结果,也许与你的不同,你需要结合自己与ChatGLM对话的结果进行分析
不出意外的话,ChatGLM可以帮助我们自动完成了聚类,默认的聚类数是3,将表格中的所有省份分成了3组,其中 群组1包括了“北京、天津、上海、浙江”,群组2包括了"河北、辽宁、江苏、福建、山东、广东",其余省份被分在群组3。群组1包含了北京、天津、上海等经济较发达的直辖市和浙江省,其工资性收入远高于其他两个群组,这可能反映了这些地区更高的经济发展水平和工资水平。

假如你对这个聚类结果不满意,想划分为更多的类,比如4个,可以继续和ChatGLM进行交互,使用下面的提示词:
Student:设定聚类数量为4,重新完成上述过程。

教师提示:聚类本身属于机器学习中的无监督学习方法,另外K均值聚类有一定的随机性,聚类结果是否合理需要人手动来判断

最终,通过你不停的设定提示词和ChatGLM进行交互,将你认为合理的聚类结果记录在实验手册上。

4. 实验总结

  • (1) 请回答:在实验中你收获哪些AI技巧?
  • (2) 请回答:在实验中你解决了哪些问题?
  • (3) 请回答:在实验中你还存在哪些问题没有解决?

5.附件1:表格数据

地区 工资性收入 经营净收入 财产净收入 转移净收入
北京 16637.5 2061.9 1350.1 2260
天津 12048.1 5309.4 893.7 1824.4
河北 6263.2 3970 257.5 1428.6
山西 5204.4 2729.9 149 1999.1
内蒙古 2448.9 6215.7 452.6 2491.7
辽宁 5071.2 5635.5 257.6 1916.4
吉林 2363.1 7558.9 231.8 1969.1
黑龙江 2430.5 6425.9 572.7 2402.6
上海 18947.9 1387.9 859.6 4325
江苏 8731.7 5283.1 606 2984.8
浙江 14204.3 5621.9 661.8 2378.1
安徽 4291.4 4596.1 186.7 2646.2
福建 6785.2 5821.5 255.7 2136.9
江西 4954.7 4692.3 204.4 2286.4
山东 5569.1 6266.6 358.7 1759.7
河南 4228 4643.2 168 2657.6
湖北 4023 5534 158.6 3009.3
湖南 4946.2 4138.6 143.1 2702.5
广东 7255.3 3883.6 365.8 3007.5
广西 2848.1 4759.2 149.2 2603
海南 4764.9 5315.7 139.1 1623.1
重庆 3965.6 4150.1 295.8 3137.3
四川 3737.6 4525.2 268.5 2671.8
贵州 3211 3115.8 67.1 1696.3
云南 2553.9 5043.7 152.2 1270.1
西藏 2204.9 5237.9 148.7 1502.3
陕西 3916 3057.9 159 2263.6
甘肃 2125 3261.4 128.4 1942
青海 2464.3 3197 325.2 2677.8
宁夏 3906.1 3937.5 291.8 1716.3
新疆 2527.1 5642 222.8 1791.3
posted @ 2024-07-13 03:38  哈金融张春越老师  阅读(175)  评论(0)    收藏  举报